Potoki danych. Leksykon kieszonkowy. Przenoszenie i przetwarzanie danych na potrzeby ich analizy - Helion
Tytuł oryginału: Data Pipelines Pocket Reference: Moving and Processing Data for Analytics
TÅ‚umaczenie: Robert G
ISBN: 978-83-8322-339-1
stron: 256, Format: ebook
Data wydania: 2023-03-01
Księgarnia: Helion
Cena książki: 24,95 zł (poprzednio: 49,90 zł)
Oszczędzasz: 50% (-24,95 zł)
Osoby które kupowały "Potoki danych. Leksykon kieszonkowy. Przenoszenie i przetwarzanie danych na potrzeby ich analizy", wybierały także:
- Data Science w Pythonie. Kurs video. Algorytmy uczenia maszynowego 199,00 zł, (59,70 zł -70%)
- Power BI Desktop. Kurs video. Wykorzystanie narzędzia w analizie i wizualizacji danych 349,00 zł, (104,70 zł -70%)
- Statystyka. Kurs video. Przewodnik dla student 128,71 zł, (39,90 zł -69%)
- Microsoft Excel. Kurs video. Wykresy i wizualizacja danych 199,00 zł, (69,65 zł -65%)
- Analiza danych w Tableau. Kurs video. Podstawy pracy analityka 249,00 zł, (87,15 zł -65%)
Spis treści
Potoki danych. Leksykon kieszonkowy. Przenoszenie i przetwarzanie danych na potrzeby ich analizy eBook -- spis treści
Spis treści
Wprowadzenie
RozdziaÅ‚ 1. Wprowadzenie do potoków danych
- Czym jest potok danych?
- Kto tworzy potok danych?
- Podstawy pracy z SQL i hurtowniami danych
- Python i/lub Java
- Przetwarzanie rozproszone
- Podstawowa administracja systemem
- Nastawienie bazujÄ…ce na celach
- Dlaczego w ogóle sÄ… tworzone potoki danych?
- Jak jest tworzony potok danych?
Rozdział 2. Nowoczesna infrastruktura danych
- Różnorodność źródeÅ‚ danych
- WÅ‚asność źródÅ‚a danych
- Interfejs pobierania danych i ich struktura
- Wolumen danych
- Czystość danych i ich weryfikacja
- Opóźnienie i przepustowość systemu źródÅ‚owego
- Jezioro danych i hurtownia danych w chmurze
- Narzędzia pobierania danych
- Przekształcanie danych i narzędzia modelowania
- Platformy narzędzi koordynacji sposobu pracy
- Skierowany graf acykliczny
- Dostosowanie infrastruktury danych do własnych potrzeb
RozdziaÅ‚ 3. Najczęściej spotykane wzorce potoków danych
- ETL i ELT
- Pojawienie siÄ™ ELT po ETL
- Podwzorzec EtLT
- ELT w analizie danych
- ELT dla naukowca
- ELT dla produktów danych i uczenia maszynowego
- Etapy potoku danych dla uczenia maszynowego
- Wykorzystanie informacji zwrotnych w potoku
- WiÄ™cej zasobów dotyczÄ…cych potoków danych dla uczenia maszynowego
Rozdział 4. Pobieranie danych - wyodrębnianie
- Przygotowanie środowiska Pythona
- Przygotowanie plikowego magazynu danych w chmurze
- Wyodrębnianie danych z bazy danych MySQL
- Pełne i przyrostowe wyodrębnianie danych z tabeli MySQL
- Binarny dziennik zdarzeń replikacji danych MySQL
- Wyodrębnianie danych z bazy danych PostgreSQL
- Pełne i przyrostowe wyodrębnianie danych z tabeli PostgreSQL
- Replikacja danych za pomocą dziennika zdarzeń WAL
- Wyodrębnianie danych z API REST
- Wyodrębnianie danych z bazy danych MongoDB
- Strumieniowane pobieranie danych za pomocÄ… Kafki i Debezium
Rozdział 5. Pobieranie danych - wczytywanie
- Konfiguracja hurtowni danych Amazon Redshift jako miejsca docelowego
- Wczytywanie danych do hurtowni danych Redshift
- Wczytywanie przyrostowe a pełne
- Wczytywanie danych wyodrębnionych z dziennika zdarzeń CDC
- Konfiguracja hurtowni danych Snowflake jako miejsca docelowego
- Wczytywanie danych do hurtowni danych Snowflake
- Używanie plikowego magazynu danych jako jeziora danych
- Frameworki typu open source
- Alternatywy komercyjne
Rozdział 6. Przekształcanie danych
- Przekształcenia pozbawione kontekstu
- UsuniÄ™cie powtarzajÄ…cych siÄ™ rekordów w tabeli
- Przetwarzanie adresów URL
- Kiedy powinno odbywać się przekształcanie - podczas pobierania danych czy już po?
- Podstawy modelowania danych
- Najważniejsze pojęcia związane z modelowaniem danych
- Modelowanie w pełni odświeżonych danych
- Powolna zmiana wymiarów w celu peÅ‚nego odÅ›wieżenia danych
- Modelowanie przyrostowo pobieranych danych
- Modelowanie danych, które sÄ… tylko doÅ‚Ä…czane
- Modelowanie zmiany przechwytywanych danych
RozdziaÅ‚ 7. NarzÄ™dzia instrumentacji potoków danych
- Skierowany graf acykliczny
- Konfiguracja Apache Airflow i ogólne omówienie tego frameworka
- Instalacja i konfiguracja
- Baza danych Apache Airflow
- Serwer WWW i interfejs użytkownika
- Harmonogram
- Wykonawca
- Operatory
- Tworzenie skierowanego grafu acyklicznego za pomocÄ… Apache Airflow
- Prosty skierowany graf acykliczny
- Skierowany graf acykliczny potoku danych ELT
- Dodatkowe zadania potoku danych
- Komunikaty i powiadomienia
- Weryfikacja danych
- Zaawansowane konfiguracje koordynacji
- Połączone a niepołączone zadania potoku danych
- Kiedy podzielić skierowany graf acykliczny?
- Koordynacja wielu grafów za pomocÄ… operatora Sensor
- ZarzÄ…dzane opcje Apache Airflow
- Inne frameworki koordynacji
Rozdział 8. Weryfikacja danych w potoku
- Weryfikuj wcześnie i często
- Jakość danych w systemie źródÅ‚owym
- Niebezpieczeństwa związane z pobieraniem danych
- Umożliwienie analitykowi weryfikacji danych
- Prosty framework weryfikacji
- Kod frameworka weryfikacji
- Struktura testu weryfikacyjnego
- Wykonywanie testu weryfikacyjnego
- Używanie frameworka w skierowanym grafie acyklicznym Apache Airflow
- Kiedy zatrzymać wykonywanie potoku, a kiedy tylko wygenerować ostrzeżenie i kontynuować potok?
- Rozbudowa frameworka
- PrzykÅ‚ady testów weryfikacyjnych
- Powielone rekordy po operacji pobierania danych
- Nieoczekiwana zmiana liczby rekordów po operacji pobierania danych
- Fluktuacje wartoÅ›ci wskaźników
- Komercyjne i niekomercyjne frameworki do weryfikacji danych
Rozdział 9. Najlepsze praktyki podczas pracy z potokiem danych
- ObsÅ‚uga zmian w systemach źródÅ‚owych
- Wprowadzenie abstrakcji
- ObsÅ‚uga kontraktów danych
- Ograniczenia schematu podczas odczytu
- Skalowanie złożoności
- Standaryzacja pobierania danych
- Wielokrotne używanie logiki modelu danych
- Zapewnienie spójnoÅ›ci zależnoÅ›ci
Rozdział 10. Pomiar i monitorowanie wydajności działania potoku danych
- Kluczowe wskaźniki potoku
- Przygotowanie hurtowni danych
- Schemat infrastruktury danych
- Rejestrowanie danych i sprawdzanie wydajności działania operacji pobierania danych
- Pobieranie z Apache Airflow historii wykonania poszczególnych skierowanych grafów acyklicznych
- Dodawanie funkcjonalności rejestrowania danych do frameworka weryfikacji danych
- Przekształcanie danych dotyczących wydajności działania
- Wskaźnik sukcesu skierowanego grafu acyklicznego
- Zmiana czasu wykonywania skierowanego grafu acyklicznego na przestrzeni czasu
- Liczba testów weryfikacyjnych i wspóÅ‚czynnik sukcesu
- Koordynacja wydajności działania potoku
- Skierowany graf acykliczny dotyczący wydajności działania
- Przejrzystość wydajności działania
Skorowidz