reklama - zainteresowany?

Potoki danych. Leksykon kieszonkowy. Przenoszenie i przetwarzanie danych na potrzeby ich analizy - Helion

Potoki danych. Leksykon kieszonkowy. Przenoszenie i przetwarzanie danych na potrzeby ich analizy
ebook
Autor: James Densmore
Tytuł oryginału: Data Pipelines Pocket Reference: Moving and Processing Data for Analytics
TÅ‚umaczenie: Robert G
ISBN: 978-83-8322-339-1
stron: 256, Format: ebook
Data wydania: 2023-03-01
Księgarnia: Helion

Cena książki: 24,95 zł (poprzednio: 49,90 zł)
Oszczędzasz: 50% (-24,95 zł)

Dodaj do koszyka Potoki danych. Leksykon kieszonkowy. Przenoszenie i przetwarzanie danych na potrzeby ich analizy

Tagi: Analiza danych | Inne | Uczenie maszynowe

Poprawnie zaprojektowane i wdro

Dodaj do koszyka Potoki danych. Leksykon kieszonkowy. Przenoszenie i przetwarzanie danych na potrzeby ich analizy

 

Osoby które kupowały "Potoki danych. Leksykon kieszonkowy. Przenoszenie i przetwarzanie danych na potrzeby ich analizy", wybierały także:

  • Data Science w Pythonie. Kurs video. Przetwarzanie i analiza danych
  • Excel 2013. Kurs video. Poziom drugi. Przetwarzanie i analiza danych
  • Zarz
  • Eksploracja danych za pomoc
  • Google Analytics od podstaw. Analiza wp

Dodaj do koszyka Potoki danych. Leksykon kieszonkowy. Przenoszenie i przetwarzanie danych na potrzeby ich analizy

Spis treści

Potoki danych. Leksykon kieszonkowy. Przenoszenie i przetwarzanie danych na potrzeby ich analizy eBook -- spis treści

Spis treści

Wprowadzenie

RozdziaÅ‚ 1. Wprowadzenie do potoków danych

  • Czym jest potok danych?
  • Kto tworzy potok danych?
    • Podstawy pracy z SQL i hurtowniami danych
    • Python i/lub Java
    • Przetwarzanie rozproszone
    • Podstawowa administracja systemem
    • Nastawienie bazujÄ…ce na celach
  • Dlaczego w ogóle sÄ… tworzone potoki danych?
  • Jak jest tworzony potok danych?

Rozdział 2. Nowoczesna infrastruktura danych

  • Różnorodność źródeÅ‚ danych
    • WÅ‚asność źródÅ‚a danych
    • Interfejs pobierania danych i ich struktura
    • Wolumen danych
    • Czystość danych i ich weryfikacja
    • Opóźnienie i przepustowość systemu źródÅ‚owego
  • Jezioro danych i hurtownia danych w chmurze
  • NarzÄ™dzia pobierania danych
  • PrzeksztaÅ‚canie danych i narzÄ™dzia modelowania
  • Platformy narzÄ™dzi koordynacji sposobu pracy
    • Skierowany graf acykliczny
  • Dostosowanie infrastruktury danych do wÅ‚asnych potrzeb

RozdziaÅ‚ 3. Najczęściej spotykane wzorce potoków danych

  • ETL i ELT
  • Pojawienie siÄ™ ELT po ETL
  • Podwzorzec EtLT
  • ELT w analizie danych
  • ELT dla naukowca
  • ELT dla produktów danych i uczenia maszynowego
    • Etapy potoku danych dla uczenia maszynowego
    • Wykorzystanie informacji zwrotnych w potoku
    • WiÄ™cej zasobów dotyczÄ…cych potoków danych dla uczenia maszynowego

Rozdział 4. Pobieranie danych - wyodrębnianie

  • Przygotowanie Å›rodowiska Pythona
  • Przygotowanie plikowego magazynu danych w chmurze
  • WyodrÄ™bnianie danych z bazy danych MySQL
    • PeÅ‚ne i przyrostowe wyodrÄ™bnianie danych z tabeli MySQL
    • Binarny dziennik zdarzeÅ„ replikacji danych MySQL
  • WyodrÄ™bnianie danych z bazy danych PostgreSQL
    • PeÅ‚ne i przyrostowe wyodrÄ™bnianie danych z tabeli PostgreSQL
    • Replikacja danych za pomocÄ… dziennika zdarzeÅ„ WAL
  • WyodrÄ™bnianie danych z API REST
  • WyodrÄ™bnianie danych z bazy danych MongoDB
  • Strumieniowane pobieranie danych za pomocÄ… Kafki i Debezium

Rozdział 5. Pobieranie danych - wczytywanie

  • Konfiguracja hurtowni danych Amazon Redshift jako miejsca docelowego
  • Wczytywanie danych do hurtowni danych Redshift
    • Wczytywanie przyrostowe a peÅ‚ne
    • Wczytywanie danych wyodrÄ™bnionych z dziennika zdarzeÅ„ CDC
  • Konfiguracja hurtowni danych Snowflake jako miejsca docelowego
  • Wczytywanie danych do hurtowni danych Snowflake
  • Używanie plikowego magazynu danych jako jeziora danych
  • Frameworki typu open source
  • Alternatywy komercyjne

Rozdział 6. Przekształcanie danych

  • PrzeksztaÅ‚cenia pozbawione kontekstu
    • UsuniÄ™cie powtarzajÄ…cych siÄ™ rekordów w tabeli
    • Przetwarzanie adresów URL
  • Kiedy powinno odbywać siÄ™ przeksztaÅ‚canie - podczas pobierania danych czy już po?
  • Podstawy modelowania danych
    • Najważniejsze pojÄ™cia zwiÄ…zane z modelowaniem danych
    • Modelowanie w peÅ‚ni odÅ›wieżonych danych
    • Powolna zmiana wymiarów w celu peÅ‚nego odÅ›wieżenia danych
    • Modelowanie przyrostowo pobieranych danych
    • Modelowanie danych, które sÄ… tylko doÅ‚Ä…czane
    • Modelowanie zmiany przechwytywanych danych

RozdziaÅ‚ 7. NarzÄ™dzia instrumentacji potoków danych

  • Skierowany graf acykliczny
  • Konfiguracja Apache Airflow i ogólne omówienie tego frameworka
    • Instalacja i konfiguracja
    • Baza danych Apache Airflow
    • Serwer WWW i interfejs użytkownika
    • Harmonogram
    • Wykonawca
    • Operatory
  • Tworzenie skierowanego grafu acyklicznego za pomocÄ… Apache Airflow
    • Prosty skierowany graf acykliczny
    • Skierowany graf acykliczny potoku danych ELT
  • Dodatkowe zadania potoku danych
    • Komunikaty i powiadomienia
    • Weryfikacja danych
  • Zaawansowane konfiguracje koordynacji
    • PoÅ‚Ä…czone a niepoÅ‚Ä…czone zadania potoku danych
    • Kiedy podzielić skierowany graf acykliczny?
    • Koordynacja wielu grafów za pomocÄ… operatora Sensor
  • ZarzÄ…dzane opcje Apache Airflow
  • Inne frameworki koordynacji

Rozdział 8. Weryfikacja danych w potoku

  • Weryfikuj wczeÅ›nie i czÄ™sto
    • Jakość danych w systemie źródÅ‚owym
    • NiebezpieczeÅ„stwa zwiÄ…zane z pobieraniem danych
    • Umożliwienie analitykowi weryfikacji danych
  • Prosty framework weryfikacji
    • Kod frameworka weryfikacji
    • Struktura testu weryfikacyjnego
    • Wykonywanie testu weryfikacyjnego
    • Używanie frameworka w skierowanym grafie acyklicznym Apache Airflow
    • Kiedy zatrzymać wykonywanie potoku, a kiedy tylko wygenerować ostrzeżenie i kontynuować potok?
    • Rozbudowa frameworka
  • PrzykÅ‚ady testów weryfikacyjnych
    • Powielone rekordy po operacji pobierania danych
    • Nieoczekiwana zmiana liczby rekordów po operacji pobierania danych
    • Fluktuacje wartoÅ›ci wskaźników
  • Komercyjne i niekomercyjne frameworki do weryfikacji danych

Rozdział 9. Najlepsze praktyki podczas pracy z potokiem danych

  • ObsÅ‚uga zmian w systemach źródÅ‚owych
    • Wprowadzenie abstrakcji
    • ObsÅ‚uga kontraktów danych
    • Ograniczenia schematu podczas odczytu
  • Skalowanie zÅ‚ożonoÅ›ci
    • Standaryzacja pobierania danych
    • Wielokrotne używanie logiki modelu danych
    • Zapewnienie spójnoÅ›ci zależnoÅ›ci

Rozdział 10. Pomiar i monitorowanie wydajności działania potoku danych

  • Kluczowe wskaźniki potoku
  • Przygotowanie hurtowni danych
    • Schemat infrastruktury danych
  • Rejestrowanie danych i sprawdzanie wydajnoÅ›ci dziaÅ‚ania operacji pobierania danych
    • Pobieranie z Apache Airflow historii wykonania poszczególnych skierowanych grafów acyklicznych
    • Dodawanie funkcjonalnoÅ›ci rejestrowania danych do frameworka weryfikacji danych
  • PrzeksztaÅ‚canie danych dotyczÄ…cych wydajnoÅ›ci dziaÅ‚ania
    • Wskaźnik sukcesu skierowanego grafu acyklicznego
    • Zmiana czasu wykonywania skierowanego grafu acyklicznego na przestrzeni czasu
    • Liczba testów weryfikacyjnych i wspóÅ‚czynnik sukcesu
  • Koordynacja wydajnoÅ›ci dziaÅ‚ania potoku
    • Skierowany graf acykliczny dotyczÄ…cy wydajnoÅ›ci dziaÅ‚ania
  • Przejrzystość wydajnoÅ›ci dziaÅ‚ania

Skorowidz

Dodaj do koszyka Potoki danych. Leksykon kieszonkowy. Przenoszenie i przetwarzanie danych na potrzeby ich analizy

Code, Publish & WebDesing by CATALIST.com.pl



(c) 2005-2024 CATALIST agencja interaktywna, znaki firmowe należą do wydawnictwa Helion S.A.