Nowoczesne architektury danych. Przewodnik po hurtowni danych, siatce danych oraz Data Fabric i Data Lakehouse - Helion
ebook
Autor: James SerraTytuł oryginału: Deciphering Data Architectures: Choosing Between a Modern Data Warehouse, Data Fabric, Data Lakehouse, and Data Mesh
Tłumaczenie: Piotr Pilch
ISBN: 978-83-289-1670-8
stron: 256, Format: ebook
Data wydania: 0000-00-00
Księgarnia: Helion
Cena książki: 79,00 zł
Osoby które kupowały "Nowoczesne architektury danych. Przewodnik po hurtowni danych, siatce danych oraz Data Fabric i Data Lakehouse", wybierały także:
- Databricks. Kurs video. Wst 148,98 zł, (59,59 zł -60%)
- Apache NiFi. Kurs video. Automatyzacja przep 148,98 zł, (59,59 zł -60%)
- Web scraping. Kurs video. Zautomatyzowane pozyskiwanie danych z sieci 139,00 zł, (55,60 zł -60%)
- Data Science w Pythonie. Kurs video. Przetwarzanie i analiza danych 149,00 zł, (67,05 zł -55%)
- Excel 2013. Kurs video. Poziom drugi. Przetwarzanie i analiza danych 79,00 zł, (35,55 zł -55%)
Spis treści
Nowoczesne architektury danych. Przewodnik po hurtowni danych, siatce danych oraz Data Fabric i Data Lakehouse eBook -- spis treści
Słowo wstępne
Przedmowa
Część I. Fundamenty
- 1. Technologia Big Data
- Czym jest technologia Big Data i jak może być pomocna?
- Dojrzałość danych
- Etap 1: reakcyjny
- Etap 2: informacyjny
- Etap 3: predyktywny
- Etap 4: transformatywny
- Samoobsługowa analityka biznesowa
- Podsumowanie
- 2. Typy architektur danych
- Ewolucja architektur danych
- Relacyjna hurtownia danych
- Jezioro danych
- Nowoczesna hurtownia danych
- Architektura Data Fabric
- Architektura Data Lakehouse
- Siatka danych
- Podsumowanie
- 3. Sesja projektowania architektury
- Czym jest sesja projektowania architektury?
- Dlaczego należy przeprowadzać sesję ADS?
- Przed sesją ADS
- Przygotowanie
- Zaproszenie uczestników
- Przeprowadzanie sesji ADS
- Wprowadzenia
- Ustalenia
- Korzystanie z tablicy
- Po zakończeniu sesji ADS
- Wskazówki dotyczące prowadzenia sesji ADS
- Podsumowanie
Część II. Typowe pojęcia związane z architekturami danych
- 4. Relacyjna hurtownia danych
- Czym jest relacyjna hurtownia danych?
- Czym hurtownia danych nie jest?
- Podejście odgórne
- Dlaczego warto skorzystać z relacyjnej hurtowni danych?
- Wady związane z korzystaniem z relacyjnej hurtowni danych
- Zasilanie hurtowni danych
- Częstotliwość wyodrębniania danych
- Metody wyodrębniania
- Metoda określania, jakie dane zmieniły się od ostatniej operacji wyodrębnienia
- Informacje o kresie relacyjnej hurtowni danych okazały się mocno przesadzone
- Podsumowanie
- 5. Jezioro danych
- Czym jest jezioro danych?
- Dlaczego warto używać jeziora danych?
- Podejście oddolne
- Najlepsze praktyki projektowania architektury jeziora danych
- Wiele jezior danych
- Zalety
- Wady
- Podsumowanie
- 6. Procesy i rozwiązania z zakresu magazynowania danych
- Rozwiązania do przechowywania danych
- Składnice danych
- Magazyny danych operacyjnych
- Centra danych
- Procesy danych
- Zarządzanie danymi głównymi
- Wirtualizacja i federacja danych
- Katalogi danych
- Platformy danych
- Podsumowanie
- Rozwiązania do przechowywania danych
- 7. Metody projektowe
- Porównanie systemów OLTP i OLAP
- Dane operacyjne i analityczne
- Przetwarzanie SMP i MPP
- Architektura Lambda
- Architektura Kappa
- Trwałość poliglotyczna i poliglotyczne magazyny danych
- Podsumowanie
- 8. Metody modelowania danych
- Modelowanie relacyjne
- Klucze
- Diagramy relacji encji
- Reguły i formy normalizacji
- Śledzenie zmian
- Modelowanie wymiarowe
- Fakty, wymiary i klucze
- Monitorowanie zmian
- Denormalizacja
- Wspólny model danych
- Model Data Vault
- Metodologie Kimballa i Inmona dotyczące hurtowni danych
- Metodologia odgórna Inmona
- Metodologia oddolna Kimballa
- Wybór metodologii
- Modele hybrydowe
- Mity dotyczące metodologii
- Podsumowanie
- Modelowanie relacyjne
- 9. Metody pozyskiwania danych
- Porównanie procesów ETL i ELT
- Odwrócony proces ETL
- Porównanie przetwarzania wsadowego oraz przetwarzania w czasie rzeczywistym
- Zalety i wady przetwarzania wsadowego
- Zalety i wady przetwarzania w czasie rzeczywistym
- Nadzór nad danymi
- Podsumowanie
Część III. Architektury danych
- 10. Nowoczesna hurtownia danych
- Architektura nowoczesnej hurtowni danych
- Zalety i wady architektury nowoczesnej hurtowni danych
- Łączenie relacyjnej hurtowni danych z jeziorem danych
- Jezioro danych
- Relacyjna hurtownia danych
- Kamienie milowe prowadzące do hurtowni MDW
- Rozbudowa korporacyjnej hurtowni danych
- Tymczasowe jezioro danych oraz korporacyjna hurtownia danych
- Rozwiązanie kompleksowe
- Studium przypadku: strategiczne przejście firmy Wilson & Gunkerk do nowoczesnej hurtowni danych
- Wyzwanie
- Rozwiązanie
- Rezultat
- Podsumowanie
- 11. Architektura Data Fabric
- Architektura Data Fabric
- Zasady dostępu do danych
- Katalog metadanych
- Zarządzanie danymi głównymi
- Wirtualizacja danych
- Przetwarzanie w czasie rzeczywistym
- Interfejsy API
- Usługi
- Produkty
- Dlaczego warto dokonać przejścia z hurtowni MDW na architekturę Data Fabric?
- Potencjalne wady
- Podsumowanie
- Architektura Data Fabric
- 12. Architektura Data Lakehouse
- Opcje warstwy Delta Lake
- Poprawa wydajności
- Architektura Data Lakehouse
- Co się stanie, gdy zrezygnujesz z relacyjnej hurtowni danych?
- Relacyjna warstwa udostępniająca
- Podsumowanie
- 13. Fundamenty siatki danych
- Zdecentralizowana architektura danych
- Szum wokół siatki danych
- Cztery zasady Dehghani dotyczące siatki danych
- Pierwsza zasada: własność domeny
- Druga zasada: dane jako produkt
- Trzecia zasada: samoobsługowa infrastruktura danych jako platforma
- Czwarta zasada: nadzór nad federacyjnymi zasobami obliczeniowymi
- "Czysta" siatka danych
- Domeny danych
- Logiczna architektura siatki danych
- Różne topologie
- Porównanie siatki danych i architektury Data Fabric
- Warianty zastosowania
- Podsumowanie
- 14. Czy powinno się adaptować siatkę danych? Mity, obawy i przyszłość
- Mity
- Mit: użycie siatki danych to cudowny środek pozwalający szybko poradzić sobie z wszystkimi trudnościami towarzyszącymi danym
- Mit: siatka danych zastąpi Twoje jezioro danych i hurtownię danych
- Mit: wszystkie projekty z hurtownią danych nie udają się, a siatka danych rozwiąże ten problem
- Mit: budowanie siatki danych oznacza decentralizację absolutnie wszystkiego
- Mit: możesz użyć wirtualizacji danych, aby utworzyć siatkę danych
- Obawy
- Kwestie filozoficzne i koncepcyjne
- Łączenie danych w środowisku zdecentralizowanym
- Inne kwestie związane z decentralizacją
- Złożoność
- Duplikacja
- Wykonalność
- Ludzie
- Bariery na poziomie domen
- Ocena organizacyjna: czy powinno się adaptować siatkę danych?
- Zalecenia dotyczące implementowania z powodzeniem siatki danych
- Przyszłość siatki danych
- Szersze spojrzenie: zrozumienie architektur danych i ich zastosowań
- Podsumowanie
- Mity
Część IV. Ludzie, procesy i technologia
- 15. Ludzie i procesy
- Organizacja zespołów: role i obowiązki
- Role w przypadku nowoczesnej hurtowni danych oraz architektur Data Fabric lub Data Lakehouse
- Role w przypadku siatki danych
- Dlaczego projekty się nie udają: pułapki i zapobieganie im
- Pułapka: pozwalanie szefostwu myśleć, że analityka biznesowa jest "łatwa"
- Pułapka: używanie niewłaściwych technologii
- Pułapka: zgromadzenie zbyt wielu wymagań biznesowych
- Pułapka: zgromadzenie zbyt małej liczby wymagań biznesowych
- Pułapka: prezentowanie raportów bez wcześniejszego sprawdzenia poprawności ich zawartości
- Pułapka: zatrudnianie niedoświadczonej firmy konsultingowej
- Pułapka: zatrudnianie firmy konsultingowej, która zleca prace projektowe pracownikom z innych krajów
- Pułapka: przekazywanie konsultantom własności projektu
- Pułapka: zlekceważenie konieczności transferu zasobów wiedzy z powrotem do organizacji
- Pułapka: zmniejszanie budżetu w połowie trwania projektu
- Pułapka: rozpoczynanie od daty końcowej i cofanie się z działaniami
- Pułapka: określanie struktury hurtowni danych zgodnie z danymi źródłowymi, a nie wymogami firmy
- Pułapka: zaprezentowanie użytkownikom rozwiązania z długim czasem odpowiedzi lub innymi problemami z wydajnością
- Pułapka: przesadzenie z projektem architektury danych lub niedopracowanie go
- Pułapka: kiepska komunikacja między działem informatycznym i domenami biznesowymi
- Wskazówki dotyczące sukcesu
- Nie oszczędzaj na inwestycjach
- Angażuj użytkowników, prezentuj im wyniki i wzbudzaj ich entuzjazm
- Zapewnij wartość w nowych raportach i panelach kontrolnych
- Poproś użytkowników o zbudowanie prototypu
- Znajdź orędownika/sponsora projektu
- Stwórz plan projektu z celem 80% efektywności
- Podsumowanie
- Organizacja zespołów: role i obowiązki
- 16. Technologie
- Wybór platformy
- Rozwiązania open source
- Rozwiązania lokalne
- Rozwiązania dostawców usług w chmurze
- Modele usług w chmurze
- Główni dostawcy usług w chmurze
- Rozwiązania z wieloma chmurami
- Środowiska oprogramowania
- Hadoop
- Databricks
- Snowflake
- Podsumowanie
- Wybór platformy