Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szerok - Helion
Tytuł oryginału: Advanced Analytics with PySpark: Patterns for Learning from Data at Scale Using Python and Spark
TÅ‚umaczenie: Andrzej Watrak
ISBN: 978-83-8322-070-3
stron: 192, Format: ebook
Data wydania: 2023-01-01
Księgarnia: Helion
Cena książki: 34,50 zł (poprzednio: 69,00 zł)
Oszczędzasz: 50% (-34,50 zł)
Osoby które kupowały "Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szerok", wybierały także:
- R i pakiet shiny. Kurs video. Interaktywne aplikacje w analizie danych 149,00 zł, (67,05 zł -55%)
- Apache NiFi. Kurs video. Automatyzacja przep 149,00 zł, (67,05 zł -55%)
- Web scraping. Kurs video. Zautomatyzowane pozyskiwanie danych z sieci 139,00 zł, (62,55 zł -55%)
- Data Science w Pythonie. Kurs video. Przetwarzanie i analiza danych 149,00 zł, (67,05 zł -55%)
- Excel 2013. Kurs video. Poziom drugi. Przetwarzanie i analiza danych 79,00 zł, (35,55 zł -55%)
Spis treści
Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szeroką skalę z wykorzystaniem Pythona i systemu Spark eBook -- spis treści
Słowo wstępne
1. Analiza wielkich zbiorów danych
- Praca z wielkimi zbiorami danych
- Przedstawiamy Apache Spark i PySpark
- Komponenty
- PySpark
- Ekosystem
- Spark 3.0
- PySpark i wyzwania w nauce o danych
- O czym jest ta książka
2. Wprowadzenie do analizy danych za pomocÄ… PySpark
- Architektura systemu Spark
- Instalacja interfejsu PySpark
- Przygotowanie danych
- Analiza danych za pomocÄ… struktury DataFrame
- Szybkie statystyki zbiorcze w strukturze DataFrame
- Przestawienie i przekształcenie struktury DataFrame
- ZÅ‚Ä…czenie struktur DataFrame i wybór cech
- Ocena modelu
- Dalsze kroki
3. Rekomendowanie muzyki i dane Audioscrobbler
- Zbiór danych
- Wymagania dla systemu rekomendacyjnego
- Algorytm naprzemiennych najmniejszych kwadratów
- Przygotowanie danych
- Utworzenie pierwszego modelu
- Wyrywkowe sprawdzanie rekomendacji
- Ocena jakości rekomendacji
- Obliczenie wskaźnika AUC
- Dobór wartoÅ›ci hiperparametrów
- Przygotowanie rekomendacji
- Dalsze kroki
4. Prognozowanie zalesienia za pomocÄ… drzewa decyzyjnego
- Drzewa i lasy decyzyjne
- Przygotowanie danych
- Pierwsze drzewo decyzyjne
- Hiperparametry drzewa decyzyjnego
- Regulacja drzewa decyzyjnego
- Weryfikacja cech kategorialnych
- Losowy las decyzyjny
- Prognozowanie
- Dalsze kroki
5. Wykrywanie anomalii w ruchu sieciowym metodą grupowania edług k-średnich
- Grupowanie według k-średnich
- Wykrywanie anomalii w ruchu sieciowym
- Dane KDD Cup 1999
- Pierwsza próba grupowania
- Dobór wartoÅ›ci k
- Wizualizacja w środowisku R
- Normalizacja cech
- Zmienne kategorialne
- Wykorzystanie etykiet i wskaźnika entropii
- Grupowanie w akcji
- Dalsze kroki
6. Wikipedia, algorytmy LDA i Spark NLP
- Algorytm LDA
- Algorytm LDA w interfejsie PySpark
- Pobranie danych
- Spark NLP
- Przygotowanie środowiska
- Przekształcenie danych
- Przygotowanie danych za pomocÄ… biblioteki Spark NLP
- Metoda TF-IDF
- Wyliczenie wskaźników TF-IDF
- Utworzenie modelu LDA
- Dalsze kroki
7. Geoprzestrzenna i temporalna analiza tras nowojorskich taksówek
- Przygotowanie danych
- Konwersja ciÄ…gów znaków na znaczniki czasu
- ObsÅ‚uga bÅ‚Ä™dnych rekordów danych
- Analiza danych geoprzestrzennych
- Wprowadzenie do formatu GeoJSON
- Biblioteka GeoPandas
- Sesjonowanie w interfejsie PySpark
- Budowanie sesji - dodatkowe sortowanie danych w systemie Spark
- Dalsze kroki
8. Szacowanie ryzyka finansowego
- Terminologia
- Metody obliczania wskaźnika VaR
- Wariancja-kowariancja
- Symulacja historyczna
- Symulacja Monte Carlo
- Nasz model
- Pobranie danych
- Przygotowanie danych
- OkreÅ›lenie wag czynników
- Losowanie prób
- Wielowymiarowy rozkład normalny
- Wykonanie testów
- Wizualizacja rozkÅ‚adu zwrotów
- Dalsze kroki
9. Analiza danych genomicznych i projekt BDG
- Rozdzielenie sposobów zapisu i modelowania danych
- Przygotowanie pakietu ADAM
- Przetwarzanie danych genomicznych za pomocÄ… pakietu ADAM
- Konwersja formatów plików za pomocÄ… poleceÅ„ pakietu ADAM
- Pozyskanie danych genomicznych przy użyciu interfejsu PySpark i pakietu ADAM
- Prognozowanie miejsc wiÄ…zania czynnika transkrypcyjnego na podstawie danych ENCODE
- Dalsze kroki
10. OkreÅ›lanie podobieÅ„stwa obrazów za pomocÄ… gÅ‚Ä™bokiego uczenia i algorytmu PySpark LSH
- PyTorch
- Instalacja
- Przygotowanie danych
- Skalowanie obrazów za pomocÄ… PyTorch
- Wektoryzacja obrazów za pomocÄ… modelu gÅ‚Ä™bokiego uczenia
- Osadzenie obrazów
- Import osadzeÅ„ obrazów do pakietu PySpark
- OkreÅ›lanie podobieÅ„stwa obrazów za pomocÄ… algorytmu PySpark LSH
- Wyszukiwanie najbliższych sÄ…siadów
- Dalsze kroki
11. ZarzÄ…dzanie cyklem uczenia maszynowego za pomocÄ… platformy MLflow
- Cykl uczenia maszynowego
- Platforma MLflow
- Åšledzenie eksperymentów
- Zarządzanie modelami uczenia maszynowego i udostępnianie ich
- Tworzenie i stosowanie projektów za pomocÄ… moduÅ‚u MLflow Projects
- Dalsze kroki