Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szerok - Helion

ISBN: 978-83-8322-069-7
okładka: mi
Data wydania: 2022-12-01
Księgarnia: Helion
Cena książki: 41,40 zł (poprzednio: 69,00 zł)
Oszczędzasz: 40% (-27,60 zł)
Osoby które kupowały "Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szerok", wybierały także:
- Windows Media Center. Domowe centrum rozrywki 66,67 zł, (8,00 zł -88%)
- Ruby on Rails. Ćwiczenia 18,75 zł, (3,00 zł -84%)
- Efekt piaskownicy. Jak szefować żeby roboty nie zabrały ci roboty 59,50 zł, (11,90 zł -80%)
- Przywództwo w świecie VUCA. Jak być skutecznym liderem w niepewnym środowisku 58,64 zł, (12,90 zł -78%)
- Scrum. O zwinnym zarządzaniu projektami. Wydanie II rozszerzone 58,64 zł, (12,90 zł -78%)
Spis treści
Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szeroką skalę z wykorzystaniem Pythona i systemu Spark -- spis treści
Słowo wstępne
1. Analiza wielkich zbiorów danych
- Praca z wielkimi zbiorami danych
- Przedstawiamy Apache Spark i PySpark
- Komponenty
- PySpark
- Ekosystem
- Spark 3.0
- PySpark i wyzwania w nauce o danych
- O czym jest ta książka
2. Wprowadzenie do analizy danych za pomocą PySpark
- Architektura systemu Spark
- Instalacja interfejsu PySpark
- Przygotowanie danych
- Analiza danych za pomocą struktury DataFrame
- Szybkie statystyki zbiorcze w strukturze DataFrame
- Przestawienie i przekształcenie struktury DataFrame
- Złączenie struktur DataFrame i wybór cech
- Ocena modelu
- Dalsze kroki
3. Rekomendowanie muzyki i dane Audioscrobbler
- Zbiór danych
- Wymagania dla systemu rekomendacyjnego
- Algorytm naprzemiennych najmniejszych kwadratów
- Przygotowanie danych
- Utworzenie pierwszego modelu
- Wyrywkowe sprawdzanie rekomendacji
- Ocena jakości rekomendacji
- Obliczenie wskaźnika AUC
- Dobór wartości hiperparametrów
- Przygotowanie rekomendacji
- Dalsze kroki
4. Prognozowanie zalesienia za pomocą drzewa decyzyjnego
- Drzewa i lasy decyzyjne
- Przygotowanie danych
- Pierwsze drzewo decyzyjne
- Hiperparametry drzewa decyzyjnego
- Regulacja drzewa decyzyjnego
- Weryfikacja cech kategorialnych
- Losowy las decyzyjny
- Prognozowanie
- Dalsze kroki
5. Wykrywanie anomalii w ruchu sieciowym metodą grupowania edług k-średnich
- Grupowanie według k-średnich
- Wykrywanie anomalii w ruchu sieciowym
- Dane KDD Cup 1999
- Pierwsza próba grupowania
- Dobór wartości k
- Wizualizacja w środowisku R
- Normalizacja cech
- Zmienne kategorialne
- Wykorzystanie etykiet i wskaźnika entropii
- Grupowanie w akcji
- Dalsze kroki
6. Wikipedia, algorytmy LDA i Spark NLP
- Algorytm LDA
- Algorytm LDA w interfejsie PySpark
- Pobranie danych
- Spark NLP
- Przygotowanie środowiska
- Przekształcenie danych
- Przygotowanie danych za pomocą biblioteki Spark NLP
- Metoda TF-IDF
- Wyliczenie wskaźników TF-IDF
- Utworzenie modelu LDA
- Dalsze kroki
7. Geoprzestrzenna i temporalna analiza tras nowojorskich taksówek
- Przygotowanie danych
- Konwersja ciągów znaków na znaczniki czasu
- Obsługa błędnych rekordów danych
- Analiza danych geoprzestrzennych
- Wprowadzenie do formatu GeoJSON
- Biblioteka GeoPandas
- Sesjonowanie w interfejsie PySpark
- Budowanie sesji - dodatkowe sortowanie danych w systemie Spark
- Dalsze kroki
8. Szacowanie ryzyka finansowego
- Terminologia
- Metody obliczania wskaźnika VaR
- Wariancja-kowariancja
- Symulacja historyczna
- Symulacja Monte Carlo
- Nasz model
- Pobranie danych
- Przygotowanie danych
- Określenie wag czynników
- Losowanie prób
- Wielowymiarowy rozkład normalny
- Wykonanie testów
- Wizualizacja rozkładu zwrotów
- Dalsze kroki
9. Analiza danych genomicznych i projekt BDG
- Rozdzielenie sposobów zapisu i modelowania danych
- Przygotowanie pakietu ADAM
- Przetwarzanie danych genomicznych za pomocą pakietu ADAM
- Konwersja formatów plików za pomocą poleceń pakietu ADAM
- Pozyskanie danych genomicznych przy użyciu interfejsu PySpark i pakietu ADAM
- Prognozowanie miejsc wiązania czynnika transkrypcyjnego na podstawie danych ENCODE
- Dalsze kroki
10. Określanie podobieństwa obrazów za pomocą głębokiego uczenia i algorytmu PySpark LSH
- PyTorch
- Instalacja
- Przygotowanie danych
- Skalowanie obrazów za pomocą PyTorch
- Wektoryzacja obrazów za pomocą modelu głębokiego uczenia
- Osadzenie obrazów
- Import osadzeń obrazów do pakietu PySpark
- Określanie podobieństwa obrazów za pomocą algorytmu PySpark LSH
- Wyszukiwanie najbliższych sąsiadów
- Dalsze kroki
11. Zarządzanie cyklem uczenia maszynowego za pomocą platformy MLflow
- Cykl uczenia maszynowego
- Platforma MLflow
- Śledzenie eksperymentów
- Zarządzanie modelami uczenia maszynowego i udostępnianie ich
- Tworzenie i stosowanie projektów za pomocą modułu MLflow Projects
- Dalsze kroki