Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szerok - Helion

Autor: Akash Tandon, Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills
ISBN: 978-83-8322-069-7
okładka: mi
Data wydania: 2022-12-01
Księgarnia: Helion

Cena książki: 44,85 zł (poprzednio: 69,00 zł)
Oszczędzasz: 35% (-24,15 zł)

Osoby, które kupiły tę książkę, wybierały także »

Osoby które kupowały "Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szerok", wybierały także:

Biologika Sukcesji Pokoleniowej. Sezon 3. Konflikty na terytorium 117,27 zł, (12,90 zł -89%)
Windows Media Center. Domowe centrum rozrywki 66,67 zł, (8,00 zł -88%)
Podręcznik startupu. Budowa wielkiej firmy krok po kroku 92,14 zł, (12,90 zł -86%)
Ruby on Rails. Ćwiczenia 18,75 zł, (3,00 zł -84%)
Prawa ludzkiej natury 75,88 zł, (12,90 zł -83%)

Spis treści

Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szeroką skalę z wykorzystaniem Pythona i systemu Spark -- spis treści

Słowo wstępne

1. Analiza wielkich zbiorów danych

Praca z wielkimi zbiorami danych
Przedstawiamy Apache Spark i PySpark
- Komponenty
- PySpark
- Ekosystem
Spark 3.0
PySpark i wyzwania w nauce o danych
O czym jest ta książka

2. Wprowadzenie do analizy danych za pomocą PySpark

Architektura systemu Spark
Instalacja interfejsu PySpark
Przygotowanie danych
Analiza danych za pomocą struktury DataFrame
Szybkie statystyki zbiorcze w strukturze DataFrame
Przestawienie i przekształcenie struktury DataFrame
Złączenie struktur DataFrame i wybór cech
Ocena modelu
Dalsze kroki

3. Rekomendowanie muzyki i dane Audioscrobbler

Zbiór danych
Wymagania dla systemu rekomendacyjnego
Algorytm naprzemiennych najmniejszych kwadratów
Przygotowanie danych
Utworzenie pierwszego modelu
Wyrywkowe sprawdzanie rekomendacji
Ocena jakości rekomendacji
Obliczenie wskaźnika AUC
Dobór wartości hiperparametrów
Przygotowanie rekomendacji
Dalsze kroki

4. Prognozowanie zalesienia za pomocą drzewa decyzyjnego

Drzewa i lasy decyzyjne
Przygotowanie danych
Pierwsze drzewo decyzyjne
Hiperparametry drzewa decyzyjnego
Regulacja drzewa decyzyjnego
Weryfikacja cech kategorialnych
Losowy las decyzyjny
Prognozowanie
Dalsze kroki

5. Wykrywanie anomalii w ruchu sieciowym metodą grupowania edług k-średnich

Grupowanie według k-średnich
Wykrywanie anomalii w ruchu sieciowym
- Dane KDD Cup 1999
Pierwsza próba grupowania
Dobór wartości k
Wizualizacja w środowisku R
Normalizacja cech
Zmienne kategorialne
Wykorzystanie etykiet i wskaźnika entropii
Grupowanie w akcji
Dalsze kroki

6. Wikipedia, algorytmy LDA i Spark NLP

Algorytm LDA
- Algorytm LDA w interfejsie PySpark
Pobranie danych
Spark NLP
- Przygotowanie środowiska
Przekształcenie danych
Przygotowanie danych za pomocą biblioteki Spark NLP
Metoda TF-IDF
Wyliczenie wskaźników TF-IDF
Utworzenie modelu LDA
Dalsze kroki

7. Geoprzestrzenna i temporalna analiza tras nowojorskich taksówek

Przygotowanie danych
- Konwersja ciągów znaków na znaczniki czasu
- Obsługa błędnych rekordów danych
Analiza danych geoprzestrzennych
- Wprowadzenie do formatu GeoJSON
- Biblioteka GeoPandas
Sesjonowanie w interfejsie PySpark
- Budowanie sesji - dodatkowe sortowanie danych w systemie Spark
Dalsze kroki

8. Szacowanie ryzyka finansowego

Terminologia
Metody obliczania wskaźnika VaR
- Wariancja-kowariancja
- Symulacja historyczna
- Symulacja Monte Carlo
Nasz model
Pobranie danych
Przygotowanie danych
Określenie wag czynników
Losowanie prób
- Wielowymiarowy rozkład normalny
Wykonanie testów
Wizualizacja rozkładu zwrotów
Dalsze kroki

9. Analiza danych genomicznych i projekt BDG

Rozdzielenie sposobów zapisu i modelowania danych
Przygotowanie pakietu ADAM
Przetwarzanie danych genomicznych za pomocą pakietu ADAM
- Konwersja formatów plików za pomocą poleceń pakietu ADAM
- Pozyskanie danych genomicznych przy użyciu interfejsu PySpark i pakietu ADAM
Prognozowanie miejsc wiązania czynnika transkrypcyjnego na podstawie danych ENCODE
Dalsze kroki

10. Określanie podobieństwa obrazów za pomocą głębokiego uczenia i algorytmu PySpark LSH

PyTorch
- Instalacja
Przygotowanie danych
- Skalowanie obrazów za pomocą PyTorch
Wektoryzacja obrazów za pomocą modelu głębokiego uczenia
- Osadzenie obrazów
- Import osadzeń obrazów do pakietu PySpark
Określanie podobieństwa obrazów za pomocą algorytmu PySpark LSH
- Wyszukiwanie najbliższych sąsiadów
Dalsze kroki

11. Zarządzanie cyklem uczenia maszynowego za pomocą platformy MLflow

Cykl uczenia maszynowego
Platforma MLflow
Śledzenie eksperymentów
Zarządzanie modelami uczenia maszynowego i udostępnianie ich
Tworzenie i stosowanie projektów za pomocą modułu MLflow Projects
Dalsze kroki