reklama - zainteresowany?

Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szerok - Helion

Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szerok
Autor: Akash Tandon, Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills
ISBN: 978-83-8322-069-7
okładka: mi
Data wydania: 2022-12-01
Księgarnia: Helion

Cena książki: 41,40 zł (poprzednio: 69,00 zł)
Oszczędzasz: 40% (-27,60 zł)

Dodaj do koszyka Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szerok

Dodaj do koszyka Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szerok

 

Osoby które kupowały "Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szerok", wybierały także:

  • Windows Media Center. Domowe centrum rozrywki
  • Ruby on Rails. Ćwiczenia
  • Efekt piaskownicy. Jak szefować żeby roboty nie zabrały ci roboty
  • Przywództwo w świecie VUCA. Jak być skutecznym liderem w niepewnym środowisku
  • Scrum. O zwinnym zarządzaniu projektami. Wydanie II rozszerzone

Dodaj do koszyka Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szerok

Spis treści

Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szeroką skalę z wykorzystaniem Pythona i systemu Spark -- spis treści

Słowo wstępne

1. Analiza wielkich zbiorów danych

  • Praca z wielkimi zbiorami danych
  • Przedstawiamy Apache Spark i PySpark
    • Komponenty
    • PySpark
    • Ekosystem
  • Spark 3.0
  • PySpark i wyzwania w nauce o danych
  • O czym jest ta książka

2. Wprowadzenie do analizy danych za pomocą PySpark

  • Architektura systemu Spark
  • Instalacja interfejsu PySpark
  • Przygotowanie danych
  • Analiza danych za pomocą struktury DataFrame
  • Szybkie statystyki zbiorcze w strukturze DataFrame
  • Przestawienie i przekształcenie struktury DataFrame
  • Złączenie struktur DataFrame i wybór cech
  • Ocena modelu
  • Dalsze kroki

3. Rekomendowanie muzyki i dane Audioscrobbler

  • Zbiór danych
  • Wymagania dla systemu rekomendacyjnego
  • Algorytm naprzemiennych najmniejszych kwadratów
  • Przygotowanie danych
  • Utworzenie pierwszego modelu
  • Wyrywkowe sprawdzanie rekomendacji
  • Ocena jakości rekomendacji
  • Obliczenie wskaźnika AUC
  • Dobór wartości hiperparametrów
  • Przygotowanie rekomendacji
  • Dalsze kroki

4. Prognozowanie zalesienia za pomocą drzewa decyzyjnego

  • Drzewa i lasy decyzyjne
  • Przygotowanie danych
  • Pierwsze drzewo decyzyjne
  • Hiperparametry drzewa decyzyjnego
  • Regulacja drzewa decyzyjnego
  • Weryfikacja cech kategorialnych
  • Losowy las decyzyjny
  • Prognozowanie
  • Dalsze kroki

5. Wykrywanie anomalii w ruchu sieciowym metodą grupowania edług k-średnich

  • Grupowanie według k-średnich
  • Wykrywanie anomalii w ruchu sieciowym
    • Dane KDD Cup 1999
  • Pierwsza próba grupowania
  • Dobór wartości k
  • Wizualizacja w środowisku R
  • Normalizacja cech
  • Zmienne kategorialne
  • Wykorzystanie etykiet i wskaźnika entropii
  • Grupowanie w akcji
  • Dalsze kroki

6. Wikipedia, algorytmy LDA i Spark NLP

  • Algorytm LDA
    • Algorytm LDA w interfejsie PySpark
  • Pobranie danych
  • Spark NLP
    • Przygotowanie środowiska
  • Przekształcenie danych
  • Przygotowanie danych za pomocą biblioteki Spark NLP
  • Metoda TF-IDF
  • Wyliczenie wskaźników TF-IDF
  • Utworzenie modelu LDA
  • Dalsze kroki

7. Geoprzestrzenna i temporalna analiza tras nowojorskich taksówek

  • Przygotowanie danych
    • Konwersja ciągów znaków na znaczniki czasu
    • Obsługa błędnych rekordów danych
  • Analiza danych geoprzestrzennych
    • Wprowadzenie do formatu GeoJSON
    • Biblioteka GeoPandas
  • Sesjonowanie w interfejsie PySpark
    • Budowanie sesji - dodatkowe sortowanie danych w systemie Spark
  • Dalsze kroki

8. Szacowanie ryzyka finansowego

  • Terminologia
  • Metody obliczania wskaźnika VaR
    • Wariancja-kowariancja
    • Symulacja historyczna
    • Symulacja Monte Carlo
  • Nasz model
  • Pobranie danych
  • Przygotowanie danych
  • Określenie wag czynników
  • Losowanie prób
    • Wielowymiarowy rozkład normalny
  • Wykonanie testów
  • Wizualizacja rozkładu zwrotów
  • Dalsze kroki

9. Analiza danych genomicznych i projekt BDG

  • Rozdzielenie sposobów zapisu i modelowania danych
  • Przygotowanie pakietu ADAM
  • Przetwarzanie danych genomicznych za pomocą pakietu ADAM
    • Konwersja formatów plików za pomocą poleceń pakietu ADAM
    • Pozyskanie danych genomicznych przy użyciu interfejsu PySpark i pakietu ADAM
  • Prognozowanie miejsc wiązania czynnika transkrypcyjnego na podstawie danych ENCODE
  • Dalsze kroki

10. Określanie podobieństwa obrazów za pomocą głębokiego uczenia i algorytmu PySpark LSH

  • PyTorch
    • Instalacja
  • Przygotowanie danych
    • Skalowanie obrazów za pomocą PyTorch
  • Wektoryzacja obrazów za pomocą modelu głębokiego uczenia
    • Osadzenie obrazów
    • Import osadzeń obrazów do pakietu PySpark
  • Określanie podobieństwa obrazów za pomocą algorytmu PySpark LSH
    • Wyszukiwanie najbliższych sąsiadów
  • Dalsze kroki

11. Zarządzanie cyklem uczenia maszynowego za pomocą platformy MLflow

  • Cykl uczenia maszynowego
  • Platforma MLflow
  • Śledzenie eksperymentów
  • Zarządzanie modelami uczenia maszynowego i udostępnianie ich
  • Tworzenie i stosowanie projektów za pomocą modułu MLflow Projects
  • Dalsze kroki

Dodaj do koszyka Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szerok

Code, Publish & WebDesing by CATALIST.com.pl



(c) 2005-2025 CATALIST agencja interaktywna, znaki firmowe należą do wydawnictwa Helion S.A.