reklama - zainteresowany?

Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szerok - Helion

Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szerok
Autor: Akash Tandon, Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills
ISBN: 978-83-8322-069-7
okładka: mi
Data wydania: 2022-12-01
Księgarnia: Helion

Cena książki: 44,85 zł (poprzednio: 69,00 zł)
Oszczędzasz: 35% (-24,15 zł)

Dodaj do koszyka Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szerok

Dodaj do koszyka Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szerok

 

Osoby które kupowały "Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szerok", wybierały także:

  • Windows Media Center. Domowe centrum rozrywki
  • Ruby on Rails. Ćwiczenia
  • DevOps w praktyce. Kurs video. Jenkins, Ansible, Terraform i Docker
  • Przywództwo w Å›wiecie VUCA. Jak być skutecznym liderem w niepewnym Å›rodowisku
  • Scrum. O zwinnym zarzÄ…dzaniu projektami. Wydanie II rozszerzone

Dodaj do koszyka Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szerok

Spis treści

Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szeroką skalę z wykorzystaniem Pythona i systemu Spark -- spis treści

Słowo wstępne

1. Analiza wielkich zbiorów danych

  • Praca z wielkimi zbiorami danych
  • Przedstawiamy Apache Spark i PySpark
    • Komponenty
    • PySpark
    • Ekosystem
  • Spark 3.0
  • PySpark i wyzwania w nauce o danych
  • O czym jest ta książka

2. Wprowadzenie do analizy danych za pomocÄ… PySpark

  • Architektura systemu Spark
  • Instalacja interfejsu PySpark
  • Przygotowanie danych
  • Analiza danych za pomocÄ… struktury DataFrame
  • Szybkie statystyki zbiorcze w strukturze DataFrame
  • Przestawienie i przeksztaÅ‚cenie struktury DataFrame
  • ZÅ‚Ä…czenie struktur DataFrame i wybór cech
  • Ocena modelu
  • Dalsze kroki

3. Rekomendowanie muzyki i dane Audioscrobbler

  • Zbiór danych
  • Wymagania dla systemu rekomendacyjnego
  • Algorytm naprzemiennych najmniejszych kwadratów
  • Przygotowanie danych
  • Utworzenie pierwszego modelu
  • Wyrywkowe sprawdzanie rekomendacji
  • Ocena jakoÅ›ci rekomendacji
  • Obliczenie wskaźnika AUC
  • Dobór wartoÅ›ci hiperparametrów
  • Przygotowanie rekomendacji
  • Dalsze kroki

4. Prognozowanie zalesienia za pomocÄ… drzewa decyzyjnego

  • Drzewa i lasy decyzyjne
  • Przygotowanie danych
  • Pierwsze drzewo decyzyjne
  • Hiperparametry drzewa decyzyjnego
  • Regulacja drzewa decyzyjnego
  • Weryfikacja cech kategorialnych
  • Losowy las decyzyjny
  • Prognozowanie
  • Dalsze kroki

5. Wykrywanie anomalii w ruchu sieciowym metodą grupowania edług k-średnich

  • Grupowanie wedÅ‚ug k-Å›rednich
  • Wykrywanie anomalii w ruchu sieciowym
    • Dane KDD Cup 1999
  • Pierwsza próba grupowania
  • Dobór wartoÅ›ci k
  • Wizualizacja w Å›rodowisku R
  • Normalizacja cech
  • Zmienne kategorialne
  • Wykorzystanie etykiet i wskaźnika entropii
  • Grupowanie w akcji
  • Dalsze kroki

6. Wikipedia, algorytmy LDA i Spark NLP

  • Algorytm LDA
    • Algorytm LDA w interfejsie PySpark
  • Pobranie danych
  • Spark NLP
    • Przygotowanie Å›rodowiska
  • PrzeksztaÅ‚cenie danych
  • Przygotowanie danych za pomocÄ… biblioteki Spark NLP
  • Metoda TF-IDF
  • Wyliczenie wskaźników TF-IDF
  • Utworzenie modelu LDA
  • Dalsze kroki

7. Geoprzestrzenna i temporalna analiza tras nowojorskich taksówek

  • Przygotowanie danych
    • Konwersja ciÄ…gów znaków na znaczniki czasu
    • ObsÅ‚uga bÅ‚Ä™dnych rekordów danych
  • Analiza danych geoprzestrzennych
    • Wprowadzenie do formatu GeoJSON
    • Biblioteka GeoPandas
  • Sesjonowanie w interfejsie PySpark
    • Budowanie sesji - dodatkowe sortowanie danych w systemie Spark
  • Dalsze kroki

8. Szacowanie ryzyka finansowego

  • Terminologia
  • Metody obliczania wskaźnika VaR
    • Wariancja-kowariancja
    • Symulacja historyczna
    • Symulacja Monte Carlo
  • Nasz model
  • Pobranie danych
  • Przygotowanie danych
  • OkreÅ›lenie wag czynników
  • Losowanie prób
    • Wielowymiarowy rozkÅ‚ad normalny
  • Wykonanie testów
  • Wizualizacja rozkÅ‚adu zwrotów
  • Dalsze kroki

9. Analiza danych genomicznych i projekt BDG

  • Rozdzielenie sposobów zapisu i modelowania danych
  • Przygotowanie pakietu ADAM
  • Przetwarzanie danych genomicznych za pomocÄ… pakietu ADAM
    • Konwersja formatów plików za pomocÄ… poleceÅ„ pakietu ADAM
    • Pozyskanie danych genomicznych przy użyciu interfejsu PySpark i pakietu ADAM
  • Prognozowanie miejsc wiÄ…zania czynnika transkrypcyjnego na podstawie danych ENCODE
  • Dalsze kroki

10. OkreÅ›lanie podobieÅ„stwa obrazów za pomocÄ… gÅ‚Ä™bokiego uczenia i algorytmu PySpark LSH

  • PyTorch
    • Instalacja
  • Przygotowanie danych
    • Skalowanie obrazów za pomocÄ… PyTorch
  • Wektoryzacja obrazów za pomocÄ… modelu gÅ‚Ä™bokiego uczenia
    • Osadzenie obrazów
    • Import osadzeÅ„ obrazów do pakietu PySpark
  • OkreÅ›lanie podobieÅ„stwa obrazów za pomocÄ… algorytmu PySpark LSH
    • Wyszukiwanie najbliższych sÄ…siadów
  • Dalsze kroki

11. ZarzÄ…dzanie cyklem uczenia maszynowego za pomocÄ… platformy MLflow

  • Cykl uczenia maszynowego
  • Platforma MLflow
  • Åšledzenie eksperymentów
  • ZarzÄ…dzanie modelami uczenia maszynowego i udostÄ™pnianie ich
  • Tworzenie i stosowanie projektów za pomocÄ… moduÅ‚u MLflow Projects
  • Dalsze kroki

Dodaj do koszyka Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szerok

Code, Publish & WebDesing by CATALIST.com.pl



(c) 2005-2024 CATALIST agencja interaktywna, znaki firmowe należą do wydawnictwa Helion S.A.