reklama - zainteresowany?

Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szerok - Helion

Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szerok
ebook
Autor: Akash Tandon, Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills
Tytuł oryginału: Advanced Analytics with PySpark: Patterns for Learning from Data at Scale Using Python and Spark
TÅ‚umaczenie: Andrzej Watrak
ISBN: 978-83-8322-070-3
stron: 192, Format: ebook
Data wydania: 2023-01-01
Księgarnia: Helion

Cena książki: 37,95 zł (poprzednio: 67,77 zł)
Oszczędzasz: 44% (-29,82 zł)

Dodaj do koszyka Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szerok

Tagi: Analiza danych | Python - Programowanie

Potrzeby w zakresie analizy du

Dodaj do koszyka Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szerok

 

Osoby które kupowały "Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szerok", wybierały także:

  • NLP. Kurs video. Analiza danych tekstowych w j
  • Web scraping. Kurs video. Zautomatyzowane pozyskiwanie danych z sieci
  • Data Science w Pythonie. Kurs video. Algorytmy uczenia maszynowego
  • Microsoft Excel. Kurs video. Wykresy i wizualizacja danych
  • Data Science w Pythonie. Kurs video. Przetwarzanie i analiza danych

Dodaj do koszyka Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szerok

Spis treści

Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szeroką skalę z wykorzystaniem Pythona i systemu Spark eBook -- spis treści

Słowo wstępne

1. Analiza wielkich zbiorów danych

  • Praca z wielkimi zbiorami danych
  • Przedstawiamy Apache Spark i PySpark
    • Komponenty
    • PySpark
    • Ekosystem
  • Spark 3.0
  • PySpark i wyzwania w nauce o danych
  • O czym jest ta książka

2. Wprowadzenie do analizy danych za pomocÄ… PySpark

  • Architektura systemu Spark
  • Instalacja interfejsu PySpark
  • Przygotowanie danych
  • Analiza danych za pomocÄ… struktury DataFrame
  • Szybkie statystyki zbiorcze w strukturze DataFrame
  • Przestawienie i przeksztaÅ‚cenie struktury DataFrame
  • ZÅ‚Ä…czenie struktur DataFrame i wybór cech
  • Ocena modelu
  • Dalsze kroki

3. Rekomendowanie muzyki i dane Audioscrobbler

  • Zbiór danych
  • Wymagania dla systemu rekomendacyjnego
  • Algorytm naprzemiennych najmniejszych kwadratów
  • Przygotowanie danych
  • Utworzenie pierwszego modelu
  • Wyrywkowe sprawdzanie rekomendacji
  • Ocena jakoÅ›ci rekomendacji
  • Obliczenie wskaźnika AUC
  • Dobór wartoÅ›ci hiperparametrów
  • Przygotowanie rekomendacji
  • Dalsze kroki

4. Prognozowanie zalesienia za pomocÄ… drzewa decyzyjnego

  • Drzewa i lasy decyzyjne
  • Przygotowanie danych
  • Pierwsze drzewo decyzyjne
  • Hiperparametry drzewa decyzyjnego
  • Regulacja drzewa decyzyjnego
  • Weryfikacja cech kategorialnych
  • Losowy las decyzyjny
  • Prognozowanie
  • Dalsze kroki

5. Wykrywanie anomalii w ruchu sieciowym metodą grupowania edług k-średnich

  • Grupowanie wedÅ‚ug k-Å›rednich
  • Wykrywanie anomalii w ruchu sieciowym
    • Dane KDD Cup 1999
  • Pierwsza próba grupowania
  • Dobór wartoÅ›ci k
  • Wizualizacja w Å›rodowisku R
  • Normalizacja cech
  • Zmienne kategorialne
  • Wykorzystanie etykiet i wskaźnika entropii
  • Grupowanie w akcji
  • Dalsze kroki

6. Wikipedia, algorytmy LDA i Spark NLP

  • Algorytm LDA
    • Algorytm LDA w interfejsie PySpark
  • Pobranie danych
  • Spark NLP
    • Przygotowanie Å›rodowiska
  • PrzeksztaÅ‚cenie danych
  • Przygotowanie danych za pomocÄ… biblioteki Spark NLP
  • Metoda TF-IDF
  • Wyliczenie wskaźników TF-IDF
  • Utworzenie modelu LDA
  • Dalsze kroki

7. Geoprzestrzenna i temporalna analiza tras nowojorskich taksówek

  • Przygotowanie danych
    • Konwersja ciÄ…gów znaków na znaczniki czasu
    • ObsÅ‚uga bÅ‚Ä™dnych rekordów danych
  • Analiza danych geoprzestrzennych
    • Wprowadzenie do formatu GeoJSON
    • Biblioteka GeoPandas
  • Sesjonowanie w interfejsie PySpark
    • Budowanie sesji - dodatkowe sortowanie danych w systemie Spark
  • Dalsze kroki

8. Szacowanie ryzyka finansowego

  • Terminologia
  • Metody obliczania wskaźnika VaR
    • Wariancja-kowariancja
    • Symulacja historyczna
    • Symulacja Monte Carlo
  • Nasz model
  • Pobranie danych
  • Przygotowanie danych
  • OkreÅ›lenie wag czynników
  • Losowanie prób
    • Wielowymiarowy rozkÅ‚ad normalny
  • Wykonanie testów
  • Wizualizacja rozkÅ‚adu zwrotów
  • Dalsze kroki

9. Analiza danych genomicznych i projekt BDG

  • Rozdzielenie sposobów zapisu i modelowania danych
  • Przygotowanie pakietu ADAM
  • Przetwarzanie danych genomicznych za pomocÄ… pakietu ADAM
    • Konwersja formatów plików za pomocÄ… poleceÅ„ pakietu ADAM
    • Pozyskanie danych genomicznych przy użyciu interfejsu PySpark i pakietu ADAM
  • Prognozowanie miejsc wiÄ…zania czynnika transkrypcyjnego na podstawie danych ENCODE
  • Dalsze kroki

10. OkreÅ›lanie podobieÅ„stwa obrazów za pomocÄ… gÅ‚Ä™bokiego uczenia i algorytmu PySpark LSH

  • PyTorch
    • Instalacja
  • Przygotowanie danych
    • Skalowanie obrazów za pomocÄ… PyTorch
  • Wektoryzacja obrazów za pomocÄ… modelu gÅ‚Ä™bokiego uczenia
    • Osadzenie obrazów
    • Import osadzeÅ„ obrazów do pakietu PySpark
  • OkreÅ›lanie podobieÅ„stwa obrazów za pomocÄ… algorytmu PySpark LSH
    • Wyszukiwanie najbliższych sÄ…siadów
  • Dalsze kroki

11. ZarzÄ…dzanie cyklem uczenia maszynowego za pomocÄ… platformy MLflow

  • Cykl uczenia maszynowego
  • Platforma MLflow
  • Åšledzenie eksperymentów
  • ZarzÄ…dzanie modelami uczenia maszynowego i udostÄ™pnianie ich
  • Tworzenie i stosowanie projektów za pomocÄ… moduÅ‚u MLflow Projects
  • Dalsze kroki

Dodaj do koszyka Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szerok

Code, Publish & WebDesing by CATALIST.com.pl



(c) 2005-2024 CATALIST agencja interaktywna, znaki firmowe należą do wydawnictwa Helion S.A.