Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szerok - Helion

ebook

Autor: Akash Tandon, Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills
Tytuł oryginału: Advanced Analytics with PySpark: Patterns for Learning from Data at Scale Using Python and Spark
Tłumaczenie: Andrzej Watrak
ISBN: 978-83-8322-070-3
stron: 192, Format: ebook
Data wydania: 2023-01-01
Księgarnia: Helion

Cena książki: 35,88 zł (poprzednio: 69,00 zł)
Oszczędzasz: 48% (-33,12 zł)

Tagi: Analiza danych | Python - Programowanie

Potrzeby w zakresie analizy du

Osoby które kupowały "Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szerok", wybierały także:

Data Science w Pythonie. Kurs video. Przetwarzanie i analiza danych 149,00 zł, (67,05 zł -55%)
Excel 2013. Kurs video. Poziom drugi. Przetwarzanie i analiza danych 79,00 zł, (35,55 zł -55%)
Statystyka praktyczna w data science. 50 kluczowych zagadnień w językach R i Python. Wydanie II 87,00 zł, (43,50 zł -50%)
Skazany na sukces. Kariera w Data Science 79,00 zł, (39,50 zł -50%)
Szeregi czasowe. Praktyczna analiza i predykcja z wykorzystaniem statystyki i uczenia maszynowego 119,00 zł, (59,50 zł -50%)

Słowo wstępne

1. Analiza wielkich zbiorów danych

2. Wprowadzenie do analizy danych za pomocą PySpark

3. Rekomendowanie muzyki i dane Audioscrobbler

4. Prognozowanie zalesienia za pomocą drzewa decyzyjnego

5. Wykrywanie anomalii w ruchu sieciowym metodą grupowania edług k-średnich

6. Wikipedia, algorytmy LDA i Spark NLP

7. Geoprzestrzenna i temporalna analiza tras nowojorskich taksówek

Przygotowanie danych
- Konwersja ciągów znaków na znaczniki czasu
- Obsługa błędnych rekordów danych
Analiza danych geoprzestrzennych
- Wprowadzenie do formatu GeoJSON
- Biblioteka GeoPandas
Sesjonowanie w interfejsie PySpark
- Budowanie sesji - dodatkowe sortowanie danych w systemie Spark
Dalsze kroki

8. Szacowanie ryzyka finansowego

Terminologia
Metody obliczania wskaźnika VaR
- Wariancja-kowariancja
- Symulacja historyczna
- Symulacja Monte Carlo
Nasz model
Pobranie danych
Przygotowanie danych
Określenie wag czynników
Losowanie prób
- Wielowymiarowy rozkład normalny
Wykonanie testów
Wizualizacja rozkładu zwrotów
Dalsze kroki

9. Analiza danych genomicznych i projekt BDG

Rozdzielenie sposobów zapisu i modelowania danych
Przygotowanie pakietu ADAM
Przetwarzanie danych genomicznych za pomocą pakietu ADAM
- Konwersja formatów plików za pomocą poleceń pakietu ADAM
- Pozyskanie danych genomicznych przy użyciu interfejsu PySpark i pakietu ADAM
Prognozowanie miejsc wiązania czynnika transkrypcyjnego na podstawie danych ENCODE
Dalsze kroki

10. Określanie podobieństwa obrazów za pomocą głębokiego uczenia i algorytmu PySpark LSH

PyTorch
- Instalacja
Przygotowanie danych
- Skalowanie obrazów za pomocą PyTorch
Wektoryzacja obrazów za pomocą modelu głębokiego uczenia
- Osadzenie obrazów
- Import osadzeń obrazów do pakietu PySpark
Określanie podobieństwa obrazów za pomocą algorytmu PySpark LSH
- Wyszukiwanie najbliższych sąsiadów
Dalsze kroki

11. Zarządzanie cyklem uczenia maszynowego za pomocą platformy MLflow