reklama - zainteresowany?

Spark. Rozproszone uczenie maszynowe na du - Helion

Spark. Rozproszone uczenie maszynowe na du
Autor: Adi Polak
Tytuł oryginału: Scaling Machine Learning with Spark: Distributed ML with MLlib, TensorFlow, and PyTorch
Tłumaczenie: Rados
ISBN: 978-83-289-1234-2
stron: 264, Format: 165x235, okładka: mi
Data wydania: 2024-08-06
Księgarnia: Helion

Cena książki: 52,43 zł (poprzednio: 74,90 zł)
Oszczędzasz: 30% (-22,47 zł)

Dodaj do koszyka Spark. Rozproszone uczenie maszynowe na du

Tagi: Uczenie maszynowe

Je

Dodaj do koszyka Spark. Rozproszone uczenie maszynowe na du

Spis treści

Spark. Rozproszone uczenie maszynowe na dużą skalę. Jak korzystać z MLlib, TensorFlow i PyTorch -- spis treści

Przedmowa

1. Rozproszone uczenie maszynowe. Terminologia i pojęcia

  • Etapy przepływu pracy uczenia maszynowego
  • Narzędzia i technologie w potoku uczenia maszynowego
  • Modele przetwarzania rozproszonego
    • Modele uniwersalne
    • Dedykowane modele przetwarzania rozproszonego
  • Wprowadzenie do architektury systemów rozproszonych
    • Systemy scentralizowane a zdecentralizowane
    • Modele interakcji
    • Komunikacja w środowisku rozproszonym
  • Wprowadzenie do metod uczenia zespołowego
    • Wysoka i niska stronniczość
    • Rodzaje metod zespołowych
    • Topologie szkolenia rozproszonego learner
  • Wyzwania związane z rozproszonymi systemami uczenia maszynowego
    • Wydajność
    • Zarządzanie zasobami
    • Odporność na błędy
    • Prywatność
    • Przenośność
  • Konfiguracja środowiska lokalnego
    • Środowisko samouczków z rozdziałów 2. - 6.
    • Środowisko samouczków z rozdziałów 7. - 10.
  • Podsumowanie

2. Wprowadzenie do Sparka i PySparka

  • Architektura Apache Spark
  • Wprowadzenie do PySparka
  • Podstawy Apache Spark
    • Architektura oprogramowania
    • PySpark a programowanie funkcyjne
    • Uruchamianie kodu PySparka
  • Ramki DataFrame biblioteki pandas kontra ramki DataFrame systemu Spark
  • Scikit-Learn kontra MLlib
  • Podsumowanie

3. Zarządzanie cyklem życia eksperymentu uczenia maszynowego za pomocą MLflow

  • Wymagania dotyczące zarządzania cyklem życia uczenia maszynowego
  • Czym jest MLflow?
    • Komponenty oprogramowania platformy MLflow
    • Użytkownicy platformy MLflow
  • Komponenty platformy MLflow
    • MLflow Tracking
    • MLflow Projects
    • MLflow Models
    • MLflow Model Registry
  • Korzystanie z platformy MLflow w rozwiązaniach dużej skali
  • Podsumowanie

4. Pozyskiwanie danych, wstępne przetwarzanie i statystyki opisowe

  • Pozyskiwanie danych za pomocą Sparka
    • Przetwarzanie obrazów
    • Przetwarzanie danych tabelarycznych
  • Wstępne przetwarzanie danych
    • Przetwarzanie wstępne a właściwe
    • Po co wstępnie przetwarzać dane?
    • Struktury danych
    • Typy danych MLlib
    • Przetwarzanie wstępne z wykorzystaniem transformatorów MLlib
    • Wstępne przetwarzanie danych obrazów
    • Zapisywanie danych i unikanie problemu małych plików
  • Statystyki opisowe: poznawanie danych
    • Obliczanie statystyk
    • Statystyki opisowe z wykorzystaniem obiektu Summarizer Sparka
    • Skośność danych
    • Korelacja
  • Podsumowanie

5. Inżynieria cech

  • Cechy i ich wpływ na modele uczenia maszynowego
  • Narzędzia do cechowania w bibliotece MLlib
    • Ekstraktory
    • Selektory
    • Przykład: Word2Vec
  • Proces cechowania obrazów
    • Wykonywanie działań na obrazach
    • Wyodrębnianie cech za pomocą API Sparka
  • Proces cechowania tekstu
    • Worek słów
    • TF-IDF
    • n-gramy
    • Techniki dodatkowe
  • Wzbogacanie zbioru danych
  • Podsumowanie

6. Szkolenie modeli za pomocą biblioteki MLlib platformy Spark

  • Algorytmy
  • Nadzorowane uczenie maszynowe
    • Klasyfikacja
    • Regresja
  • Nienadzorowane uczenie maszynowe
    • Wydobywanie częstych wzorców
    • Klasteryzacja
  • Ocena
    • Ewaluatory nadzorowane
    • Ewaluatory nienadzorowane
  • Hiperparametry i eksperymenty dostrajania
    • Budowanie siatki parametrów
    • Podział danych na zbiory szkoleniowe i testowe
    • Walidacja krzyżowa: lepszy sposób testowania modeli
  • Potoki uczenia maszynowego
    • Budowa potoku
    • Jak działa podział dla API Pipeline?
  • Utrwalanie
  • Podsumowanie

7. Łączenie Sparka z frameworkami uczenia głębokiego

  • Podejście oparte na danych i dwóch klastrach
  • Implementacja dedykowanej warstwy dostępu do danych
    • Cechy DAL
    • Wybór warstwy DAL
  • Czym jest Petastorm?
    • SparkDatasetConverter
    • Petastorm jako magazyn Parquet
  • Projekt Hydrogen
    • Barierowy tryb wykonania
    • Harmonogramowanie z uwzględnieniem akceleratorów
  • Wprowadzenie do API Horovod Estimator
  • Podsumowanie

8. Rozproszone uczenie maszynowe z wykorzystaniem TensorFlow

  • Przegląd podstawowych wywołań API biblioteki TensorFlow
    • Czym jest sieć neuronowa?
    • Role i obowiązki w procesie klastra TensorFlow
  • Ładowanie danych Parquet do zbioru danych TensorFlow
  • Strategie rozproszonego uczenia maszynowego TensorFlow
    • ParameterServerStrategy
    • CentralStorageStrategy: jedna maszyna, wiele procesorów
    • MirroredStrategy: jedna maszyna, wiele procesorów, lokalna kopia
    • MultiWorkerMirroredStrategy: wiele maszyn, tryb synchroniczny
    • TPUStrategy
    • Co się zmienia po zmianie strategii?
  • Szkoleniowe interfejsy API
    • API Keras
    • Niestandardowa pętla szkoleniowa
    • API Estimator
  • Połączmy kropki
  • Rozwiązywanie problemów
  • Podsumowanie

9. Rozproszone uczenie maszynowe z wykorzystaniem frameworka PyTorch

  • Przegląd podstaw frameworka PyTorch
    • Graf obliczeniowy
    • Mechanika frameworka PyTorch i związane z nim pojęcia
  • Strategie rozproszonego szkolenia modeli frameworka PyTorch
    • Wprowadzenie do podejścia rozproszonego wykorzystywanego przez framework PyTorch
    • Rozproszone i równoległe szkolenie danych (DDP)
    • Szkolenie rozproszone oparte na RPC
    • Topologie komunikacji frameworka PyTorch (c10d)
    • Do czego można wykorzystać niskopoziomowe wywołania API frameworka PyTorch?
  • Ładowanie danych za pomocą frameworka PyTorch i biblioteki Petastorm
  • Rozwiązywanie problemów podczas korzystania z biblioteki Petastorm i frameworka PyTorch w środowisku rozproszonym
    • Enigma niedopasowanych typów danych
    • Tajemnica marudnych węzłów roboczych
  • Czym PyTorch różni się od TensorFlow?
  • Podsumowanie

10. Wzorce wdrażania modeli uczenia maszynowego

  • Wzorce wdrażania
    • Wzorzec 1. Prognozy zbiorcze
    • Wzorzec 2. Model w ramach usługi
    • Wzorzec 3. Model jako usługa
    • Decydowanie o wykorzystywanym wzorcu
    • Wymagania dotyczące oprogramowania produkcyjnego
  • Monitorowanie modeli uczenia maszynowego w produkcji
    • Dryf danych
    • Dryf modelu, dryf koncepcji
    • Przesunięcie dziedziny rozkładu (długi ogon)
    • Jakie wskaźniki należy monitorować w produkcji?
    • W jaki sposób wykorzystać system monitorowania do mierzenia zmian?
    • Jak to wygląda w systemie produkcyjnym?
  • Produkcyjna pętla sprzężenia zwrotnego
  • Wdrażanie z wykorzystaniem biblioteki MLlib
    • Produkcyjne potoki uczenia maszynowego ze strukturalnym przesyłaniem strumieniowym
  • Wdrażanie z wykorzystaniem biblioteki MLflow
    • Definiowanie wrappera MLflow
    • Wdrażanie modelu jako mikrousługi
    • Ładowanie modelu jako funkcji UDF platformy Spark
  • Jak pracować nad systemem w sposób iteracyjny?
  • Podsumowanie

Skorowidz

Dodaj do koszyka Spark. Rozproszone uczenie maszynowe na du

Code, Publish & WebDesing by CATALIST.com.pl



(c) 2005-2024 CATALIST agencja interaktywna, znaki firmowe należą do wydawnictwa Helion S.A.