Poznajemy Sparka. Błyskawiczna analiza danych - Helion

ISBN: 978-8-3011-8685-2
stron: 260, Format: ebook
Data wydania: 2016-06-17
Księgarnia: Helion
Cena książki: 55,20 zł (poprzednio: 68,15 zł)
Oszczędzasz: 19% (-12,95 zł)
Ilość danych we wszystkich domenach wciąż roÅ›nie. Jak możemy skutecznie je wykorzystywać? W książce Poznajemy Sparka przedstawiono Apache Spark, system open source do przetwarzania klastrów, dziÄ™ki któremu pisanie i uruchamianie aplikacji analizy danych jest szybsze. Za pomocÄ… Sparka można stawić czoÅ‚a dużym zbiorom danych za poÅ›rednictwem prostych interfejsów w jÄ™zykach Python, Java i Scala.
DziÄ™ki tej pracy, napisanej przez deweloperów Sparka, naukowcy zajmujÄ…cy siÄ™ danymi i inżynierowie dowiedzÄ… siÄ™, jak przedstawiać równolegÅ‚e zadania za pomocÄ… kilku wierszy kodu oraz jak pisać aplikacje od prostych zdaÅ„ wsadowych do przetwarzania strumieniowego i systemów uczÄ…cych siÄ™. Informacje zawarte w książce pozwolÄ… im na:.
- szybkie zgłębienie możliwości Sparka, takich jak rozproszone zbiory danych, buforowanie w pamięci oraz interaktywna powłoka
- wykorzystywanie wbudowanych bibliotek, łącznie z Spark SQL, Spark Streaming oraz MLlib
- wykorzystywanie paradygmatu programowania zamiast łączenia i dopasowywania narzędzi takich jak Hive, Hadoop, Mahout i Storm
- poznawanie sposobu wykorzystywania aplikacji interakcyjnych, wsadowych i strumieniowych dołączanie źródeÅ‚ danych, np. HDFS, Hive, JSON i S3
Osoby które kupowały "Poznajemy Sparka. Błyskawiczna analiza danych", wybierały także:
- Zrozumieć BPMN. Modelowanie procesów biznesowych. Wydanie 2 rozszerzone 39,90 zł, (19,95 zł -50%)
- Excel 2016 PL. Biblia 109,00 zł, (54,50 zł -50%)
- Naczelny Algorytm. Jak jego odkrycie zmieni nasz świat 49,00 zł, (24,50 zł -50%)
- Big Data. Najlepsze praktyki budowy skalowalnych systemów obsługi danych w czasie rzeczywistym 59,00 zł, (29,50 zł -50%)
- Hadoop. Komplety przewodnik. Analiza i przechowywanie danych 89,00 zł, (44,50 zł -50%)
Spis treści
Poznajemy Sparka. B³yskawiczna analiza danych eBook -- spis tre¶ci
- Ok³adka
- Strona tytu³owa
- Strona redakcyjna
- Spis tre¶ci
- S³owo wstêpne
- Wprowadzenie
- 1. Wprowadzenie do analizy danych w Sparku
- Czym jest Apache Spark?
- Ujednolicony stos
- J±dro Sparka
- Spark SQL
- Spark Streaming
- MLlib
- GraphX
- Zarz±dzanie klastrami
- Kto i po co korzysta ze Sparka?
- Zadania z zakresu nauki o danych
- Aplikacje przetwarzania danych
- Krótka historia Sparka
- Wersje i wydania Sparka
- Warstwy pamiêci w Sparku
- 2. Pobieranie Sparka i rozpoczêcie pracy
- Pobieranie Sparka
- Wprowadzenie do pow³ok Sparka dla Pythona i Scali
- Wprowadzenie do podstawowych pojêæ Sparka
- Niezale¿ne aplikacje
- Inicjalizowanie kontekstu SparkContext
- Tworzenie niezale¿nych aplikacji
- Podsumowanie
- 3. Programowanie z rozproszonymi zbiorami danych RDD
- Podstawy RDD
- Tworzenie RDD
- Dzia³ania na RDD
- Transformacje
- Akcje
- Leniwa ewaluacja
- Przekazywanie funkcji do Sparka
- Python
- Scala
- Java
- Popularne transformacje i akcje
- Podstawowe RDD
- Przekszta³cenia miêdzy typami RDD
- Utrzymywanie (buforowanie)
- Podsumowanie
- 4. Praca z parami klucz-warto¶æ
- Motywacja
- Tworzenie RDD par
- Transformacje na RDD par
- Agregacje
- Grupowanie danych
- Z³±czenia
- Sortowanie danych
- Dzia³ania dostêpne na RDD par
- Partycjonowanie danych (zaawansowane)
- Okre¶lanie partycjonera RDD
- Dzia³ania, które zyskuj± dziêki partycjonowaniu
- Dzia³ania, które maj± wp³yw na partycjonowanie
- Przyk³ad: PageRank
- Niestandardowe partycjonery
- Podsumowanie
- 5. £adowanie i zapisywanie danych
- Motywacja
- Formaty plików
- Pliki tekstowe
- JSON
- Warto¶ci oddzielane przecinkami i tabulatorami
- Pliki sekwencyjne
- Pliki obiektowe
- Formaty wej¶cia i wyj¶cia w Hadoop
- Kompresja plików
- Systemy plików
- Lokalny lub zwyk³y
- Amazon S3
- HDFS
- Dane strukturalne w Spark SQL
- Apache Hive
- JSON
- Bazy danych
- £±czniki z baz± danych Java
- Cassandra
- HBase
- Elasticsearch
- Podsumowanie
- 6. Zaawansowane programowanie w Sparku
- Wprowadzenie
- Akumulatory
- Akumulatory i odporno¶æ na b³êdy
- Akumulatory niestandardowe
- Zmienne rozg³oszeniowe
- Optymalizacja rozg³oszeñ
- Praca na poszczególnych partycjach
- Potokowanie do programów zewnêtrznych
- Dzia³ania liczbowe na RDD
- Podsumowanie
- 7. Uruchamianie Sparka w klastrze
- Wprowadzenie
- Spark Runtime Architecture
- Sterownik
- Wykonawcy
- Mened¿er klastrów
- Uruchamianie programu
- Podsumowanie
- Wdra¿anie aplikacji za pomoc± spark-submit
- Pakowanie kodu i elementów zale¿nych
- Aplikacja Java Spark budowana za pomoc± Mavena
- Aplikacja Scala Spark budowana za pomoc± sbt
- Konflikty zale¿no¶ci
- Harmonogramowanie w aplikacjach Sparka i miêdzy nimi
- Mened¿ery klastrów
- Mened¿er klastrów Standalone
- Hadoop YARN
- Apache Mesos
- Amazon EC2
- Którego mened¿era klastrów u¿ywaæ?
- Podsumowanie
- 8. Dostrajanie i debugowanie Sparka
- Konfigurowanie Sparka z SparkConf
- Sk³adniki wykonania: prace, zadania i etapy
- Znajdowanie informacji
- Sieciowy interfejs u¿ytkownika w Sparku (Web UI)
- Dzienniki sterownika i wykonawców
- Kluczowe zagadnienia dotycz±ce wydajno¶ci
- Poziom równoleg³o¶ci
- Format serializacji
- Zarz±dzanie pamiêci±
- Dostarczanie sprzêtu
- Podsumowanie
- 9. Spark SQL
- £±czenie ze Spark SQL
- U¿ywanie Spark SQL w aplikacjach
- Inicjalizacja Spark SQL
- Przyk³ad podstawowych zapytañ
- Elementy DataFrames
- Buforowanie
- £adowanie i zapisywanie danych
- Apache Hive
- ¬ród³a danych lub Parquet
- JSON
- Ze zbiorów RDD
- Serwer JDBC/ODBC
- Praca z Beeline
- D³ugotrwa³e tablice i zapytania
- Funkcje definiowane przez u¿ytkowników
- UDF w Spark SQL
- Funkcje UDF w Hive
- Wydajno¶æ Spark SQL
- Opcje dostrajania wydajno¶ci
- Podsumowanie
- 10. Spark Streaming
- Prosty przyk³ad
- Architektura i abstrakcja
- Transformacje
- Transformacje bezstanowe
- Transformacje stanowe
- Operacje wyj¶cia
- ¬ród³a wej¶ciowe
- G³ówne ¼ród³a
- Dodatkowe ¼ród³a
- Wiele ¼róde³ i ustawianie rozmiaru klastra
- Dzia³anie 24/7
- Punkty kontrolne
- Odporno¶æ sterownika na b³êdy
- Odporno¶æ wêz³a roboczego na b³êdy
- Odporno¶æ odbiornika na b³êdy
- Gwarancje przetwarzania
- Interfejs u¿ytkownika w strumieniowaniu
- Kwestie wydajno¶ci
- Rozmiary wsadu i okien
- Poziom równoleg³o¶ci
- Czyszczenie pamiêci i jej wykorzystywanie
- Podsumowanie
- 11. Systemy ucz±ce siê w MLlib
- Przegl±d
- Wymagania dotycz±ce systemu
- Podstawy systemów ucz±cych siê
- Przyk³ad: klasyfikacja spamu
- Typy danych
- Praca z wektorami
- Algorytmy
- Ekstrakcja cech
- Statystyki
- Klasyfikacja i regresja
- Klastrowanie
- Wspólne filtrowanie i rekomendacje
- Zmniejszenie wymiarowo¶ci
- Ewaluacja modelu
- Wskazówki i kwestie wydajno¶ci
- Przygotowanie cech
- Konfigurowanie algorytmów
- Bufrowanie zbiorów RDD do ponownego wykorzystania
- Rozpoznawanie rzadko¶ci
- Poziom równoleg³o¶ci
- API potoku
- Podsumowanie
- O autorach
- Przypisy