reklama - zainteresowany?

Poznajemy Sparka. Błyskawiczna analiza danych - Helion

Poznajemy Sparka. Błyskawiczna analiza danych
ebook
Autor: Andy Konwinski, Karau Holden, Patrick Wendel, Matei Zaharia
ISBN: 978-8-3011-8685-2
stron: 260, Format: ebook
Data wydania: 2016-06-17
Księgarnia: Helion

Cena książki: 55,20 zł (poprzednio: 68,15 zł)
Oszczędzasz: 19% (-12,95 zł)

Dodaj do koszyka Poznajemy Sparka. Błyskawiczna analiza danych

Tagi: Big Data | Inne - Programowanie

Ilość danych we wszystkich domenach wciąż roÅ›nie. Jak możemy skutecznie je wykorzystywać? W książce Poznajemy Sparka przedstawiono Apache Spark, system open source do przetwarzania klastrów, dziÄ™ki któremu pisanie i uruchamianie aplikacji analizy danych jest szybsze. Za pomocÄ… Sparka można stawić czoÅ‚a dużym zbiorom danych za poÅ›rednictwem prostych interfejsów w jÄ™zykach Python, Java i Scala.

DziÄ™ki tej pracy, napisanej przez deweloperów Sparka, naukowcy zajmujÄ…cy siÄ™ danymi i inżynierowie dowiedzÄ… siÄ™, jak przedstawiać równolegÅ‚e zadania za pomocÄ… kilku wierszy kodu oraz jak pisać aplikacje od prostych zdaÅ„ wsadowych do przetwarzania strumieniowego i systemów uczÄ…cych siÄ™. Informacje zawarte w książce pozwolÄ… im na:.

  • szybkie zgłębienie możliwoÅ›ci Sparka, takich jak rozproszone zbiory danych, buforowanie w pamiÄ™ci oraz interaktywna powÅ‚oka
  • wykorzystywanie wbudowanych bibliotek, łącznie z Spark SQL, Spark Streaming oraz MLlib
  • wykorzystywanie paradygmatu programowania zamiast łączenia i dopasowywania narzÄ™dzi takich jak Hive, Hadoop, Mahout i Storm 
  • poznawanie sposobu wykorzystywania aplikacji interakcyjnych, wsadowych i strumieniowych dołączanie źródeÅ‚ danych, np. HDFS, Hive, JSON i S3

Dodaj do koszyka Poznajemy Sparka. Błyskawiczna analiza danych

 

Osoby które kupowały "Poznajemy Sparka. Błyskawiczna analiza danych", wybierały także:

  • Zrozumieć BPMN. Modelowanie procesów biznesowych. Wydanie 2 rozszerzone
  • Excel 2016 PL. Biblia
  • Naczelny Algorytm. Jak jego odkrycie zmieni nasz Å›wiat
  • Big Data. Najlepsze praktyki budowy skalowalnych systemów obsÅ‚ugi danych w czasie rzeczywistym
  • Hadoop. Komplety przewodnik. Analiza i przechowywanie danych

Dodaj do koszyka Poznajemy Sparka. Błyskawiczna analiza danych

Spis treści

Poznajemy Sparka. B³yskawiczna analiza danych eBook -- spis tre¶ci

  • Ok³adka
  • Strona tytu³owa
  • Strona redakcyjna
  • Spis tre¶ci
  • S³owo wstêpne
  • Wprowadzenie
  • 1. Wprowadzenie do analizy danych w Sparku
    • Czym jest Apache Spark?
    • Ujednolicony stos
    • J±dro Sparka
    • Spark SQL
    • Spark Streaming
    • MLlib
    • GraphX
    • Zarz±dzanie klastrami
    • Kto i po co korzysta ze Sparka?
    • Zadania z zakresu nauki o danych
    • Aplikacje przetwarzania danych
    • Krótka historia Sparka
    • Wersje i wydania Sparka
    • Warstwy pamiêci w Sparku
  • 2. Pobieranie Sparka i rozpoczêcie pracy
    • Pobieranie Sparka
    • Wprowadzenie do pow³ok Sparka dla Pythona i Scali
    • Wprowadzenie do podstawowych pojêæ Sparka
    • Niezale¿ne aplikacje
    • Inicjalizowanie kontekstu SparkContext
    • Tworzenie niezale¿nych aplikacji
    • Podsumowanie
  • 3. Programowanie z rozproszonymi zbiorami danych RDD
    • Podstawy RDD
    • Tworzenie RDD
    • Dzia³ania na RDD
    • Transformacje
    • Akcje
    • Leniwa ewaluacja
    • Przekazywanie funkcji do Sparka
    • Python
    • Scala
    • Java
    • Popularne transformacje i akcje
    • Podstawowe RDD
    • Przekszta³cenia miêdzy typami RDD
    • Utrzymywanie (buforowanie)
    • Podsumowanie
  • 4. Praca z parami klucz-warto¶æ
    • Motywacja
    • Tworzenie RDD par
    • Transformacje na RDD par
    • Agregacje
    • Grupowanie danych
    • Z³±czenia
    • Sortowanie danych
    • Dzia³ania dostêpne na RDD par
    • Partycjonowanie danych (zaawansowane)
    • Okre¶lanie partycjonera RDD
    • Dzia³ania, które zyskuj± dziêki partycjonowaniu
    • Dzia³ania, które maj± wp³yw na partycjonowanie
    • Przyk³ad: PageRank
    • Niestandardowe partycjonery
    • Podsumowanie
  • 5. £adowanie i zapisywanie danych
    • Motywacja
    • Formaty plików
    • Pliki tekstowe
    • JSON
    • Warto¶ci oddzielane przecinkami i tabulatorami
    • Pliki sekwencyjne
    • Pliki obiektowe
    • Formaty wej¶cia i wyj¶cia w Hadoop
    • Kompresja plików
    • Systemy plików
    • Lokalny lub zwyk³y
    • Amazon S3
    • HDFS
    • Dane strukturalne w Spark SQL
    • Apache Hive
    • JSON
    • Bazy danych
    • £±czniki z baz± danych Java
    • Cassandra
    • HBase
    • Elasticsearch
    • Podsumowanie
  • 6. Zaawansowane programowanie w Sparku
    • Wprowadzenie
    • Akumulatory
    • Akumulatory i odporno¶æ na b³êdy
    • Akumulatory niestandardowe
    • Zmienne rozg³oszeniowe
    • Optymalizacja rozg³oszeñ
    • Praca na poszczególnych partycjach
    • Potokowanie do programów zewnêtrznych
    • Dzia³ania liczbowe na RDD
    • Podsumowanie
  • 7. Uruchamianie Sparka w klastrze
    • Wprowadzenie
    • Spark Runtime Architecture
    • Sterownik
    • Wykonawcy
    • Mened¿er klastrów
    • Uruchamianie programu
    • Podsumowanie
    • Wdra¿anie aplikacji za pomoc± spark-submit
    • Pakowanie kodu i elementów zale¿nych
    • Aplikacja Java Spark budowana za pomoc± Mavena
    • Aplikacja Scala Spark budowana za pomoc± sbt
    • Konflikty zale¿no¶ci
    • Harmonogramowanie w aplikacjach Sparka i miêdzy nimi
    • Mened¿ery klastrów
    • Mened¿er klastrów Standalone
    • Hadoop YARN
    • Apache Mesos
    • Amazon EC2
    • Którego mened¿era klastrów u¿ywaæ?
    • Podsumowanie
  • 8. Dostrajanie i debugowanie Sparka
    • Konfigurowanie Sparka z SparkConf
    • Sk³adniki wykonania: prace, zadania i etapy
    • Znajdowanie informacji
    • Sieciowy interfejs u¿ytkownika w Sparku (Web UI)
    • Dzienniki sterownika i wykonawców
    • Kluczowe zagadnienia dotycz±ce wydajno¶ci
    • Poziom równoleg³o¶ci
    • Format serializacji
    • Zarz±dzanie pamiêci±
    • Dostarczanie sprzêtu
    • Podsumowanie
  • 9. Spark SQL
    • £±czenie ze Spark SQL
    • U¿ywanie Spark SQL w aplikacjach
    • Inicjalizacja Spark SQL
    • Przyk³ad podstawowych zapytañ
    • Elementy DataFrames
    • Buforowanie
    • £adowanie i zapisywanie danych
    • Apache Hive
    • ¬ród³a danych lub Parquet
    • JSON
    • Ze zbiorów RDD
    • Serwer JDBC/ODBC
    • Praca z Beeline
    • D³ugotrwa³e tablice i zapytania
    • Funkcje definiowane przez u¿ytkowników
    • UDF w Spark SQL
    • Funkcje UDF w Hive
    • Wydajno¶æ Spark SQL
    • Opcje dostrajania wydajno¶ci
    • Podsumowanie
  • 10. Spark Streaming
    • Prosty przyk³ad
    • Architektura i abstrakcja
    • Transformacje
    • Transformacje bezstanowe
    • Transformacje stanowe
    • Operacje wyj¶cia
    • ¬ród³a wej¶ciowe
    • G³ówne ¼ród³a
    • Dodatkowe ¼ród³a
    • Wiele ¼róde³ i ustawianie rozmiaru klastra
    • Dzia³anie 24/7
    • Punkty kontrolne
    • Odporno¶æ sterownika na b³êdy
    • Odporno¶æ wêz³a roboczego na b³êdy
    • Odporno¶æ odbiornika na b³êdy
    • Gwarancje przetwarzania
    • Interfejs u¿ytkownika w strumieniowaniu
    • Kwestie wydajno¶ci
    • Rozmiary wsadu i okien
    • Poziom równoleg³o¶ci
    • Czyszczenie pamiêci i jej wykorzystywanie
    • Podsumowanie
  • 11. Systemy ucz±ce siê w MLlib
    • Przegl±d
    • Wymagania dotycz±ce systemu
    • Podstawy systemów ucz±cych siê
    • Przyk³ad: klasyfikacja spamu
    • Typy danych
    • Praca z wektorami
    • Algorytmy
    • Ekstrakcja cech
    • Statystyki
    • Klasyfikacja i regresja
    • Klastrowanie
    • Wspólne filtrowanie i rekomendacje
    • Zmniejszenie wymiarowo¶ci
    • Ewaluacja modelu
    • Wskazówki i kwestie wydajno¶ci
    • Przygotowanie cech
    • Konfigurowanie algorytmów
    • Bufrowanie zbiorów RDD do ponownego wykorzystania
    • Rozpoznawanie rzadko¶ci
    • Poziom równoleg³o¶ci
    • API potoku
    • Podsumowanie
  • O autorach
  • Przypisy

Dodaj do koszyka Poznajemy Sparka. Błyskawiczna analiza danych

Code, Publish & WebDesing by CATALIST.com.pl



(c) 2005-2022 CATALIST agencja interaktywna, znaki firmowe należą do wydawnictwa Helion S.A.