Python. Podstawy nauki o danych. Wydanie II - Helion

Autor: Alberto Boschetti, Luca Massaron
Tytuł oryginału: Python Data Science Essentials - Second Edition
Tłumaczenie: Tomasz Walczak
ISBN: 978-83-283-3423-6
stron: 320, Format: 170x230, okładka: miękka
Data wydania: 2017-05-12
Księgarnia: Helion

Cena książki: 59,00 zł

Pobierz fragment książki » Osoby, które kupiły tę książkę, wybierały także »

Tagi: Big data | Python - Programowanie

Nauka o danych jest nową, interdyscyplinarną dziedziną, funkcjonującą na pograniczu algebry liniowej, modelowania statystycznego, lingwistyki komputerowej, uczenia maszynowego oraz metod akumulacji danych. Jest przydatna między innymi dla analityków biznesowych, statystyków, architektów oprogramowania i osób zajmujących się sztuczną inteligencją. Szczególnie praktycznym narzędziem dla tych specjalistów jest język Python, który zapewnia doskonałe środowisko do analizy danych, uczenia maszynowego i algorytmicznego rozwiązywania problemów.

Niniejsza książka jest doskonałym wprowadzeniem do nauki o danych. Jej autorzy wskażą Ci prostą i szybką drogę do rozwiązywania różnych problemów z tego obszaru za pomocą Pythona oraz powiązanych z nim pakietów do analizy danych i uczenia maszynowego. Dzięki lekturze przejdziesz przez kolejne etapy modyfikowania i wstępnego przetwarzania danych, poznając przy tym podstawowe operacje związane z wczytywaniem danych, przekształcaniem ich, poprawianiem na potrzeby analiz, eksplorowaniem i przetwarzaniem. Poza podstawami opanujesz też zagadnienia uczenia maszynowego, w tym uczenia głębokiego, techniki analizy grafów oraz wizualizacji danych.

Najważniejsze zagadnienia przedstawione w książce:

konfiguracja środowiska Jupyter Notebook
najważniejsze operacje stosowane w nauce o danych
potoki danych i uczenie maszynowe
wprowadzenie do grafów i wizualizacje
biblioteki i pakiety Pythona służące do badań danych

Nauka o danych — fascynujące algorytmy i potężne grafy!

Alberto Boschetti specjalizuje się w przetwarzaniu sygnałów i statystyce. Jest doktorem inżynierii telekomunikacyjnej. Zajmuje się przetwarzaniem języków naturalnych, analityką behawioralną, uczeniem maszynowym i przetwarzaniem rozproszonym.

Luca Massaron specjalizuje się w statystycznych analizach wieloczynnikowych, uczeniu maszynowym, statystyce, eksploracji danych i algorytmice. Pasjonuje się potencjałem, jaki drzemie w nauce o danych.

Osoby które kupowały "Python. Podstawy nauki o danych. Wydanie II", wybierały także:

Excel 2013. Kurs video. Poziom drugi. Przetwarzanie i analiza danych 79,00 zł, (35,55 zł -55%)
Zrozumieć BPMN. Modelowanie procesów biznesowych. Wydanie 2 rozszerzone 39,90 zł, (19,95 zł -50%)
Excel 2016 PL. Biblia 108,98 zł, (59,94 zł -45%)
Naczelny Algorytm. Jak jego odkrycie zmieni nasz świat 49,00 zł, (26,95 zł -45%)
Big Data. Najlepsze praktyki budowy skalowalnych systemów obsługi danych w czasie rzeczywistym 87,41 zł, (48,95 zł -44%)

Spis treści

Python. Podstawy nauki o danych. Wydanie II -- spis treści

O autorach (9)

O recenzencie (10)

Wprowadzenie (11)

Rozdział 1. Pierwsze kroki (15)

Wprowadzenie do nauki o danych i Pythona (16)
Instalowanie Pythona (17)
- Python 2 czy Python 3? (18)
- Instalacja krok po kroku (19)
- Instalowanie pakietów (20)
- Aktualizowanie pakietów (22)
- Dystrybucje naukowe (22)
- Środowiska wirtualne (25)
- Krótki przegląd podstawowych pakietów (28)
Wprowadzenie do środowiska Jupyter (37)
- Szybka instalacja i pierwsze testowe zastosowanie (41)
- Magiczne polecenia w Jupyterze (42)
- W jaki sposób notatniki Jupytera mogą być pomocne dla badaczy danych? (44)
- Zastępniki Jupytera (49)
Zbiory danych i kod używane w książce (50)
- Proste przykładowe zbiory danych z pakietu scikit-learn (50)
Podsumowanie (59)

Rozdział 2. Przekształcanie danych (61)

Proces pracy w nauce o danych (62)
Wczytywanie i wstępne przetwarzanie danych za pomocą biblioteki pandas (64)
- Szybkie i łatwe wczytywanie danych (64)
- Radzenie sobie z problematycznymi danymi (67)
- Radzenie sobie z dużymi zbiorami danych (70)
- Dostęp do danych w innych formatach (73)
- Wstępne przetwarzanie danych (75)
- Wybieranie danych (78)
Praca z danymi kategorialnymi i tekstowymi (81)
- Specjalny rodzaj danych - tekst (83)
- Scraping stron internetowych za pomocą pakietu Beautiful Soup (89)
Przetwarzanie danych za pomocą pakietu NumPy (92)
- N-wymiarowe tablice z pakietu NumPy (92)
- Podstawowe informacje o obiektach ndarray z pakietu NumPy (93)
Tworzenie tablic z pakietu NumPy (95)
- Przekształcanie list w jednowymiarowe tablice (95)
- Kontrolowanie ilości zajmowanej pamięci (96)
- Listy niejednorodne (98)
- Od list do tablic wielowymiarowych (99)
- Zmiana wielkości tablic (100)
- Tablice generowane przez funkcje z pakietu NumPy (101)
- Pobieranie tablicy bezpośrednio z pliku (102)
- Pobieranie danych ze struktur z biblioteki pandas (103)
Szybkie operacje i obliczenia z użyciem pakietu NumPy (104)
- Operacje na macierzach (106)
- Tworzenie wycinków i indeksowanie tablic z pakietu NumPy (108)
- Dodawanie "warstw" tablic z pakietu NumPy (110)
Podsumowanie (112)

Rozdział 3. Potok danych (113)

Wprowadzenie do eksploracji danych (113)
Tworzenie nowych cech (117)
Redukcja liczby wymiarów (120)
- Macierz kowariancji (120)
- Analiza głównych składowych (121)
- Analiza głównych składowych dla big data - typ RandomizedPCA (125)
- Analiza czynników ukrytych (126)
- Liniowa analiza dyskryminacyjna (127)
- Analiza ukrytych grup semantycznych (128)
- Analiza składowych niezależnych (129)
- Analiza głównych składowych oparta na funkcji jądra (129)
- Algorytm t-SNE (131)
- Ograniczone maszyny Boltzmanna (132)
Wykrywanie i traktowanie wartości odstających (133)
- Wykrywanie obserwacji odstających za pomocą technik jednoczynnikowych (134)
- Klasa EllipticEnvelope (136)
- Klasa OneClassSVM (140)
Miary używane do walidacji (144)
- Klasyfikacja wieloklasowa (144)
- Klasyfikacja binarna (147)
- Regresja (148)
Testy i walidacja (148)
Walidacja krzyżowa (153)
- Iteratory walidacji krzyżowej (155)
- Próbkowanie i bootstrapping (157)
Optymalizacja hiperparametrów (159)
- Tworzenie niestandardowych funkcji oceny (162)
- Skracanie czasu przeszukiwania siatki parametrów (164)
Wybór cech (166)
- Wybór na podstawie wariancji cech (167)
- Wybór za pomocą modelu jednoczynnikowego (168)
- Rekurencyjna eliminacja (169)
- Wybór na podstawie stabilności i regularyzacji L1 (171)
Opakowywanie wszystkich operacji w potok (173)
- Łączenie cech i tworzenie łańcuchów transformacji (174)
- Tworzenie niestandardowych funkcji transformacji (176)
Podsumowanie (177)

Rozdział 4. Uczenie maszynowe (179)

Przygotowywanie narzędzi i zbiorów danych (179)
Regresja liniowa i logistyczna (181)
Naiwny klasyfikator bayesowski (184)
Algorytm kNN (187)
Algorytmy nieliniowe (188)
- Stosowanie algorytmu SVM do klasyfikowania (190)
- Stosowanie algorytmów SVM do regresji (192)
- Dostrajanie algorytmu SVM (193)
Strategie oparte na zestawach algorytmów (195)
- Pasting z użyciem losowych próbek (196)
- Bagging z użyciem słabych klasyfikatorów (196)
- Podprzestrzenie losowe i obszary losowe (197)
- Algorytmy Random Forests i Extra-Trees (198)
- Szacowanie prawdopodobieństwa na podstawie zestawów (200)
- Sekwencje modeli - AdaBoost (202)
- Metoda GTB (202)
- XGBoost (203)
Przetwarzanie big data (206)
- Tworzenie przykładowych dużych zbiorów danych (207)
- Skalowalność ze względu na ilość danych (208)
- Radzenie sobie z szybkością napływu danych (210)
- Radzenie sobie z różnorodnością (211)
- Przegląd algorytmów z rodziny SGD (213)
Wprowadzenie do uczenia głębokiego (214)
Krótkie omówienie przetwarzania języka naturalnego (221)
- Podział na tokeny (221)
- Stemming (222)
- Oznaczanie części mowy (223)
- Rozpoznawanie nazw własnych (224)
- Stop-słowa (225)
- Kompletny przykład z obszaru nauki o danych - klasyfikowanie tekstu (225)
Przegląd technik uczenia nienadzorowanego (227)
Podsumowanie (237)

Rozdział 5. Analizy sieci społecznościowych (239)

Wprowadzenie do teorii grafów (239)
Algorytmy dla grafów (244)
Wczytywanie grafów, zapisywanie ich w pliku i pobieranie z nich podpróbek (252)
Podsumowanie (255)

Rozdział 6. Wizualizacje, wnioski i wyniki (257)

Wprowadzenie do pakietu Matplotlib (257)
- Rysowanie krzywych (259)
- Stosowanie paneli (260)
- Wykresy punktowe określające relacje w danych (262)
- Histogramy (263)
- Wykresy słupkowe (264)
- Wyświetlanie rysunków (265)
- Wybrane przykłady graficzne z użyciem pakietu pandas (268)
- Wykresy punktowe (271)
- Metoda współrzędnych równoległych (273)
Opakowywanie poleceń z pakietu Matplotlib (274)
- Wprowadzenie do biblioteki seaborn (274)
- Wzbogacanie możliwości z zakresu eksploracji danych (279)
Interaktywne wizualizacje z użyciem pakietu Bokeh (284)
Zaawansowane reprezentacje dotyczące uczenia się na podstawie danych (288)
- Krzywe uczenia (288)
- Krzywe walidacji (290)
- Znaczenie cech w algorytmie Random Forests (292)
- Wykresy częściowej zależności oparte na drzewach GBT (293)
- Budowanie serwera predykcji w modelu ML-AAS (294)
Podsumowanie (299)

Dodatek A. Utrwalanie podstaw Pythona (301)

Lista zagadnień do nauki (302)
- Listy (302)
- Słowniki (304)
- Definiowanie funkcji (305)
- Klasy, obiekty i programowanie obiektowe (307)
- Wyjątki (308)
- Iteratory i generatory (309)
- Instrukcje warunkowe (310)
- Wyrażenia listowe i słownikowe (311)
Nauka przez obserwację, lekturę i praktykę (311)
- Masowe otwarte kursy online (311)
- PyCon i PyData (312)
- Interaktywne sesje w Jupyterze (312)
- Nie wstydź się - podejmij wyzwanie (312)

Skorowidz (315)

Python. Podstawy nauki o danych. Wydanie II - Helion

Nauka o danych &mdash; fascynujące algorytmy i potężne grafy!

Osoby które kupowały "Python. Podstawy nauki o danych. Wydanie II", wybierały także:

Spis treści

Python. Podstawy nauki o danych. Wydanie II -- spis treści

Nauka o danych — fascynujące algorytmy i potężne grafy!