Python i praca z danymi. Przetwarzanie, analiza, modelowanie i wizualizacja. Wydanie III - Helion

Autor: Avinash Navlani, Armando Fandango, Ivan Idris
Tytuł oryginału: Python Data Analysis: Perform data collection, data processing, wrangling, visualization, and model building using Python, 3rd Edition
Tłumaczenie: Krzysztof Sawka
ISBN: 978-83-283-8360-9
stron: 384, Format: 168x237, okładka: mi
Data wydania: 2022-04-01
Księgarnia: Helion

Cena książki: 57,84 zł (poprzednio: 88,98 zł)
Oszczędzasz: 35% (-31,14 zł)

Pobierz fragment książki » Osoby, które kupiły tę książkę, wybierały także »

Tagi: Python - Programowanie

Analiza danych sprawia,

Osoby które kupowały "Python i praca z danymi. Przetwarzanie, analiza, modelowanie i wizualizacja. Wydanie III", wybierały także:

Django 4. Praktyczne tworzenie aplikacji sieciowych. Wydanie IV 125,48 zł, (38,90 zł -69%)
Zaawansowane uczenie maszynowe z językiem Python 55,94 zł, (17,90 zł -68%)
Flask. Kurs video. Od pierwszej linijki kodu do praktycznego zastosowania 119,00 zł, (47,60 zł -60%)
Python na start. Kurs video. Tw 99,00 zł, (39,60 zł -60%)
Python. Kurs video. Programowanie asynchroniczne 97,32 zł, (39,90 zł -59%)

Spis treści

Python i praca z danymi. Przetwarzanie, analiza, modelowanie i wizualizacja. Wydanie III -- spis treści

Współautorzy

Wstęp

Część I. Podstawy analizy danych

Rozdział 1. Wprowadzenie do bibliotek Pythona
- Wyjaśnienie pojęcia "analiza danych"
- Standardowy proces analizy danych
- Proces KDD
- Proces SEMMA
- Proces CRISP-DM
- Analiza danych a danetyka
- Umiejętności analityka danych oraz danetyka
- Instalacja środowiska Python 3
- Oprogramowanie używane w tej książce
- Używanie aplikacji IPython jako powłoki
- Korzystanie z aplikacji JupyterLab
- Stosowanie aplikacji Jupyter Notebook
- Zaawansowane funkcje aplikacji Jupyter Notebook
- Podsumowanie
Rozdział 2. Biblioteki NumPy i pandas
- Wymogi techniczne
- Tablice NumPy
- Numeryczne typy danych tablic NumPy
- Manipulowanie wymiarami tablic
- Łączenie tablic NumPy
- Rozdzielanie tablic NumPy
- Zmiana typu danych tablic NumPy
- Tworzenie widoków i kopii NumPy
- Fragmentowanie tablic NumPy
- Indeksowanie logiczne i indeksowanie specjalne
- Rozgłaszanie tablic
- Tworzenie obiektów DataFrame biblioteki pandas
- Obiekt Series biblioteki pandas
- Odczytywanie i kwerendowanie danych Quandl
- Opisywanie obiektów DataFrame
- Grupowanie i złączanie obiektów DataFrame
- Praca z brakującymi danymi
- Tworzenie tabel przestawnych
- Rozwiązywanie kwestii dat
- Podsumowanie
- Bibliografia
Rozdział 3. Statystyka
- Wymogi techniczne
- Atrybuty i ich typy
- Pomiar tendencji centralnej
- Pomiar dyspersji
- Skośność i kurtoza
- Określanie związków za pomocą współczynników kowariancji i korelacji
- Centralne twierdzenie graniczne
- Pozyskiwanie prób
- Przeprowadzanie testów parametrycznych
- Przeprowadzanie testów nieparametrycznych
- Podsumowanie
Rozdział 4. Algebra liniowa
- Wymogi techniczne
- Dopasowywanie do wielomianów za pomocą biblioteki NumPy
- Wyznacznik macierzy
- Określanie rzędu macierzy
- Macierz odwrotna w bibliotece NumPy
- Rozwiązywanie równań liniowych za pomocą biblioteki NumPy
- Rozkład macierzy za pomocą SVD
- Wartości własne i wektory własne w bibliotece NumPy
- Generowanie liczb losowych
- Rozkład dwumianowy
- Rozkład normalny
- Testowanie normalności rozkładu danych za pomocą biblioteki SciPy
- Tworzenie tablicy maskowanej za pomocą podpakietu numpy.ma
- Podsumowanie

Część II. Eksploracyjna analiza danych i oczyszczanie danych

Rozdział 5. Wizualizacja danych
- Wymogi techniczne
- Wizualizacja za pomocą pakietu Matplotlib
- Zaawansowana wizualizacja za pomocą pakietu seaborn
- Wizualizacja interaktywna za pomocą biblioteki Bokeh
- Podsumowanie
Rozdział 6. Pozyskiwanie, przetwarzanie i przechowywanie danych
- Wymogi techniczne
- Odczyt i zapis plików CSV za pomocą biblioteki NumPy
- Odczyt i zapis plików CSV za pomocą biblioteki pandas
- Odczyt i zapis plików arkusza kalkulacyjnego Excel
- Odczyt i zapis plików JSON
- Odczyt i zapis plików HDF5
- Odczyt i zapis danych z tabel HTML-a
- Odczyt i zapis plików Parquet
- Odczyt i zapis danych z obiektu pickle
- Łatwy dostęp do danych za pomocą modułu sqlite3
- Odczyt i zapis danych w bazie danych MySQL
- Odczyt i zapis danych w bazie danych MongoDB
- Odczyt i zapis danych w bazie danych Cassandra
- Odczyt i zapis danych w bazie danych Redis
- PonyORM
- Podsumowanie
Rozdział 7. Oczyszczanie nieuporządkowanych danych
- Wymogi techniczne
- Eksploracja danych
- Filtrowanie danych w celu pozbycia się szumu
- Rozwiązywanie kwestii brakujących wartości
- Rozwiązywanie kwestii elementów odstających
- Techniki kodowania cech
- Skalowanie cech
- Przekształcanie cech
- Rozdzielanie cech
- Podsumowanie
Rozdział 8. Przetwarzanie sygnałów i szeregi czasowe
- Wymogi techniczne
- Moduł statsmodels
- Średnie kroczące
- Funkcje okna czasowego
- Kointegracja
- Rozkład STL
- Autokorelacja
- Modele autoregresyjne
- Model ARMA
- Generowanie sygnałów okresowych
- Analiza Fouriera
- Filtrowanie metodą analizy widmowej
- Podsumowanie

Część III. Dokładna analiza uczenia maszynowego

Rozdział 9. Uczenie nadzorowane: analiza regresyjna
- Wymogi techniczne
- Regresja liniowa
- Wielowspółliniowość
- Zmienne fikcyjne
- Projektowanie modelu regresji liniowej
- Ocenianie skuteczności modelu regresyjnego
- Dopasowywanie regresji wielomianowej
- Modele regresji używane w klasyfikacji
- Regresja logistyczna
- Implementacja regresji logistycznej za pomocą biblioteki scikit-learn
- Podsumowanie
Rozdział 10. Uczenie nadzorowane: techniki klasyfikacji
- Wymogi techniczne
- Klasyfikacja
- Naiwny klasyfikator Bayesa
- Drzewa decyzyjne
- Algorytm KNN
- Maszyny wektorów nośnych
- Podział danych na zestawy uczący i testowy
- Ocena skuteczności modelu klasyfikacji
- Krzywa ROC i obszar AUC
- Podsumowanie
Rozdział 11. Uczenie nienadzorowane: PCA i analiza skupień
- Wymogi techniczne
- Uczenie nienadzorowane
- Redukowanie wymiarowości danych
- Analiza głównych składowych
- Analiza skupień
- Grupowanie danych za pomocą algorytmu centroidów
- Hierarchiczna analiza skupień
- Algorytm DBSCAN
- Widmowa analiza skupień
- Ocenianie jakości analizy skupień
- Podsumowanie

Część IV. Przetwarzanie języka naturalnego, analiza obrazów i obliczenia równoległe

Rozdział 12. Analiza danych tekstowych
- Wymogi techniczne
- Instalacja bibliotek NLTK i spaCy
- Normalizacja tekstu
- Tokenizacja
- Usuwanie słów nieinformatywnych
- Rdzeniowanie słów i lematyzacja
- Oznaczanie części mowy
- Rozpoznawanie jednostek nazewniczych
- Analiza zależności
- Tworzenie chmury słów
- "Worek słów"
- Metoda TF-IDF
- Analiza sentymentów za pomocą klasyfikacji tekstu
- Podobieństwo tekstów
- Podsumowanie
Rozdział 13. Analiza obrazów
- Wymogi techniczne
- Instalacja biblioteki OpenCV
- Omówienie danych obrazowych
- Modele barw
- Rysowanie na obrazach
- Pisanie na obrazach
- Zmiana rozmiaru obrazu
- Przekształcenie izometryczne obrazów
- Zmiana jasności
- Rozmywanie obrazu
- Wykrywanie twarzy
- Podsumowanie
Rozdział 14. Obliczenia równoległe za pomocą biblioteki Dask
- Obliczenia równoległe za pomocą biblioteki Dask
- Typy danych Dask
- Interfejs Dask Delayed
- Skalowane wstępne przetwarzanie danych
- Skalowane uczenie maszynowe
- Podsumowanie