Jak analizowa - Helion

Autor: Daniel Y. Chen
Tytuł oryginału: Pandas for Everyone: Python Data Analysis (Addison-Wesley Data & Analytics Series), 2nd Edition
Tłumaczenie: Piotr Pilch
ISBN: 978-83-289-0151-3
stron: 510, Format: 170x230, okładka: mi
Księgarnia: Helion

Książka będzie dostępna od lipca 2023

Zobacz także »

Tagi: Analiza danych | Inne | Inne - Programowanie | Python - Programowanie

Wprawny analityk potrafi si

Zobacz także:

Tabele i wykresy przestawne dla ka 199,00 zł, (69,65 zł -65%)
Data Science w Pythonie. Kurs video. Przetwarzanie i analiza danych 149,00 zł, (67,05 zł -55%)
Excel 2013. Kurs video. Poziom drugi. Przetwarzanie i analiza danych 79,00 zł, (35,55 zł -55%)
Kompletny przewodnik po Power Query (M). Opanuj wykonywanie z 169,00 zł, (84,50 zł -50%)
OSINT w praktyce. Jak gromadzi 67,00 zł, (33,50 zł -50%)

Spis treści

Jak analizować dane z biblioteką Pandas. Praktyczne wprowadzenie. Wydanie II -- spis treści

Słowo wstępne do wydania drugiego

Słowo wstępne do wydania pierwszego

Przedmowa

Podziękowania

O autorze

Zmiany w wydaniu drugim

Część I. Wprowadzenie

Rozdział 1. Typ danych DataFrame biblioteki Pandas - podstawy
- 1.1. Wprowadzenie
- Cele rozdziału
- 1.2. Ładowanie pierwszego zbioru danych
- 1.3. Sprawdzanie kolumn, wierszy i komórek
  - 1.3.1. Wybieranie i określanie podzbioru kolumn na podstawie nazwy
  - 1.3.2. Określanie podzbioru wierszy
  - 1.3.3. Określanie podzbioru wierszy za pomocą numeru wiersza: atrybut .iloc[]
  - 1.3.4. Użycie kombinacji
  - 1.3.5. Określanie podzbioru wierszy i kolumn
- 1.4. Obliczenia grupowane i agregowane
  - 1.4.1. Średnie grupowane
  - 1.4.2. Liczebności grupowane
- 1.5. Podstawowy wykres
- Podsumowanie
Rozdział 2. Struktury danych biblioteki Pandas - podstawy
- Cele rozdziału
- 2.1. Tworzenie własnych danych
  - 2.1.1. Tworzenie obiektu Series
  - 2.1.2. Tworzenie obiektu DataFrame
- 2.2. Obiekty Series
  - 2.2.1. Obiekt Series przypomina typ ndarray
  - 2.2.2. Określanie podzbioru wartości boolowskich: obiekt Series
  - 2.2.3. Operacje są automatycznie wyrównywane i wektoryzowane (rozgłaszanie)
- 2.3. Obiekt DataFrame
  - 2.3.1. Części obiektu DataFrame
  - 2.3.2. Określanie podzbioru wartości boolowskich: obiekty DataFrame
  - 2.3.3. Operacje są automatycznie wyrównywane i wektoryzowane (rozgłaszanie)
- 2.4. Wprowadzanie zmian w obiektach Series i DataFrame
  - 2.4.1. Dodawanie dodatkowych kolumn
  - 2.4.2. Bezpośrednie modyfikowanie kolumny
  - 2.4.3. Modyfikowanie kolumn za pomocą metody .assign()
  - 2.4.4. Usuwanie wartości
- 2.5. Eksportowanie i importowanie danych
  - 2.5.1. "Peklowanie"
  - 2.5.2. Format danych CSV
  - 2.5.3. Excel
  - 2.5.4. Format Feather
  - 2.5.5. Projekt Arrow
  - 2.5.6. Słownik
  - 2.5.7. Format JSON
  - 2.5.8. Inne typy danych wyjściowych
- Podsumowanie
Rozdział 3. Tworzenie wykresów - podstawy
- Cele rozdziału
- 3.1. Dlaczego warto wizualizować dane?
- 3.2. Podstawy obsługi biblioteki matplotlib
  - 3.2.1. Obiekty rysunków i podwykresy z osiami
  - 3.2.2. Anatomia rysunku
- 3.3. Tworzenie graficznych wizualizacji danych statystycznych za pomocą biblioteki matplotlib
  - 3.3.1. Jednozmienność (pojedyncza zmienna)
  - 3.3.2. Dwuzmienność (dwie zmienne)
  - 3.3.3. Dane wielozmienne
- 3.4. Biblioteka seaborn
  - 3.4.1. Jednozmienność
  - 3.4.2. Dane dwuzmienne
  - 3.4.3. Dane wielozmienne
  - 3.4.4. Aspekty
  - 3.4.5. Style i kompozycje biblioteki seaborn
  - 3.4.6. Jak korzystać z dokumentacji biblioteki seaborn?
  - 3.4.7. Interfejs biblioteki seaborn następnej generacji
- 3.5. Metoda tworzenia wykresów za pomocą biblioteki Pandas
  - 3.5.1. Histogram
  - 3.5.2. Wykres gęstości
  - 3.5.3. Wykres punktowy
  - 3.5.4. Wykres przedziałów sześciokątnych (hexbin)
  - 3.5.5. Wykres pudełkowy
- Podsumowanie
Rozdział 4. Dane uporządkowane
- Cele rozdziału
  - Uwaga dotycząca niniejszego rozdziału
- 4.1. Kolumny zawierają wartości, a nie zmienne
  - 4.1.1. Utrwalenie jednej kolumny
  - 4.1.2. Utrwalenie wielu kolumn
- 4.2. Kolumny zawierają wiele zmiennych
  - 4.2.1. Osobne dzielenie i dodawanie kolumn
  - 4.2.2. Dzielenie i łączenie kolumn w jednym kroku
- 4.3. Zmienne znajdują się w wierszach i kolumnach
- Podsumowanie
Rozdział 5. Zastosowanie funkcji
- Cele rozdziału
  - Uwaga dotycząca niniejszego rozdziału
- 5.1. Elementarz funkcji
- 5.2. Zastosowanie funkcji (podstawy)
  - 5.2.1. Zastosowanie funkcji względem obiektu Series
  - 5.2.2. Zastosowanie funkcji względem obiektu DataFrame
- 5.3. Funkcje wektoryzowane
  - 5.3.1. Wektoryzacja za pomocą biblioteki NumPy
  - 5.3.2. Wektoryzacja za pomocą biblioteki Numba
- 5.4. Funkcje lambda (funkcje anonimowe)
- Podsumowanie

Część II. Przetwarzanie danych

Rozdział 6. Łączenie danych
- Cele rozdziału
- 6.1. Łączenie zbiorów danych
- 6.2. Konkatenacja
  - 6.2.1. Części przeglądowe obiektu DataFrame
  - 6.2.2. Dodawanie wierszy
  - 6.2.3. Dodawanie kolumn
  - 6.2.4. Konkatenacja z różnymi indeksami
- 6.3. Jednostki obserwacyjne w obrębie wielu tabel
  - 6.3.1. Ładowanie wielu plików za pomocą pętli
  - 6.3.2. Ładowanie wielu plików przy użyciu listy składanej
- 6.4. Scalanie wielu zbiorów danych
  - 6.4.1. Scalanie typu "jedna z jedną"
  - 6.4.2. Scalanie typu "wiele z jedną"
  - 6.4.3. Scalanie typu "wiele z wieloma"
  - 6.4.4. Sprawdzanie wyników pracy za pomocą asercji
- Podsumowanie
Rozdział 7. Normalizacja danych
- Cele rozdziału
- 7.1. Wiele jednostek obserwacyjnych w tabeli (normalizacja)
- Podsumowanie
Rozdział 8. Operacje grupowania: dzielenie, stosowanie i łączenie
- Cele rozdziału
- 8.1. Agregacja
  - 8.1.1. Podstawowa agregacja danych grupowanych z jedną zmienną
  - 8.1.2. Wbudowane metody agregacji
  - 8.1.3. Funkcje agregacji
  - 8.1.4. Użycie wielu funkcji jednocześnie
  - 8.1.5. Zastosowanie słownika w metodzie .agg() lub .aggregate()
- 8.2. Transformacja
  - 8.2.1. Przykład wyniku standardowego z
  - 8.2.2. Przykład z brakującymi wartościami
- 8.3. Filtrowanie
- 8.4. Obiekt pandas.core.groupby.DataFrameGroupBy
  - 8.4.1. Grupy
  - 8.4.2. Obliczenia w ramach grupowania obejmujące wiele zmiennych
  - 8.4.3. Wybieranie grupy
  - 8.4.4. Iteracja w obrębie grup
  - 8.4.5. Wiele grup
  - 8.4.6. "Spłaszczanie" wyników (.reset_index())
- 8.5. Zastosowanie obiektu MultiIndex
- Podsumowanie

Część III. Typy danych

Rozdział 9. Brakujące dane
- Cele rozdziału
- 9.1. Czym jest wartość NaN?
- 9.2. Skąd biorą się brakujące wartości?
  - 9.2.1. Ładowanie danych
  - 9.2.2. Scalone dane
  - 9.2.3. Wartości wprowadzane przez użytkownika
  - 9.2.4. Ponowne indeksowanie
- 9.3. Zajmowanie się brakującymi danymi
  - 9.3.1. Znajdowanie brakujących danych i określanie ich ilości
  - 9.3.2. Oczyszczanie danych z brakującymi wartościami
  - 9.3.3. Obliczenia uwzględniające brakujące dane
- 9.4. Brakująca wartość NA wbudowana w bibliotece Pandas
- Podsumowanie
Rozdział 10. Typy danych
- Cele rozdziału
- 10.1. Typy danych
- 10.2. Przekształcanie typów
  - 10.2.1. Konwersja do postaci obiektów łańcuchów
  - 10.2.2. Przekształcanie w wartości liczbowe
- 10.3. Dane kategorialne
  - 10.3.1. Przekształcanie w kategorię
  - 10.3.2. Przetwarzanie danych kategorialnych
- Podsumowanie
Rozdział 11. Łańcuchy i dane tekstowe
- Wprowadzenie
- Cele rozdziału
- 11.1. Łańcuchy
  - 11.1.1. Określanie podzbioru i dzielenie łańcuchów
  - 11.1.2. Uzyskanie ostatniego znaku łańcucha
- 11.2. Metody łańcuchowe
- 11.3. Dodatkowe metody łańcuchowe
  - 11.3.1. Metoda join
  - 11.3.2. Metoda splitlines
- 11.4. Formatowanie łańcuchów (f-łańcuchy)
  - 11.4.1. Formatowanie liczb
- 11.5. Wyrażenia regularne
  - 11.5.1. Dopasowanie wzorca
  - 11.5.2. Pamiętaj, jakich używasz wzorców wyrażeń regularnych
  - 11.5.3. Znajdowanie wzorca
  - 11.5.4. Zastępowanie wzorca
  - 11.5.5. Kompilowanie wzorca
- 11.6. Biblioteka regex
- Podsumowanie
Rozdział 12. Daty i godziny
- Cele rozdziału
- 12.1. Obiekt datetime języka Python
- 12.2. Przekształcanie do postaci ramki danych
- 12.3. Ładowanie danych zawierających daty
- 12.4. Wyodrębnianie składników daty
- 12.5. Obliczenia obejmujące daty i obiekty timedelta
- 12.6. Metody obiektu datetime
- 12.7. Uzyskiwanie danych notowań giełdowych
- 12.8. Określanie podzbioru danych na podstawie dat
  - 12.8.1. Obiekt DatetimeIndex
  - 12.8.2. Obiekt TimedeltaIndex
- 12.9. Zakresy dat
  - 12.9.1. Częstotliwości
  - 12.9.2. Przesunięcia
- 12.10. Wartości przesuwające
- 12.11. Ponowne próbkowanie
- 12.12. Strefy czasowe
- 12.13. Biblioteka Arrow do lepszej obsługi dat i godzin
- Podsumowanie

Część IV. Modelowanie danych

Rozdział 13. Regresja liniowa (wynikowa zmienna ciągła)
- 13.1. Prosta regresja liniowa
  - 13.1.1. Użycie biblioteki statsmodels
  - 13.1.2. Zastosowanie biblioteki scikit-learn (sklearn)
- 13.2. Regresja wielokrotna
  - 13.2.1. Użycie biblioteki statsmodels
  - 13.2.2. Zastosowanie biblioteki scikit-learn (sklearn)
- 13.3. Modele ze zmiennymi kategorialnymi
  - 13.3.1. Zmienne kategorialne w bibliotece statsmodels
  - 13.3.2. Zmienne kategorialne w bibliotece scikit-learn (sklearn)
- 13.4. Kodowanie One-Hot w bibliotece scikit-learn z wykorzystaniem potoków transformera
- Podsumowanie
Rozdział 14. Uogólnione modele liniowe
- Coś o tym rozdziale
- 14.1. Regresja logistyczna (binarna zmienna wyjściowa)
  - 14.1.1. Użycie biblioteki statsmodels
  - 14.1.2. Zastosowanie biblioteki sklearn
  - 14.1.3. Zachowaj ostrożność w przypadku domyślnych wartości biblioteki scikit-learn (sklearn)
- 14.2. Regresja Poissona (ilościowa zmienna wynikowa)
  - 14.2.1. Użycie biblioteki statsmodels
  - 14.2.2. Ujemna regresja dwumianowa w przypadku nadmiernej dyspersji
- 14.3. Bardziej uogólnione modele liniowe
- Podsumowanie
Rozdział 15. Analiza przeżycia
- 15.1. Dane analizy przeżycia
- 15.2. Krzywe Kaplana-Meiera
- 15.3. Model proporcjonalnego hazardu Coxa
  - 15.3.1. Testowanie założeń modelu Coxa
- Podsumowanie
Rozdział 16. Diagnostyka modeli
- 16.1. Residua
  - 16.1.1. Wykresy kwantylowe K-K
- 16.2. Porównanie wielu modeli
  - 16.2.1. Korzystanie z modeli liniowych
  - 16.2.2. Zastosowanie uogólnionych modeli liniowych
- 16.3. Walidacja krzyżowa k-krotna
- Podsumowanie
Rozdział 17. Regularyzacja
- 17.1. Dlaczego regularyzacja?
- 17.2. Regresja LASSO
- 17.3. Regresja grzbietowa
- 17.4. Sieć elastyczna
- 17.5. Walidacja krzyżowa
- Podsumowanie
Rozdział 18. Klasteryzacja
- 18.1. k-średnie
  - 18.1.1. Ograniczanie liczby wymiarów za pomocą analizy PCA
- 18.2. Klastrowanie hierarchiczne
  - 18.2.1. Klastrowanie kompletne
  - 18.2.2. Klastrowanie pojedyncze
  - 18.2.3. Klastrowanie ze średnią
  - 18.2.4. Klastrowanie z centroidem
  - 18.2.5. Klastrowanie metodą Warda
  - 18.2.6. Ręczne ustawianie progu
- Podsumowanie

Część V. Podsumowanie

Rozdział 19. Świat poza obrębem biblioteki Pandas
- 19.1. Stos do obliczeń (naukowych)
- 19.2. Wydajność
  - 19.2.1. Pomiar czasu wykonywania kodu
  - 19.2.2. Profilowanie kodu
  - 19.2.3. Moduł concurrent.futures
- 19.3. Dask
- 19.4. Siuba
- 19.5. Ibis
- 19.6. Polars
- 19.7. PyJanitor
- 19.8. Pandera
- 19.9. Uczenie maszynowe
- 19.10. Publikowanie
- 19.11. Panele kontrolne
- Podsumowanie
Rozdział 20. Działanie w pojedynkę jest niebezpieczne!
- 20.1. Lokalne spotkania
- 20.2. Konferencje
- 20.3. The Carpentries
- 20.4. Podcasty
- 20.5. Inne zasoby
- Podsumowanie

Dodatki

Dodatek A. Mapy pojęć
Dodatek B. Instalacja i konfiguracja
- B.1. Instalacja języka Python
  - B.1.1. Anaconda
  - B.1.2. Miniconda
  - B.1.3. Odinstalowywanie dystrybucji Anaconda lub Miniconda
  - B.1.4. pyenv
- B.2. Instalowanie pakietów języka Python
- B.3. Pobieranie zbiorów danych używanych w książce
Dodatek C. Wiersz poleceń
- C.1. Instalacja
  - C.1.1. System Windows
  - C.1.2. System Mac
  - C.1.3. System Linux
- C.2. Podstawy
Dodatek D. Szablony projektowe
Dodatek E. Zastosowanie języka Python
- E.1. Wiersz poleceń i edytor tekstu
- E.2. Python i IPython
- E.3. Jupyter
- E.4. Zintegrowane środowiska programistyczne IDE
Dodatek F. Katalogi robocze
Dodatek G. Środowiska
- G.1. Środowiska systemu conda
- G.2. Pyenv + Pipenv
Dodatek H. Instalacja pakietów
- H.1. Aktualizowanie pakietów
Dodatek I. Importowanie bibliotek
Dodatek J. Styl kodu
- J.1. Znaki podziału wiersza w kodzie
Dodatek K. Kontenery: listy, krotki i słowniki
- K.1. Listy
- K.2. Krotki
- K.3. Słowniki
Dodatek L. Określanie wartości za pomocą składni wycinków
Dodatek M. Pętle
Dodatek N. Listy składane
Dodatek O. Funkcje
- O.1. Parametry domyślne
- O.2. Parametry arbitralne
  - O.2.1. Wyrażenie *args
  - O.2.2. Wyrażenie **kwargs
Dodatek P. Zakresy i generatory
Dodatek Q. Przypisanie wielokrotne
Dodatek R. Typ ndarray biblioteki NumPy
Dodatek S. Klasy
Dodatek T. Komunikat SettingWithCopyWarning
- T.1. Modyfikowanie podzbioru danych
- T.2. Zastępowanie wartości
- T.3. Dodatkowe zasoby informacji
Dodatek U. Tworzenie łańcuchów metod
Dodatek V. Czas wykonywania kodu
Dodatek W. Formatowanie łańcuchów
- W.1. Formatowanie w stylu języka C
- W.2. Formatowanie łańcuchów: metoda .format()
- W.3. Formatowanie liczb
Dodatek X. Instrukcje warunkowe (if-elif-else)
Dodatek Y. Przykład regresji logistycznej ze zbiorem danych ACS dla Nowego Jorku
- Y.0.1. Użycie biblioteki sklearn
Dodatek Z. Replikowanie wyników za pomocą języka R
- Z.1. Regresja liniowa
- Z.2. Regresja logistyczna
- Z.3. Regresja Poissona
  - Z.3.1. Ujemna regresja dwumianowa w przypadku nadmiernej dyspersji

Skorowidz