Statystyka praktyczna w data science. 50 kluczowych zagadnień w językach R i Python. Wydanie II - Helion

ebook

Autor: Peter Bruce, Andrew Bruce, Peter Gedeck
Tytuł oryginału: Practical Statistics for Data Scientists: 50+ Essential Concepts Using R and Python, 2nd Edition
Tłumaczenie: Krzysztof Sawka, Marta Danch-Wierzchowska
ISBN: 978-83-283-7428-7
stron: 296, Format: ebook
Data wydania: 2021-06-16
Księgarnia: Helion

Cena książki: 43,50 zł (poprzednio: 87,00 zł)
Oszczędzasz: 50% (-43,50 zł)

Pobierz fragment książki » Osoby, które kupiły tę książkę, wybierały także »

Tagi: Analiza danych | Inne | Python - Programowanie | R - Programowanie

Metody statystyczne są kluczowym narzędziem w data science, mimo to niewielu analityków danych zdobyło wykształcenie w ich zakresie. Może im to utrudniać uzyskiwanie dobrych efektów. Zrozumienie praktycznych zasad statystyki okazuje się ważne również dla programistów R i Pythona, którzy tworzą rozwiązania dla data science. Kursy podstaw statystyki rzadko jednak uwzględniają tę perspektywę, a większość podręczników do statystyki w ogóle nie zajmuje się narzędziami wywodzącymi się z informatyki.

To drugie wydanie popularnego podręcznika statystyki przeznaczonego dla analityków danych. Uzupełniono je o obszerne przykłady w Pythonie oraz wyjaśnienie, jak stosować poszczególne metody statystyczne w problemach data science, a także jak ich nie używać. Skoncentrowano się też na tych zagadnieniach statystyki, które odgrywają istotną rolę w data science. Wyjaśniono, które koncepcje są ważne i przydatne z tej perspektywy, a które mniej istotne i dlaczego. Co ważne, poszczególne koncepcje i zagadnienia praktyczne przedstawiono w sposób przyswajalny i zrozumiały również dla osób nienawykłych do posługiwania się statystyką na co dzień.

W książce między innymi:

analiza eksploracyjna we wstępnym badaniu danych
próby losowe a jakość dużych zbiorów danych
podstawy planowania eksperymentów
regresja w szacowaniu wyników i wykrywaniu anomalii
statystyczne uczenie maszynowe
uczenie nienadzorowane a znaczenie danych niesklasyfikowanych

Statystyka: klasyczne narzędzia w najnowszych technologiach!

Osoby które kupowały "Statystyka praktyczna w data science. 50 kluczowych zagadnień w językach R i Python. Wydanie II", wybierały także:

Data Science w Pythonie. Kurs video. Przetwarzanie i analiza danych 149,00 zł, (67,05 zł -55%)
Excel 2013. Kurs video. Poziom drugi. Przetwarzanie i analiza danych 79,00 zł, (35,55 zł -55%)
Python w analizie danych. Przetwarzanie danych za pomoc 119,00 zł, (59,50 zł -50%)
Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szerok 69,00 zł, (34,50 zł -50%)
Skazany na sukces. Kariera w Data Science 79,00 zł, (39,50 zł -50%)

Spis treści

Statystyka praktyczna w data science. 50 kluczowych zagadnień w językach R i Python. Wydanie II eBook -- spis treści

Przedmowa
- Konwencja zastosowana w tej książce
- Wykorzystanie przykładów kodu
- Podziękowania
Rozdział 1. Badania eksploracyjne
- Elementy danych uporządkowanych
  - Dla pogłębienia wiedzy
- Dane stabelaryzowane
  - Ramki danych i indeksy
  - Niestabelaryzowane struktury danych
  - Dla pogłębienia wiedzy
- Miary położenia
  - Średnia
  - Mediana i estymatory odporne
    - Wartości odstające
  - Przykład: miara położenia dla wielkości populacji i wskaźnika morderstw
  - Dla pogłębienia wiedzy
- Miary rozproszenia
  - Odchylenie standardowe i powiązane estymatory
  - Estymatory oparte na percentylach
  - Przykład: szacowanie zmienności dla populacji Stanów Zjednoczonych
  - Dla pogłębienia wiedzy
- Badanie rozkładu danych
  - Percentyle i boxploty
  - Tablica częstości i histogramy
  - Szacowanie i wykresy gęstości rozkładu
  - Dla pogłębienia wiedzy
- Badanie danych binarnych i skategoryzowanych
  - Moda
  - Wartość oczekiwana
  - Prawdopodobieństwo
  - Dla pogłębienia wiedzy
- Korelacja
  - Wykres punktowy
  - Dla pogłębienia wiedzy
- Badanie dwóch lub więcej zmiennych
  - Wykres przedziałów heksagonalnych i wykres konturowy (przedstawianie danych numerycznych względem danych numerycznych)
  - Dwie zmienne skategoryzowane
  - Dane kategoryzowane i numeryczne
  - Wizualizacja wielu zmiennych
  - Dla pogłębienia wiedzy
- Podsumowanie
Rozdział 2. Rozkłady danych i prób
- Losowy dobór i obciążenie próby
  - Obciążenie
  - Dobór losowy
  - Rozmiar a jakość: kiedy rozmiar ma znaczenie?
  - Średnia z próby a średnia z populacji
  - Dla pogłębienia wiedzy
- Błąd doboru
  - Regresja do średniej
  - Dla pogłębienia wiedzy
- Rozkład próbkowania dla statystyki
  - Centralne twierdzenie graniczne
  - Błąd standardowy
  - Dla pogłębienia wiedzy
- Próby bootstrapowe
  - Ponowne próbkowanie a próby bootstrapowe
  - Dla pogłębienia wiedzy
- Przedziały ufności
  - Dla pogłębienia wiedzy
- Rozkład normalny
  - Standaryzowany rozkład normalny i wykres K-K
- Rozkłady z długimi ogonami
  - Dla pogłębienia wiedzy
- Rozkład t-Studenta
  - Dla pogłębienia wiedzy
- Rozkład binarny
  - Dla pogłębienia wiedzy
- Rozkład chi-kwadrat
  - Dla pogłębienia wiedzy
- Rozkład F
  - Dla pogłębienia wiedzy
- Rozkład Poissona i jego pochodne
  - Rozkład Poissona
  - Rozkład wykładniczy
  - Szacowanie współczynnika porażki
  - Rozkład Weibulla
  - Dla pogłębienia wiedzy
- Podsumowanie
Rozdział 3. Eksperymenty statystyczne i testowanie istotności
- Test A/B
  - Po co Ci grupa kontrolna?
  - Dlaczego tylko A/B? Dlaczego nie C, D itd.?
  - Dla pogłębienia wiedzy
- Testowanie hipotezy
  - Hipoteza zerowa
  - Hipoteza alternatywna
  - Test jednostronny i test dwustronny
  - Dla pogłębienia wiedzy
- Testy randomizacyjne
  - Test permutacyjny
  - Przykład: licznik odwiedzin strony
  - Zupełny test permutacyjny i bootstrap
  - Test permutacyjny: podstawa w data science
  - Dla pogłębienia wiedzy
- Istotność statystyczna i p-wartość
  - p-wartość
  - Alfa
    - Kontrowersje związane z p-wartością
    - Istotność praktyczna
  - Błędy pierwszego i drugiego rodzaju
  - Data science i p-wartość
  - Dla pogłębienia wiedzy
- Test t
  - Dla pogłębienia wiedzy
- Testowanie wielokrotne
  - Dla pogłębienia wiedzy
- Stopnie swobody
  - Dla pogłębienia wiedzy
- ANOVA
  - Statystyka F
  - Dwustronna ANOVA
  - Dla pogłębienia wiedzy
- Test chi-kwadrat
  - Test chi-kwadrat: podejście randomizacyjne
  - Test chi-kwadrat: teoria
  - Dokładny test Fishera
  - Znaczenie testu chi-kwadrat w data science
  - Dla pogłębienia wiedzy
- Algorytm Wielorękiego Bandyty
  - Dla pogłębienia wiedzy
- Moc i rozmiar próby
  - Rozmiar próby
  - Dla pogłębienia wiedzy
- Podsumowanie
Rozdział 4. Regresja i predykcja
- Prosta regresja liniowa
  - Równanie regresji
  - Dopasowanie wartości i rezydua
  - Metoda najmniejszych kwadratów
  - Predykcja a objaśnienie (profilowanie)
  - Dla pogłębienia wiedzy
- Regresja wieloraka
  - Przykład: wartość domów w King County
  - Ocena modelu
  - Kroswalidacja
  - Dobór modelu i regresja krokowa
  - Regresja ważona
  - Dla pogłębienia wiedzy
- Predykcja z wykorzystaniem regresji
  - Niebezpieczeństwa związane z ekstrapolacją
  - Przedziały ufności i predykcji
- Zmienne skategoryzowane w regresji
  - Zmienne fikcyjne
  - Zmienne skategoryzowane na wielu poziomach
  - Uporządkowane zmienne skategoryzowane
- Interpretacja równania regresji
  - Predyktory skorelowane
  - Współliniowość
  - Zmienne zakłócające
  - Interakcje i efekty główne
- Diagnostyka regresji
  - Wartości odstające
  - Obserwacje wpływowe
  - Heteroskedastyczność, anormalność i błędy skorelowane
  - Wykresy częściowych rezyduów i nieliniowość
- Regresja wielomianowa i regresja sklejana
  - Wielomian
  - Funkcja sklejana
  - Uogólnione modele addytywne
  - Dla pogłębienia wiedzy
- Podsumowanie
Rozdział 5. Klasyfikacja
- Naiwny klasyfikator bayesowski
  - Dlaczego klasyfikator bayesowski jest niepraktyczny?
  - Naiwne rozwiązanie
  - Numeryczne zmienne objaśniające
  - Dla pogłębienia wiedzy
- Analiza dyskryminacyjna
  - Macierz kowariancji
  - Liniowy dyskryminator Fishera
  - Prosty przykład
  - Dla pogłębienia wiedzy
- Regresja logistyczna
  - Funkcja odpowiedzi logistycznej i logit
  - Regresja logistyczna i GLM
  - Uogólnione modele liniowe
  - Wartości prognozowane na podstawie regresji logistycznej
  - Interpretacja współczynników i iloraz szans
  - Regresja liniowa i regresja logistyczna: podobieństwa i różnice
    - Dopasowanie modelu
  - Ocena modelu
    - Analiza reszt
  - Dla pogłębienia wiedzy
- Ewaluacja modeli klasyfikacji
  - Macierz błędów
  - Problem mało licznych klas
  - Precyzja, czułość i swoistość
  - Krzywa ROC
  - Pole pod wykresem krzywej ROC
  - Lift
  - Dla pogłębienia wiedzy
- Strategie dla niezbilansowanych danych
  - Undersampling
  - Oversampling i zwiększenie/obniżenie wag
  - Generowanie danych
  - Klasyfikacja oparta na kosztach
  - Badanie prognozy
  - Dla pogłębienia wiedzy
- Podsumowanie
Rozdział 6. Statystyczne uczenie maszynowe
- K-najbliższych sąsiadów
  - Przykład: przewidywanie opóźnienia w spłacie pożyczki
  - Metryki odległości
  - Kodowanie 1 z n
  - Standaryzacja (normalizacja, z-wartość)
  - Dobór K
  - KNN w doborze cech
- Drzewa decyzyjne
  - Prosty przykład
  - Algorytm rekursywnego podziału
  - Pomiar homogeniczności lub zanieczyszczenia
  - Zatrzymanie wzrostu drzewa
    - Kontrolowanie złożoności drzewa w R
    - Kontrolowanie złożoności drzewa w Pythonie
  - Prognoza ciągłych wartości
  - Jak są wykorzystywane drzewa
  - Dla pogłębienia wiedzy
- Bagging i lasy losowe
  - Bagging
  - Las losowy
  - Istotność zmiennej
  - Hiperparametry
- Boosting
  - Algorytm wzmacniania
  - XGBoost
  - Regularyzacja: unikanie nadmiernego dopasowania
  - Hiperparametry i kroswalidacja
- Podsumowanie
Rozdział 7. Uczenie nienadzorowane
- Analiza głównych składowych
  - Prosty przykład
  - Obliczanie głównych składowych
  - Interpretacja głównych składowych
  - Analiza odpowiedniości
  - Dla pogłębienia wiedzy
- Metoda K-średnich (centroidów)
  - Prosty przykład
  - Algorytm K-średnich
  - Interpretacja klastrów
  - Dobór liczby klastrów
- Klasteryzacja hierarchiczna
  - Prosty przykład
  - Dendrogram
  - Algorytm aglomeracyjny
  - Miary podobieństwa
- Klasteryzacja oparta na modelu
  - Wielowymiarowy rozkład normalny
  - Mieszaniny rozkładów normalnych
  - Dobór liczby klastrów
  - Dla pogłębienia wiedzy
- Skalowanie i zmienne skategoryzowane
  - Skalowanie zmiennych
  - Zmienne dominujące
  - Zmienne skategoryzowane i odległość Gowera
  - Problem z klasteryzacją danych mieszanych
- Podsumowanie
Bibliografia
- O autorach
- Kolofon