Statystyka praktyczna w data science. 50 kluczowych zagadnień w językach R i Python. Wydanie II - Helion
Tytuł oryginału: Practical Statistics for Data Scientists: 50+ Essential Concepts Using R and Python, 2nd Edition
TÅ‚umaczenie: Krzysztof Sawka, Marta Danch-Wierzchowska
ISBN: 978-83-283-7427-0
stron: 296, Format: 168x237, okładka: miękka
Data wydania: 2021-06-16
Księgarnia: Helion
Cena książki: 44,85 zł (poprzednio: 69,00 zł)
Oszczędzasz: 35% (-24,15 zł)
Metody statystyczne sÄ… kluczowym narzÄ™dziem w data science, mimo to niewielu analityków danych zdobyÅ‚o wyksztaÅ‚cenie w ich zakresie. Może im to utrudniać uzyskiwanie dobrych efektów. Zrozumienie praktycznych zasad statystyki okazuje siÄ™ ważne również dla programistów R i Pythona, którzy tworzÄ… rozwiÄ…zania dla data science. Kursy podstaw statystyki rzadko jednak uwzglÄ™dniajÄ… tÄ™ perspektywÄ™, a wiÄ™kszość podrÄ™czników do statystyki w ogóle nie zajmuje siÄ™ narzÄ™dziami wywodzÄ…cymi siÄ™ z informatyki.
To drugie wydanie popularnego podrÄ™cznika statystyki przeznaczonego dla analityków danych. UzupeÅ‚niono je o obszerne przykÅ‚ady w Pythonie oraz wyjaÅ›nienie, jak stosować poszczególne metody statystyczne w problemach data science, a także jak ich nie używać. Skoncentrowano siÄ™ też na tych zagadnieniach statystyki, które odgrywajÄ… istotnÄ… rolÄ™ w data science. WyjaÅ›niono, które koncepcje sÄ… ważne i przydatne z tej perspektywy, a które mniej istotne i dlaczego. Co ważne, poszczególne koncepcje i zagadnienia praktyczne przedstawiono w sposób przyswajalny i zrozumiaÅ‚y również dla osób nienawykÅ‚ych do posÅ‚ugiwania siÄ™ statystykÄ… na co dzieÅ„.
W książce między innymi:
- analiza eksploracyjna we wstępnym badaniu danych
- próby losowe a jakość dużych zbiorów danych
- podstawy planowania eksperymentów
- regresja w szacowaniu wyników i wykrywaniu anomalii
- statystyczne uczenie maszynowe
- uczenie nienadzorowane a znaczenie danych niesklasyfikowanych
Statystyka: klasyczne narzędzia w najnowszych technologiach!
Osoby które kupowały "Statystyka praktyczna w data science. 50 kluczowych zagadnień w językach R i Python. Wydanie II", wybierały także:
- Data Science w Pythonie. Kurs video. Przetwarzanie i analiza danych 149,00 zł, (67,05 zł -55%)
- Excel 2013. Kurs video. Poziom drugi. Przetwarzanie i analiza danych 79,00 zł, (35,55 zł -55%)
- Zarz 99,00 zł, (49,50 zł -50%)
- Eksploracja danych za pomoc 67,00 zł, (33,50 zł -50%)
- Google Analytics od podstaw. Analiza wp 69,00 zł, (34,50 zł -50%)
Spis treści
Statystyka praktyczna w data science. 50 kluczowych zagadnień w językach R i Python. Wydanie II -- spis treści
- Przedmowa
- Konwencja zastosowana w tej książce
- Wykorzystanie przykładów kodu
- Podziękowania
- Rozdział 1. Badania eksploracyjne
- Elementy danych uporzÄ…dkowanych
- Dla pogłębienia wiedzy
- Dane stabelaryzowane
- Ramki danych i indeksy
- Niestabelaryzowane struktury danych
- Dla pogłębienia wiedzy
- Miary położenia
- Åšrednia
- Mediana i estymatory odporne
- Wartości odstające
- Przykład: miara położenia dla wielkości populacji i wskaźnika morderstw
- Dla pogłębienia wiedzy
- Miary rozproszenia
- Odchylenie standardowe i powiÄ…zane estymatory
- Estymatory oparte na percentylach
- Przykład: szacowanie zmienności dla populacji Stanów Zjednoczonych
- Dla pogłębienia wiedzy
- Badanie rozkładu danych
- Percentyle i boxploty
- Tablica częstości i histogramy
- Szacowanie i wykresy gęstości rozkładu
- Dla pogłębienia wiedzy
- Badanie danych binarnych i skategoryzowanych
- Moda
- Wartość oczekiwana
- Prawdopodobieństwo
- Dla pogłębienia wiedzy
- Korelacja
- Wykres punktowy
- Dla pogłębienia wiedzy
- Badanie dwóch lub więcej zmiennych
- Wykres przedziałów heksagonalnych i wykres konturowy (przedstawianie danych numerycznych względem danych numerycznych)
- Dwie zmienne skategoryzowane
- Dane kategoryzowane i numeryczne
- Wizualizacja wielu zmiennych
- Dla pogłębienia wiedzy
- Podsumowanie
- Elementy danych uporzÄ…dkowanych
- Rozdział 2. Rozkłady danych i prób
- Losowy dobór i obciążenie próby
- Obciążenie
- Dobór losowy
- Rozmiar a jakość: kiedy rozmiar ma znaczenie?
- Średnia z próby a średnia z populacji
- Dla pogłębienia wiedzy
- BÅ‚Ä…d doboru
- Regresja do średniej
- Dla pogłębienia wiedzy
- Rozkład próbkowania dla statystyki
- Centralne twierdzenie graniczne
- BÅ‚Ä…d standardowy
- Dla pogłębienia wiedzy
- Próby bootstrapowe
- Ponowne próbkowanie a próby bootstrapowe
- Dla pogłębienia wiedzy
- Przedziały ufności
- Dla pogłębienia wiedzy
- Rozkład normalny
- Standaryzowany rozkład normalny i wykres K-K
- Rozkłady z długimi ogonami
- Dla pogłębienia wiedzy
- Rozkład t-Studenta
- Dla pogłębienia wiedzy
- Rozkład binarny
- Dla pogłębienia wiedzy
- Rozkład chi-kwadrat
- Dla pogłębienia wiedzy
- Rozkład F
- Dla pogłębienia wiedzy
- Rozkład Poissona i jego pochodne
- Rozkład Poissona
- Rozkład wykładniczy
- Szacowanie współczynnika porażki
- Rozkład Weibulla
- Dla pogłębienia wiedzy
- Podsumowanie
- Losowy dobór i obciążenie próby
- Rozdział 3. Eksperymenty statystyczne i testowanie istotności
- Test A/B
- Po co Ci grupa kontrolna?
- Dlaczego tylko A/B? Dlaczego nie C, D itd.?
- Dla pogłębienia wiedzy
- Testowanie hipotezy
- Hipoteza zerowa
- Hipoteza alternatywna
- Test jednostronny i test dwustronny
- Dla pogłębienia wiedzy
- Testy randomizacyjne
- Test permutacyjny
- Przykład: licznik odwiedzin strony
- Zupełny test permutacyjny i bootstrap
- Test permutacyjny: podstawa w data science
- Dla pogłębienia wiedzy
- Istotność statystyczna i p-wartość
- p-wartość
- Alfa
- Kontrowersje związane z p-wartością
- Istotność praktyczna
- Błędy pierwszego i drugiego rodzaju
- Data science i p-wartość
- Dla pogłębienia wiedzy
- Test t
- Dla pogłębienia wiedzy
- Testowanie wielokrotne
- Dla pogłębienia wiedzy
- Stopnie swobody
- Dla pogłębienia wiedzy
- ANOVA
- Statystyka F
- Dwustronna ANOVA
- Dla pogłębienia wiedzy
- Test chi-kwadrat
- Test chi-kwadrat: podejście randomizacyjne
- Test chi-kwadrat: teoria
- Dokładny test Fishera
- Znaczenie testu chi-kwadrat w data science
- Dla pogłębienia wiedzy
- Algorytm Wielorękiego Bandyty
- Dla pogłębienia wiedzy
- Moc i rozmiar próby
- Rozmiar próby
- Dla pogłębienia wiedzy
- Podsumowanie
- Test A/B
- Rozdział 4. Regresja i predykcja
- Prosta regresja liniowa
- Równanie regresji
- Dopasowanie wartości i rezydua
- Metoda najmniejszych kwadratów
- Predykcja a objaśnienie (profilowanie)
- Dla pogłębienia wiedzy
- Regresja wieloraka
- Przykład: wartość domów w King County
- Ocena modelu
- Kroswalidacja
- Dobór modelu i regresja krokowa
- Regresja ważona
- Dla pogłębienia wiedzy
- Predykcja z wykorzystaniem regresji
- Niebezpieczeństwa związane z ekstrapolacją
- Przedziały ufności i predykcji
- Zmienne skategoryzowane w regresji
- Zmienne fikcyjne
- Zmienne skategoryzowane na wielu poziomach
- UporzÄ…dkowane zmienne skategoryzowane
- Interpretacja równania regresji
- Predyktory skorelowane
- Współliniowość
- Zmienne zakłócające
- Interakcje i efekty główne
- Diagnostyka regresji
- Wartości odstające
- Obserwacje wpływowe
- Heteroskedastyczność, anormalność i błędy skorelowane
- Wykresy częściowych rezyduów i nieliniowość
- Regresja wielomianowa i regresja sklejana
- Wielomian
- Funkcja sklejana
- Uogólnione modele addytywne
- Dla pogłębienia wiedzy
- Podsumowanie
- Prosta regresja liniowa
- Rozdział 5. Klasyfikacja
- Naiwny klasyfikator bayesowski
- Dlaczego klasyfikator bayesowski jest niepraktyczny?
- Naiwne rozwiÄ…zanie
- Numeryczne zmienne objaśniające
- Dla pogłębienia wiedzy
- Analiza dyskryminacyjna
- Macierz kowariancji
- Liniowy dyskryminator Fishera
- Prosty przykład
- Dla pogłębienia wiedzy
- Regresja logistyczna
- Funkcja odpowiedzi logistycznej i logit
- Regresja logistyczna i GLM
- Uogólnione modele liniowe
- Wartości prognozowane na podstawie regresji logistycznej
- Interpretacja współczynników i iloraz szans
- Regresja liniowa i regresja logistyczna: podobieństwa i różnice
- Dopasowanie modelu
- Ocena modelu
- Analiza reszt
- Dla pogłębienia wiedzy
- Ewaluacja modeli klasyfikacji
- Macierz błędów
- Problem mało licznych klas
- Precyzja, czułość i swoistość
- Krzywa ROC
- Pole pod wykresem krzywej ROC
- Lift
- Dla pogłębienia wiedzy
- Strategie dla niezbilansowanych danych
- Undersampling
- Oversampling i zwiększenie/obniżenie wag
- Generowanie danych
- Klasyfikacja oparta na kosztach
- Badanie prognozy
- Dla pogłębienia wiedzy
- Podsumowanie
- Naiwny klasyfikator bayesowski
- Rozdział 6. Statystyczne uczenie maszynowe
- K-najbliższych sąsiadów
- Przykład: przewidywanie opóźnienia w spłacie pożyczki
- Metryki odległości
- Kodowanie 1 z n
- Standaryzacja (normalizacja, z-wartość)
- Dobór K
- KNN w doborze cech
- Drzewa decyzyjne
- Prosty przykład
- Algorytm rekursywnego podziału
- Pomiar homogeniczności lub zanieczyszczenia
- Zatrzymanie wzrostu drzewa
- Kontrolowanie złożoności drzewa w R
- Kontrolowanie złożoności drzewa w Pythonie
- Prognoza ciągłych wartości
- Jak sÄ… wykorzystywane drzewa
- Dla pogłębienia wiedzy
- Bagging i lasy losowe
- Bagging
- Las losowy
- Istotność zmiennej
- Hiperparametry
- Boosting
- Algorytm wzmacniania
- XGBoost
- Regularyzacja: unikanie nadmiernego dopasowania
- Hiperparametry i kroswalidacja
- Podsumowanie
- K-najbliższych sąsiadów
- Rozdział 7. Uczenie nienadzorowane
- Analiza głównych składowych
- Prosty przykład
- Obliczanie głównych składowych
- Interpretacja głównych składowych
- Analiza odpowiedniości
- Dla pogłębienia wiedzy
- Metoda K-średnich (centroidów)
- Prosty przykład
- Algorytm K-średnich
- Interpretacja klastrów
- Dobór liczby klastrów
- Klasteryzacja hierarchiczna
- Prosty przykład
- Dendrogram
- Algorytm aglomeracyjny
- Miary podobieństwa
- Klasteryzacja oparta na modelu
- Wielowymiarowy rozkład normalny
- Mieszaniny rozkładów normalnych
- Dobór liczby klastrów
- Dla pogłębienia wiedzy
- Skalowanie i zmienne skategoryzowane
- Skalowanie zmiennych
- Zmienne dominujÄ…ce
- Zmienne skategoryzowane i odległość Gowera
- Problem z klasteryzacjÄ… danych mieszanych
- Podsumowanie
- Analiza głównych składowych
- Bibliografia
- O autorach
- Kolofon