Data science, wyzwania i rozwi - Helion

Autor: Daniel Vaughan
Tytuł oryginału: Data Science: The Hard Parts: Techniques for Excelling at Data Science
Tłumaczenie: Tomasz Walczak
ISBN: 978-83-289-1294-6
stron: 232, Format: 165x235, okładka: mi
Księgarnia: Helion

Cena książki: 79,00 zł

Książka będzie dostępna od października 2024

Pobierz fragment książki » Zobacz także »

Tagi: Analiza danych | Inne - Programowanie | Uczenie maszynowe

Uczenie si

Zobacz także:

Data Science w Pythonie. Kurs video. Przetwarzanie i analiza danych 149,00 zł, (67,05 zł -55%)
Excel 2013. Kurs video. Poziom drugi. Przetwarzanie i analiza danych 79,00 zł, (35,55 zł -55%)
Kompletny przewodnik po Power Query (M). Opanuj wykonywanie z 169,00 zł, (84,50 zł -50%)
OSINT w praktyce. Jak gromadzi 67,00 zł, (33,50 zł -50%)
Mistrz analizy danych. Od danych do wiedzy. Wydanie II 99,00 zł, (49,50 zł -50%)

Spis treści

Data science, wyzwania i rozwiązania. Jak zostać ekspertem analizy danych -- spis treści

Przedmowa

Część I. Techniki analityki danych

Rozdział 1. I co z tego? Generowanie wartości dzięki danologii

Czym jest wartość?
"Co?", czyli zrozumieć biznes
"Co z tego?", czyli istota generowania wartości dzięki danologii
"Co teraz?", czyli bądź przebojowy
Pomiar wartości
Najważniejsze wnioski
Dalsza lektura

Rozdział 2. Projektowanie wskaźników

Pożądane właściwości wskaźników
- Mierzalność
- Możliwość podejmowania działań
- Trafność
- Aktualność
Dekompozycja wskaźników
- Lejek analityczny
- Dekompozycje przepływów i zapasów
- Dekompozycje typu P×Q
Przykład: inny sposób dekompozycji przychodów
Przykład: platformy sprzedażowe
Najważniejsze wnioski
Dalsza lektura

Rozdział 3. Dekompozycje wzrostu - zrozumienie przeszkód i sprzyjających czynników

Dlaczego dekompozycje wzrostu?
Dekompozycja addytywna
- Przykład
- Interpretacja i przypadki użycia
Dekompozycja multiplikatywna
- Przykład
- Interpretacja
Dekompozycja zmian wag i wartości
- Przykład
- Interpretacja
Wyprowadzanie równań matematycznych
- Dekompozycja addytywna
- Dekompozycja multiplikatywna
- Dekompozycja mix-rate
Najważniejsze wnioski
Dalsza lektura

Rozdział 4. Projekty 2×2

Argumenty za upraszczaniem
Czym jest projekt 2×2?
Przykład: testowanie modelu i nowej cechy
Przykład: zrozumienie zachowań użytkownika
Przykład: udzielanie i akceptacja ofert kredytów
Przykład: ustalanie priorytetów w procesie pracy
Najważniejsze wnioski
Dalsza lektura

Rozdział 5. Tworzenie uzasadnienia biznesowego

Wybrane zasady tworzenia uzasadnień biznesowych
Przykład: proaktywna strategia zatrzymywania klientów
Zapobieganie oszustwom
Zakup zewnętrznych zbiorów danych
Praca nad projektem z obszaru danologii
Najważniejsze wnioski
Dalsza lektura

Rozdział 6. Czym jest wskaźnik przyrostu?

Definicja wskaźnika przyrostu
Przykład: model klasyfikatora
Błędy wynikające z samoselekcji i przeżywalności
Inne zastosowania wskaźników przyrostu
Najważniejsze wnioski
Dalsza lektura

Rozdział 7. Narracje

Co kryje się w narracji? Opowiadanie historii za pomocą danych
- Jasna i rzeczowa
- Wiarygodność
- Zapadająca w pamięć
- Możliwość podejmowania działań
Tworzenie narracji
- Nauka jako opowiadanie historii
- "Co?", "co z tego?" i "co teraz?"
Ostatnia prosta
- Streszczenia TL;DR
- Wskazówki dotyczące pisania zapadających w pamięć streszczeń TL;DR
- Przykład: pisanie streszczenia TL;DR tego rozdziału
- Skuteczne krótkie prezentacje
- Prezentowanie narracji
Najważniejsze wnioski
Dalsza lektura

Rozdział 8. Wizualizacje danych - wybór właściwego wykresu do przekazania komunikatu

Kilka przydatnych i rzadko używanych wizualizacji danych
- Wykres słupkowy a wykres liniowy
- Wykres nachylenia
- Wykres kaskadowy
- Funkcje wygładzania dla wykresów punktowych
- Prezentowanie rozkładów na wykresie
Ogólne zalecenia
- Dobierz odpowiednią wizualizację dla przekazu
- Mądrze dobieraj kolory
- Różne wymiary na wykresie
- Staraj się uzyskać odpowiednio wysoki współczynnik dane/atrament
- Personalizacja a półautomatyzacja
- Na samym początku dobierz odpowiedni rozmiar czcionki
- Interaktywne czy nie?
- Zachowaj prostotę
- Zacznij od wyjaśnienia wykresu
Najważniejsze wnioski
Dalsza lektura

Część II. Uczenie maszynowe

Rozdział 9. Symulacje i bootstrapping

Podstawy symulacji
Symulacja modelu liniowego i regresji liniowej
Czym są wykresy zależności częściowych?
Błąd systematyczny z powodu pominięcia zmiennej
Symulacja problemu klasyfikacji
- Modele zmiennych ukrytych
- Porównanie różnych algorytmów
Bootstrapping
Najważniejsze wnioski
Dalsza lektura

Rozdział 10. Regresja liniowa - powrót do podstaw

Co kryje się za współczynnikiem?
Twierdzenie Frischa-Waugha-Lovella
Dlaczego twierdzenie FWL jest ważne?
Czynniki zakłócające
Dodatkowe zmienne
Centralna rola wariancji w uczeniu maszynowym
Najważniejsze wnioski
Dalsza lektura

Rozdział 11. Wyciekanie danych

Czym jest wyciekanie danych?
- Wynik również jest cechą
- Funkcja wyniku sama też jest cechą
- Złe zmienne kontrolne
- Niewłaściwe oznaczenie znacznika czasu
- Wiele zbiorów danych z nieprecyzyjnymi agregacjami czasowymi
- Wyciekanie innych informacji
Wykrywanie wyciekania danych
Całkowita separacja
Metoda okien
- Wybór długości okien
- Etap treningu odzwierciedla etap oceny punktowej
- Wdrażanie metody okien
Mam wyciek. Co teraz?
Najważniejsze wnioski
Dalsza lektura

Rozdział 12. Stosowanie modeli w środowisku produkcyjnym

Co oznacza "gotowość produkcyjna"?
- Wsadowa ocena punktowa (w trybie offline)
- Obiekty modeli czasu rzeczywistego
Dryf danych i modelu
Etapy niezbędne w każdym potoku produkcyjnym
- Pobieranie i przekształcanie danych
- Sprawdzanie poprawności danych
- Etapy treningu i oceny punktowej
- Sprawdzanie poprawności modelu i ocen punktowych
- Zapisywanie modelu i ocen punktowych
Najważniejsze wnioski
Dalsza lektura

Rozdział 13. Opowiadanie historii w uczeniu maszynowym

Holistyczne spojrzenie na opowiadanie historii w uczeniu maszynowym
Opowiadanie historii przed opracowaniem modelu i w trakcie tego procesu
- Tworzenie hipotez
- Inżynieria cech
Opowiadanie historii po opracowaniu modelu: otwieranie czarnej skrzynki
- Kompromis między interpretowalnością a skutecznością
- Regresja liniowa: ustalenie punktu odniesienia
- Znaczenie cech
- Mapa cieplna
- Wykresy zależności częściowych
- Skumulowane efekty lokalne
Najważniejsze wnioski
Dalsza lektura

Rozdział 14. Od predykcji do decyzji

Analiza procesu podejmowania decyzji
Proste reguły decyzyjne oparte na inteligentnym wyznaczaniu wartości progowych
- Precyzja i czułość
- Przykład: pozyskiwanie list kontaktów
Optymalizacja macierzy błędów
Najważniejsze wnioski
Dalsza lektura

Rozdział 15. Zmiany dodatkowe - Święty Graal danologii?

Definiowanie zmian dodatkowych
- Wnioskowanie przyczynowe w celu poprawy predykcji
- Wnioskowanie przyczynowe jako wyróżnik
- Usprawnione podejmowanie decyzji
Czynniki zakłócające i kolidery
Błąd doboru
Założenie o braku zmiennych zakłócających
Radzenie sobie z błędem doboru - randomizacja
Dopasowywanie
Uczenie maszynowe i wnioskowanie przyczynowe
- Kod otwartoźródłowy
- Podwójne uczenie maszynowe
Najważniejsze wnioski
Dalsza lektura

Rozdział 16. Testy A/B

Czym są testy A/B?
Kryterium decyzyjne
Minimalne wykrywalne efekty
- Ustalanie mocy statystycznej, poziomu istotności i wartości P
- Szacowanie wariancji wyniku
- Symulacje
- Przykład: współczynniki konwersji
- Określanie wartości MWE
Lista hipotez do zbadania
- Wskaźnik
- Hipoteza
- Uszeregowanie
Zarządzanie eksperymentami
Najważniejsze wnioski
Dalsza lektura

Rozdział 17. Modele LLM i praktyka danologii

Obecny stan sztucznej inteligencji
Czym zajmują się danologowie?
Ewolucja opisu stanowiska danologa
- Studium przypadku: testy A/B
- Studium przypadku: oczyszczanie danych
- Studium przypadku: uczenie maszynowe
Modele LLM a ta książka
Najważniejsze wnioski
Dalsza lektura

Skorowidz