Ekstrakcja danych w Pythonie. Teoria i praktyka - Helion

ebook
Autor: Piotr RybkaISBN: 978-83-289-3741-3
stron: 408, Format: ebook
Księgarnia: Helion
Cena książki: 99,00 zł
Książka będzie dostępna od grudnia 2025
Dane: za
Zobacz także:
- Power BI Desktop. Kurs video. Wykorzystanie narzędzia w analizie i wizualizacji danych 333,33 zł, (60,00 zł -82%)
- Analiza danych w Tableau. Kurs video. Podstawy pracy analityka 240,00 zł, (60,00 zł -75%)
- Power Apps. Kurs video. Tworzenie biznesowych aplikacji no-code 193,55 zł, (60,00 zł -69%)
- Tabele i wykresy przestawne dla ka 199,00 zł, (69,65 zł -65%)
- Web scraping. Kurs video. Zautomatyzowane pozyskiwanie danych z sieci 136,36 zł, (60,00 zł -56%)
Spis treści
Ekstrakcja danych w Pythonie. Teoria i praktyka eBook -- spis treści
Od autora
CZĘŚĆ I. PODSTAWOWE POJĘCIA
- Rozdział 1. Co można robić z danymi
- 1.1. Oczyszczanie
- 1.2. Normalizacja
- 1.3. Wzbogacanie
- 1.4. Agregacja
- 1.5. Kwerendowanie
- 1.6. Pozyskiwanie, zbieranie, gromadzenie
- 1.7. Odzyskiwanie
- 1.8. Eksploracja
- 1.9. "Zeskrobywanie"
- 1.10. Transformacja
- 1.11. Integracja
- 1.12. Wydobywanie
- 1.13. Wydobywanie danych z tekstów
- 1.14. Parsowanie
- Rozdział 2. Ekstrakcja danych
- 2.1. Definicja
- 2.2. Etapy
- 2.3. ETL, ELT, migracje
- Rozdział 3. Rodzaje danych
- 3.1. Zawartość danych
- 3.2. Struktura lub format danych
- 3.3. Użycie lub funkcja danych
- Rozdział 4. Jednostki danych
- 4.1. Bit
- 4.2. Półbajt
- 4.3. Bajt
- 4.4. Przedrostki wielokrotności jednostek
- 4.5. Słowo (maszynowe)
- 4.6. Jednostki budowy tabeli bazodanowej
- 4.6.1. Wartości atomowe
- 4.6.2. Pola
- 4.6.3. Rekordy
- 4.6.4. Krotki
- 4.6.5. Encje
- 4.6.6. Atrybuty
- 4.6.7. Schemat danych
- 4.7. Kubit
- Rozdział 5. Źródła danych
- 5.1. Bazy danych
- 5.2. Hurtownie danych
- 5.3. Jeziora danych
- 5.4. Delta Lakes
- 5.5. Pliki płaskie
- 5.6. Interfejsy programowania aplikacji webowych
- 5.7. Arkusze kalkulacyjne
- 5.8. Źródła "zeskrobywalne"
- 5.9. Usługi chmurowe
- 5.10. Urządzenia Internetu Rzeczy
CZĘŚĆ II. PLIKI BINARNE I TEKSTOWE
- Rozdział 6. Charakterystyka plików binarnych i tekstowych
- Rozdział 7. Przykłady plików binarnych
- 7.1. Format .wave
- 7.2. Format .bmp
- Rozdział 8. Sposoby osadzania danych binarnych w plikach tekstowych
- 8.1. Problem niekompatybilności danych binarnych i tekstowych
- 8.2. Kodowanie Base64
- 8.3. Kodowania Base16 i Base32
- Rozdział 9. Pliki binarne i tekstowe w Pythonie
- 9.1. Listowanie plików
- 9.2. Strumienie
- 9.3. Tryby strumieni
- 9.4. Funkcje strumieniowe
- 9.5. Odróżnianie plików binarnych i tekstowych
- 9.6. Ciągi bitów
- 9.7. Odczyt plików binarnych i tekstowych
- 9.8. Odczyt metadanych pliku
CZĘŚĆ III. KODOWANIE TEKSTU
- Rozdział 10. Systemy pozycyjne zapisu liczb
- 10.1. Ogólna postać k-cyfrowej liczby
- 10.2. Podstawa systemu pozycyjnego
- 10.3. Rozwinięcie liczby w systemie o podstawie 10
- 10.4. Ogólne rozwinięcie k-cyfrowej liczby w systemie o podstawie p
- 10.5. Interpretacja liczb w systemach pozycyjnych
- 10.6. Rozpoznawanie systemu zapisu
- 10.7. Systemy pozycyjne o różnych podstawach
- 10.8. Niepozycyjne systemy zapisu liczb
- 10.9. Konwersje na system dziesiętny
- 10.10. Konwersja na system dwójkowy
- 10.11. Konwersja na system o podstawie p
- 10.12. System dwójkowy a szesnastkowy
- 10.13. Konwersja ułamków
- 10.14. Notacja naukowa
- Rozdział 11. Systemy notacji w Pythonie
- Rozdział 12. Strony (tablice) kodowe
- 12.1. Strona (tablica) kodowa vs kodowanie
- 12.2. Strona kodowa czy kodowanie
- 12.3. Strategie tworzenia tablic kodowych
- 12.4. ASCII
- 12.5. Tablice kodowe ISO i Windows
- 12.5.1. Zakres kodów i liczba bajtów wymagana do zakodowania znaku
- 12.5.2. Zawartość tablic kodowych ISO
- 12.5.3. Zawartość tablic kodowych Windows
- 12.5.4. ANSI
- 12.5.5. Zalety i wady tablic ISO i Windows
- 12.6. Unicode (Unikod)
- 12.6.1. Innowacyjność Unikodu
- 12.6.2. Kompatybilność z wcześniejszymi tablicami kodowymi
- 12.6.3. Standaryzacja
- 12.6.4. Budowa Unikodu
- 12.6.5. Zakres kodów i liczba bajtów wymagana do zakodowania znaku - zamkniętość i otwartość Unikodu
- 12.6.6. Zawartość Unikodu
- 12.6.7. Definicja znaku pisarskiego
- 12.6.8. Stosowane kodowania
- 12.6.9. Wady Unikodu
- 12.6.10. Zestawy i wyszukiwarki znaków Unikodu
- 12.6.11. Ekwiwalencja i normalizacja
- 12.7. Znaki niedrukowalne, białe i kody sterujące
- 12.7.1. Znak końca linijki
- 12.7.2. Kody (znaki) sterujące ASCII
- 12.7.3. Dodatkowe kody (znaki) sterujące w Unicode
- 12.7.4. Białe znaki stosowane w edytorach tekstu
- 12.8. Łączące znaki diakrytyczne
- 12.9. Semigrafika
- Rozdział 13. Unicode w Pythonie
- Rozdział 14. Kodowania
- 14.1. Strategie tworzenia systemów kodowania
- 14.2. Kolejność zapisu bajtów - endianness
- 14.2.1. Przyczyny różnej kolejności zapisu bajtów
- 14.2.2. Big Endian ("grubokońcówkowość")
- 14.2.3. Little Endian ("cienkokońcówkowość")
- 14.3. Kodowanie 8-bitowe
- 14.4. UTF-32 i UCS-4
- 14.5. UTF-16 i UCS-2
- 14.5.1. Ogólny algorytm kodowania w UTF-16
- 14.5.2. Kodowanie bezpośrednie w UTF-16
- 14.5.3. Kodowanie rozdzielcze
- 14.5.4. Przykłady kodowania rozdzielczego
- 14.5.5. Zalety i wady UTF-16 i UCS-2
- 14.6. UTF-8
- 14.6.1. Prefiksy bajtów w słowie maszynowym
- 14.6.2. Ramki binarne słów maszynowych
- 14.6.3. Algorytm kodowania w UTF-8
- 14.6.4. Algorytm dekodowania w UTF-8
- 14.6.5. Endianness w UTF-8
- 14.6.6. Zalety i wady UTF-8
- 14.7. BOM (Bite Order Mark)
- 14.8. Rozpoznawanie kodowania
- Rozdział 15. Kodowanie tekstu w Pythonie
CZĘŚĆ IV. WYRAŻENIA REGULARNE
- Rozdział 16. Wstęp
- 16.1. Definicja wyrażeń regularnych
- 16.2. Silniki wyrażeń regularnych
- Rozdział 17. Budowa wyrażeń regularnych
- 17.1. Metaznaki i literały
- 17.2. Kropka
- Rozdział 18. Zbiory, zakresy i klasy znaków
- 18.1. Zbiory i zakresy
- 18.2. Klasy znaków
- 18.3. Klasy znaków POSIX
- Rozdział 19. Kwantyfikatory
- Rozdział 20. Grupy
- 20.1. Grupowanie, przechwytywanie, odwołania
- 20.2. Alternatywa
- 20.3. Odwołania bezwzględne i względne
- 20.4. Napisy puste
- Rozdział 21. Granice
- 21.1. Metaznaki i metasekwencje konsumujące i niekonsumujące
- 21.2. Granice jednostek tekstu
- Rozdział 22. Znaki Unicode
- 22.1. Wskazywanie znaku kodem Unicode
- 22.2. Klasy znaków Unicode
- Rozdział 23. Podstawianie
- 23.1. Podstawianie liter i zmiana kasztowości
- 23.2. Matryca podstawiania
- Rozdział 24. Asercje, wyrażenia warunkowe, definicje
- 24.1. Warunki pozytywne i negatywne, retrospektywne i prospektywne
- 24.2. Wyrażenia warunkowe
- 24.3. Definicje
- Rozdział 25. Opcje (modyfikatory, flagi) wyrażeń regularnych
- 25.1. Ogólne opcje wyrażeń regularnych
- 25.2. Stosowanie opcji w różnych silnikach
- 25.3. Składanie opcji
- 25.4. Komentarze
- 25.5. Opcje silnika PCRE
- Rozdział 26. Wyrażenia regularne w Pythonie
- 26.1. Wyszukiwanie
- 26.1.1. Funkcja search
- 26.1.2. Funkcja match
- 26.1.3. Funkcja fullmatch
- 26.1.4. Funkcja findall
- 26.1.5. Funkcja finditer
- 26.2. Flagi (opcje)
- 26.3. Obiekt match object
- 26.3.1. Funkcja match_obj.group
- 26.3.2. Funkcja match_obj.groups
- 26.3.3. Funkcja match_obj.groupdict
- 26.3.4. Funkcje match_obj.start i match_obj.end
- 26.3.5. Funkcja match_obj.span
- 26.3.6. Atrybuty match_obj.lastindex i match_obj.lastgroup
- 26.3.7. Atrybuty pos i endpos, re i string
- 26.4. Inne funkcje
- 26.4.1. Funkcje sub i subn
- 26.4.2. Funkcja split
- 26.4.3. Funkcje re.escape i match_obj.expand
- 26.5. Przykłady użycia biblioteki re
- 26.5.1. Wyszukiwanie przy użyciu funkcji search, match i findall
- 26.5.2. Wyszukiwanie przy użyciu funkcji finditer
- 26.6. Podsumowanie
- 26.1. Wyszukiwanie
CZĘŚĆ V. FORMATY WYMIANY DANYCH
- Rozdział 27. Wymiana danych
- 27.1. Wymiana danych i schemat (struktura) danych
- 27.2. Serializacja i deserializacja danych
- Rozdział 28. Języki znacznikowe
- 28.1. Znacznik
- 28.2. Odmiany języków znacznikowych
- 28.3. Dane a metadane
- 28.4. Język a metajęzyk
- 28.5. Drzewa
- Rozdział 29. Formaty CSV i TSV
- 29.1. Budowa schematów CSV i TSV
- 29.2. Zagnieżdżenia w plikach CSV i TSV
- 29.3. Wskazywanie typów danych
- 29.4. Podsumowanie - zalety i wady
- Rozdział 30. Pliki CSV w Pythonie
- 30.1. Odczyt plików CSV
- 30.2. Zapis plików CSV
- 30.3. Parametry pliku i dialekty
- Rozdział 31. Format JSON
- 31.1. Dane, obiekty, tablice
- 31.2. Typy danych
- 31.3. Tablice (listy)
- 31.4. Liczby
- 31.5. Komentarze
- 31.6. Podsumowanie - wady i zalety
- Rozdział 32. Pliki JSON w Pythonie
- 32.1. Odczyt plików JSON
- 32.2. Zapis plików JSON
- Rozdział 33. Format YAML
- 33.1. Pary klucz-wartość
- 33.2. Komentarze
- 33.3. Typy danych
- 33.4. Listy
- 33.5. Obiekty
- 33.6. Znaki (sekwencje) ucieczki
- 33.7. Znaki Unikodu
- 33.8. Dodatkowe oznaczenia
- 33.9. Zapis czasu i dat - standard ISO 8601
- 33.10. Spacja po przecinku i dwukropku
- 33.11. Kotwice
- 33.12. Dyrektywy
- 33.13. Przykład dokumentu
- 33.14. Podsumowanie - zalety i wady formatu YAML
- Rozdział 34. Pliki YAML w Pythonie
- 34.1. Odczyt plików YAML
- 34.2. Zapis plików YAML
- 34.3. Własny parser
- Rozdział 35. Format XML
- 35.1. Rozszerzalność XML-a
- 35.2. Główne składniki dokumentu XML
- 35.3. Budowa elementu
- 35.4. Element czy atrybut?
- 35.5. Deklaracja XML
- 35.6. Deklaracje podstawowe
- 35.7. Instrukcje przetwarzania
- 35.8. Jednostki (encje)
- 35.9. Przestrzenie nazw
- 35.10. Atrybuty predefiniowane
- Rozdział 36. Pliki XML w Pythonie
- 36.1. Odczyt plików XML
- 36.2. Modyfikacja i zapis plików XML
- 36.3. Konstruowanie dokumentu
- 36.4. Konwersja na format XML
CZĘŚĆ VI. PRZESZUKIWANIE DOKUMENTÓW ZNACZNIKOWYCH
- Rozdział 37. Gramatyki parsujące i gramatyki formalne
- 37.1. Gramatyki formalne
- 37.2. Gramatyka w standardzie EBNF
- 37.3. Gramatyka parsująca w wyrażeniu regularnym
- 37.4. Użycie gramatyk parsujących w Pythonie
- 37.4.1. Gramatyka w wyrażeniu regularnym
- 37.4.2. Gramatyka w notacji EBNF
- Rozdział 38. JSON Pointer
- 38.1. Składnia wskaźników JSON Pointer
- 38.2. JSON Pointer w Pythonie
- Rozdział 39. JSON Path
- 39.1. Składnia ścieżek JSON Path
- 39.2. JSON Path w Pythonie
- Rozdział 40. XPath
- 40.1. Wersje składni XPath
- 40.2. Struktura ścieżek XPath
- 40.3. Pomijanie elementów
- 40.4. Predykaty
- 40.5. Łączenie wyników
- 40.6. Operatory logiczne
- 40.7. Operatory arytmetyczne
- 40.8. Funkcje napisowe
- 40.9. Funkcje agregujące
- 40.10. Wyodrębnianie elementów struktury węzła
- 40.11. Funkcje konwertujące
- 40.12. XPath w Pythonie
- Rozdział 41. XQuery
- 41.1. Wyrażenia FLWOR
- 41.2. Dodatkowe operatory porównania
- 41.3. Instrukcje warunkowe
- 41.4. Funkcje użytkownika
CZĘŚĆ VII. SCHEMATY FORMATÓW WYMIANY DANYCH
- Rozdział 42. JSON Schema
- 42.1. Słowa kluczowe
- 42.1.1. Metajęzykowe słowa kluczowe
- 42.1.2. Wersja bazowego schematu i identyfikator własnego schematu ($schema, $id)
- 42.1.3. Schematy zewnętrzne i zagnieżdżone ($ref, $id, $defs)
- 42.1.4. Odwołania rekurencyjne
- 42.1.5. Zewnętrzne przestrzenie nazw ($vocabulary)
- 42.1.6. Wielokrotne użycie obiektów ($anchor)
- 42.1.7. Odwołania dynamiczne ($dynamicAnchor, $dynamicRef)
- 42.1.8. Komentarze ($comment)
- 42.2. Anotacje (title, description, default, examples, deprecated)
- 42.3. Ograniczenia
- 42.3.1. Specyfikacja typu (type)
- 42.3.2. Typ wyliczeniowy (enum)
- 42.3.3. Ograniczenia napisów (maxLength, minLength, pattern)
- 42.3.4. Ograniczenia liczb (multipleOf, minimum, exclusiveMinimum, maximum, exclusiveMaximum)
- 42.3.5. Ograniczenia tablic (items, maxItems, minItems, uniqueItems, contains)
- 42.3.6. Ograniczenia obiektów (maxProperties, minProperties, required, properties, patternProperties, additionalProperties, propertyNames, dependencies, dependentRequired, dependentSchemas)
- 42.3.7. Wartości stałe (const)
- 42.3.8. Ograniczenia danych binarnych osadzonych w tekście (contentMediaType, contentEncoding, contentSchema)
- 42.4. Operatory warunków (allOf, anyOf, oneOf)
- 42.5. Wyrażenia warunkowe (if, then, else)
- 42.6. Specyfikacja głównego elementu (korzenia)
- 42.7. Kolizje nazw
- 42.8. JSON Schema w Pythonie
- 42.1. Słowa kluczowe
- Rozdział 43. XML Schema
- 43.1. Puste schematy
- 43.2. Przestrzeń nazw XML Schema
- 43.3. Własna przestrzeń nazw
- 43.4. Łączenie schematu z dokumentem XML
- 43.5. Typy elementów i atrybutów
- 43.5.1. Typy wbudowane
- 43.5.2. Typy proste
- 43.5.3. Typy złożone
- 43.6. Deklaracje zawartości elementów
- 43.6.1. Definicja elementu z treścią w typie wbudowanym bez atrybutów
- 43.6.2. Definicja elementu z treścią w typie wbudowanym z atrybutami
- 43.6.3. Element z podelementami bez atrybutów
- 43.6.4. Element z podelementami z atrybutami
- 43.6.5. Element pusty bez atrybutów
- 43.6.6. Element pusty z atrybutami
- 43.6.7. Element z treścią w typie zmodyfikowanym bez atrybutów
- 43.6.8. Element z treścią w typie zmodyfikowanym z atrybutami
- 43.6.9. Element z treścią mieszaną bez atrybutów
- 43.6.10. Element z treścią mieszaną z atrybutami
- 43.7. Ograniczenia związane z elementami i atrybutami
- 43.7.1. Aspekty
- 43.7.2. Łączenie aspektów
- 43.7.3. Blokowanie wartości aspektów
- 43.7.4. Liczba wystąpień elementu
- 43.7.5. Opcjonalność atrybutu
- 43.7.6. Treści i wartości domyślne i stałe
- 43.7.7. Elementy i atrybuty nieokreślone
- 43.8. Wyprowadzanie typów
- 43.8.1. Blokady wyprowadzeń
- 43.8.2. Typy abstrakcyjne
- 43.8.3. Deklaracje globalne i lokalne typów
- 43.9. Składacze
- 43.10. Inne składniki schematów
- 43.10.1. Odwołania
- 43.10.2. Grupy elementów i atrybutów
- 43.10.3. Listy i kombinacje
- 43.10.4. Elementy zastępcze
- 43.10.5. Klucze i wartości unikatowe
- 43.11. Automatyczne generowanie schematów XML Schema
- 43.11.1. XSD/XML Schema Generator
- 43.11.2. Visual Studio
- 43.12. Mapowanie dokumentu XML w programie MS Excel
- 43.13. Pliki XML w Excelu - importowanie i eksportowanie danych
- 43.14. XML Schema w Pythonie
Bibliografia
Skorowidz





