reklama - zainteresowany?

Ekstrakcja danych w Pythonie. Teoria i praktyka - Helion

Ekstrakcja danych w Pythonie. Teoria i praktyka
ebook
Autor: Piotr Rybka
ISBN: 978-83-289-3741-3
stron: 408, Format: ebook
Księgarnia: Helion

Cena książki: 99,00 zł

Książka będzie dostępna od grudnia 2025

Tagi: Analiza danych | Python - Programowanie

Dane: za

Spis treści

Ekstrakcja danych w Pythonie. Teoria i praktyka eBook -- spis treści

Od autora

CZĘŚĆ I. PODSTAWOWE POJĘCIA

  • Rozdział 1. Co można robić z danymi
    • 1.1. Oczyszczanie
    • 1.2. Normalizacja
    • 1.3. Wzbogacanie
    • 1.4. Agregacja
    • 1.5. Kwerendowanie
    • 1.6. Pozyskiwanie, zbieranie, gromadzenie
    • 1.7. Odzyskiwanie
    • 1.8. Eksploracja
    • 1.9. "Zeskrobywanie"
    • 1.10. Transformacja
    • 1.11. Integracja
    • 1.12. Wydobywanie
    • 1.13. Wydobywanie danych z tekstów
    • 1.14. Parsowanie
  • Rozdział 2. Ekstrakcja danych
    • 2.1. Definicja
    • 2.2. Etapy
    • 2.3. ETL, ELT, migracje
  • Rozdział 3. Rodzaje danych
    • 3.1. Zawartość danych
    • 3.2. Struktura lub format danych
    • 3.3. Użycie lub funkcja danych
  • Rozdział 4. Jednostki danych
    • 4.1. Bit
    • 4.2. Półbajt
    • 4.3. Bajt
    • 4.4. Przedrostki wielokrotności jednostek
    • 4.5. Słowo (maszynowe)
    • 4.6. Jednostki budowy tabeli bazodanowej
      • 4.6.1. Wartości atomowe
      • 4.6.2. Pola
      • 4.6.3. Rekordy
      • 4.6.4. Krotki
      • 4.6.5. Encje
      • 4.6.6. Atrybuty
      • 4.6.7. Schemat danych
    • 4.7. Kubit
  • Rozdział 5. Źródła danych
    • 5.1. Bazy danych
    • 5.2. Hurtownie danych
    • 5.3. Jeziora danych
    • 5.4. Delta Lakes
    • 5.5. Pliki płaskie
    • 5.6. Interfejsy programowania aplikacji webowych
    • 5.7. Arkusze kalkulacyjne
    • 5.8. Źródła "zeskrobywalne"
    • 5.9. Usługi chmurowe
    • 5.10. Urządzenia Internetu Rzeczy

CZĘŚĆ II. PLIKI BINARNE I TEKSTOWE

  • Rozdział 6. Charakterystyka plików binarnych i tekstowych
  • Rozdział 7. Przykłady plików binarnych
    • 7.1. Format .wave
    • 7.2. Format .bmp
  • Rozdział 8. Sposoby osadzania danych binarnych w plikach tekstowych
    • 8.1. Problem niekompatybilności danych binarnych i tekstowych
    • 8.2. Kodowanie Base64
    • 8.3. Kodowania Base16 i Base32
  • Rozdział 9. Pliki binarne i tekstowe w Pythonie
    • 9.1. Listowanie plików
    • 9.2. Strumienie
    • 9.3. Tryby strumieni
    • 9.4. Funkcje strumieniowe
    • 9.5. Odróżnianie plików binarnych i tekstowych
    • 9.6. Ciągi bitów
    • 9.7. Odczyt plików binarnych i tekstowych
    • 9.8. Odczyt metadanych pliku

CZĘŚĆ III. KODOWANIE TEKSTU

  • Rozdział 10. Systemy pozycyjne zapisu liczb
    • 10.1. Ogólna postać k-cyfrowej liczby
    • 10.2. Podstawa systemu pozycyjnego
    • 10.3. Rozwinięcie liczby w systemie o podstawie 10
    • 10.4. Ogólne rozwinięcie k-cyfrowej liczby w systemie o podstawie p
    • 10.5. Interpretacja liczb w systemach pozycyjnych
    • 10.6. Rozpoznawanie systemu zapisu
    • 10.7. Systemy pozycyjne o różnych podstawach
    • 10.8. Niepozycyjne systemy zapisu liczb
    • 10.9. Konwersje na system dziesiętny
    • 10.10. Konwersja na system dwójkowy
    • 10.11. Konwersja na system o podstawie p
    • 10.12. System dwójkowy a szesnastkowy
    • 10.13. Konwersja ułamków
    • 10.14. Notacja naukowa
  • Rozdział 11. Systemy notacji w Pythonie
  • Rozdział 12. Strony (tablice) kodowe
    • 12.1. Strona (tablica) kodowa vs kodowanie
    • 12.2. Strona kodowa czy kodowanie
    • 12.3. Strategie tworzenia tablic kodowych
    • 12.4. ASCII
    • 12.5. Tablice kodowe ISO i Windows
      • 12.5.1. Zakres kodów i liczba bajtów wymagana do zakodowania znaku
      • 12.5.2. Zawartość tablic kodowych ISO
      • 12.5.3. Zawartość tablic kodowych Windows
      • 12.5.4. ANSI
      • 12.5.5. Zalety i wady tablic ISO i Windows
    • 12.6. Unicode (Unikod)
      • 12.6.1. Innowacyjność Unikodu
      • 12.6.2. Kompatybilność z wcześniejszymi tablicami kodowymi
      • 12.6.3. Standaryzacja
      • 12.6.4. Budowa Unikodu
      • 12.6.5. Zakres kodów i liczba bajtów wymagana do zakodowania znaku - zamkniętość i otwartość Unikodu
      • 12.6.6. Zawartość Unikodu
      • 12.6.7. Definicja znaku pisarskiego
      • 12.6.8. Stosowane kodowania
      • 12.6.9. Wady Unikodu
      • 12.6.10. Zestawy i wyszukiwarki znaków Unikodu
      • 12.6.11. Ekwiwalencja i normalizacja
    • 12.7. Znaki niedrukowalne, białe i kody sterujące
      • 12.7.1. Znak końca linijki
      • 12.7.2. Kody (znaki) sterujące ASCII
      • 12.7.3. Dodatkowe kody (znaki) sterujące w Unicode
      • 12.7.4. Białe znaki stosowane w edytorach tekstu
    • 12.8. Łączące znaki diakrytyczne
    • 12.9. Semigrafika
  • Rozdział 13. Unicode w Pythonie
  • Rozdział 14. Kodowania
    • 14.1. Strategie tworzenia systemów kodowania
    • 14.2. Kolejność zapisu bajtów - endianness
      • 14.2.1. Przyczyny różnej kolejności zapisu bajtów
      • 14.2.2. Big Endian ("grubokońcówkowość")
      • 14.2.3. Little Endian ("cienkokońcówkowość")
    • 14.3. Kodowanie 8-bitowe
    • 14.4. UTF-32 i UCS-4
    • 14.5. UTF-16 i UCS-2
      • 14.5.1. Ogólny algorytm kodowania w UTF-16
      • 14.5.2. Kodowanie bezpośrednie w UTF-16
      • 14.5.3. Kodowanie rozdzielcze
      • 14.5.4. Przykłady kodowania rozdzielczego
      • 14.5.5. Zalety i wady UTF-16 i UCS-2
    • 14.6. UTF-8
      • 14.6.1. Prefiksy bajtów w słowie maszynowym
      • 14.6.2. Ramki binarne słów maszynowych
      • 14.6.3. Algorytm kodowania w UTF-8
      • 14.6.4. Algorytm dekodowania w UTF-8
      • 14.6.5. Endianness w UTF-8
      • 14.6.6. Zalety i wady UTF-8
    • 14.7. BOM (Bite Order Mark)
    • 14.8. Rozpoznawanie kodowania
  • Rozdział 15. Kodowanie tekstu w Pythonie

CZĘŚĆ IV. WYRAŻENIA REGULARNE

  • Rozdział 16. Wstęp
    • 16.1. Definicja wyrażeń regularnych
    • 16.2. Silniki wyrażeń regularnych
  • Rozdział 17. Budowa wyrażeń regularnych
    • 17.1. Metaznaki i literały
    • 17.2. Kropka
  • Rozdział 18. Zbiory, zakresy i klasy znaków
    • 18.1. Zbiory i zakresy
    • 18.2. Klasy znaków
    • 18.3. Klasy znaków POSIX
  • Rozdział 19. Kwantyfikatory
  • Rozdział 20. Grupy
    • 20.1. Grupowanie, przechwytywanie, odwołania
    • 20.2. Alternatywa
    • 20.3. Odwołania bezwzględne i względne
    • 20.4. Napisy puste
  • Rozdział 21. Granice
    • 21.1. Metaznaki i metasekwencje konsumujące i niekonsumujące
    • 21.2. Granice jednostek tekstu
  • Rozdział 22. Znaki Unicode
    • 22.1. Wskazywanie znaku kodem Unicode
    • 22.2. Klasy znaków Unicode
  • Rozdział 23. Podstawianie
    • 23.1. Podstawianie liter i zmiana kasztowości
    • 23.2. Matryca podstawiania
  • Rozdział 24. Asercje, wyrażenia warunkowe, definicje
    • 24.1. Warunki pozytywne i negatywne, retrospektywne i prospektywne
    • 24.2. Wyrażenia warunkowe
    • 24.3. Definicje
  • Rozdział 25. Opcje (modyfikatory, flagi) wyrażeń regularnych
    • 25.1. Ogólne opcje wyrażeń regularnych
    • 25.2. Stosowanie opcji w różnych silnikach
    • 25.3. Składanie opcji
    • 25.4. Komentarze
    • 25.5. Opcje silnika PCRE
  • Rozdział 26. Wyrażenia regularne w Pythonie
    • 26.1. Wyszukiwanie
      • 26.1.1. Funkcja search
      • 26.1.2. Funkcja match
      • 26.1.3. Funkcja fullmatch
      • 26.1.4. Funkcja findall
      • 26.1.5. Funkcja finditer
    • 26.2. Flagi (opcje)
    • 26.3. Obiekt match object
      • 26.3.1. Funkcja match_obj.group
      • 26.3.2. Funkcja match_obj.groups
      • 26.3.3. Funkcja match_obj.groupdict
      • 26.3.4. Funkcje match_obj.start i match_obj.end
      • 26.3.5. Funkcja match_obj.span
      • 26.3.6. Atrybuty match_obj.lastindex i match_obj.lastgroup
      • 26.3.7. Atrybuty pos i endpos, re i string
    • 26.4. Inne funkcje
      • 26.4.1. Funkcje sub i subn
      • 26.4.2. Funkcja split
      • 26.4.3. Funkcje re.escape i match_obj.expand
    • 26.5. Przykłady użycia biblioteki re
      • 26.5.1. Wyszukiwanie przy użyciu funkcji search, match i findall
      • 26.5.2. Wyszukiwanie przy użyciu funkcji finditer
    • 26.6. Podsumowanie

CZĘŚĆ V. FORMATY WYMIANY DANYCH

  • Rozdział 27. Wymiana danych
    • 27.1. Wymiana danych i schemat (struktura) danych
    • 27.2. Serializacja i deserializacja danych
  • Rozdział 28. Języki znacznikowe
    • 28.1. Znacznik
    • 28.2. Odmiany języków znacznikowych
    • 28.3. Dane a metadane
    • 28.4. Język a metajęzyk
    • 28.5. Drzewa
  • Rozdział 29. Formaty CSV i TSV
    • 29.1. Budowa schematów CSV i TSV
    • 29.2. Zagnieżdżenia w plikach CSV i TSV
    • 29.3. Wskazywanie typów danych
    • 29.4. Podsumowanie - zalety i wady
  • Rozdział 30. Pliki CSV w Pythonie
    • 30.1. Odczyt plików CSV
    • 30.2. Zapis plików CSV
    • 30.3. Parametry pliku i dialekty
  • Rozdział 31. Format JSON
    • 31.1. Dane, obiekty, tablice
    • 31.2. Typy danych
    • 31.3. Tablice (listy)
    • 31.4. Liczby
    • 31.5. Komentarze
    • 31.6. Podsumowanie - wady i zalety
  • Rozdział 32. Pliki JSON w Pythonie
    • 32.1. Odczyt plików JSON
    • 32.2. Zapis plików JSON
  • Rozdział 33. Format YAML
    • 33.1. Pary klucz-wartość
    • 33.2. Komentarze
    • 33.3. Typy danych
    • 33.4. Listy
    • 33.5. Obiekty
    • 33.6. Znaki (sekwencje) ucieczki
    • 33.7. Znaki Unikodu
    • 33.8. Dodatkowe oznaczenia
    • 33.9. Zapis czasu i dat - standard ISO 8601
    • 33.10. Spacja po przecinku i dwukropku
    • 33.11. Kotwice
    • 33.12. Dyrektywy
    • 33.13. Przykład dokumentu
    • 33.14. Podsumowanie - zalety i wady formatu YAML
  • Rozdział 34. Pliki YAML w Pythonie
    • 34.1. Odczyt plików YAML
    • 34.2. Zapis plików YAML
    • 34.3. Własny parser
  • Rozdział 35. Format XML
    • 35.1. Rozszerzalność XML-a
    • 35.2. Główne składniki dokumentu XML
    • 35.3. Budowa elementu
    • 35.4. Element czy atrybut?
    • 35.5. Deklaracja XML
    • 35.6. Deklaracje podstawowe
    • 35.7. Instrukcje przetwarzania
    • 35.8. Jednostki (encje)
    • 35.9. Przestrzenie nazw
    • 35.10. Atrybuty predefiniowane
  • Rozdział 36. Pliki XML w Pythonie
    • 36.1. Odczyt plików XML
    • 36.2. Modyfikacja i zapis plików XML
    • 36.3. Konstruowanie dokumentu
    • 36.4. Konwersja na format XML

CZĘŚĆ VI. PRZESZUKIWANIE DOKUMENTÓW ZNACZNIKOWYCH

  • Rozdział 37. Gramatyki parsujące i gramatyki formalne
    • 37.1. Gramatyki formalne
    • 37.2. Gramatyka w standardzie EBNF
    • 37.3. Gramatyka parsująca w wyrażeniu regularnym
    • 37.4. Użycie gramatyk parsujących w Pythonie
      • 37.4.1. Gramatyka w wyrażeniu regularnym
      • 37.4.2. Gramatyka w notacji EBNF
  • Rozdział 38. JSON Pointer
    • 38.1. Składnia wskaźników JSON Pointer
    • 38.2. JSON Pointer w Pythonie
  • Rozdział 39. JSON Path
    • 39.1. Składnia ścieżek JSON Path
    • 39.2. JSON Path w Pythonie
  • Rozdział 40. XPath
    • 40.1. Wersje składni XPath
    • 40.2. Struktura ścieżek XPath
    • 40.3. Pomijanie elementów
    • 40.4. Predykaty
    • 40.5. Łączenie wyników
    • 40.6. Operatory logiczne
    • 40.7. Operatory arytmetyczne
    • 40.8. Funkcje napisowe
    • 40.9. Funkcje agregujące
    • 40.10. Wyodrębnianie elementów struktury węzła
    • 40.11. Funkcje konwertujące
    • 40.12. XPath w Pythonie
  • Rozdział 41. XQuery
    • 41.1. Wyrażenia FLWOR
    • 41.2. Dodatkowe operatory porównania
    • 41.3. Instrukcje warunkowe
    • 41.4. Funkcje użytkownika

CZĘŚĆ VII. SCHEMATY FORMATÓW WYMIANY DANYCH

  • Rozdział 42. JSON Schema
    • 42.1. Słowa kluczowe
      • 42.1.1. Metajęzykowe słowa kluczowe
      • 42.1.2. Wersja bazowego schematu i identyfikator własnego schematu ($schema, $id)
      • 42.1.3. Schematy zewnętrzne i zagnieżdżone ($ref, $id, $defs)
      • 42.1.4. Odwołania rekurencyjne
      • 42.1.5. Zewnętrzne przestrzenie nazw ($vocabulary)
      • 42.1.6. Wielokrotne użycie obiektów ($anchor)
      • 42.1.7. Odwołania dynamiczne ($dynamicAnchor, $dynamicRef)
      • 42.1.8. Komentarze ($comment)
    • 42.2. Anotacje (title, description, default, examples, deprecated)
    • 42.3. Ograniczenia
      • 42.3.1. Specyfikacja typu (type)
      • 42.3.2. Typ wyliczeniowy (enum)
      • 42.3.3. Ograniczenia napisów (maxLength, minLength, pattern)
      • 42.3.4. Ograniczenia liczb (multipleOf, minimum, exclusiveMinimum, maximum, exclusiveMaximum)
      • 42.3.5. Ograniczenia tablic (items, maxItems, minItems, uniqueItems, contains)
      • 42.3.6. Ograniczenia obiektów (maxProperties, minProperties, required, properties, patternProperties, additionalProperties, propertyNames, dependencies, dependentRequired, dependentSchemas)
      • 42.3.7. Wartości stałe (const)
      • 42.3.8. Ograniczenia danych binarnych osadzonych w tekście (contentMediaType, contentEncoding, contentSchema)
    • 42.4. Operatory warunków (allOf, anyOf, oneOf)
    • 42.5. Wyrażenia warunkowe (if, then, else)
    • 42.6. Specyfikacja głównego elementu (korzenia)
    • 42.7. Kolizje nazw
    • 42.8. JSON Schema w Pythonie
  • Rozdział 43. XML Schema
    • 43.1. Puste schematy
    • 43.2. Przestrzeń nazw XML Schema
    • 43.3. Własna przestrzeń nazw
    • 43.4. Łączenie schematu z dokumentem XML
    • 43.5. Typy elementów i atrybutów
      • 43.5.1. Typy wbudowane
      • 43.5.2. Typy proste
      • 43.5.3. Typy złożone
    • 43.6. Deklaracje zawartości elementów
      • 43.6.1. Definicja elementu z treścią w typie wbudowanym bez atrybutów
      • 43.6.2. Definicja elementu z treścią w typie wbudowanym z atrybutami
      • 43.6.3. Element z podelementami bez atrybutów
      • 43.6.4. Element z podelementami z atrybutami
      • 43.6.5. Element pusty bez atrybutów
      • 43.6.6. Element pusty z atrybutami
      • 43.6.7. Element z treścią w typie zmodyfikowanym bez atrybutów
      • 43.6.8. Element z treścią w typie zmodyfikowanym z atrybutami
      • 43.6.9. Element z treścią mieszaną bez atrybutów
      • 43.6.10. Element z treścią mieszaną z atrybutami
    • 43.7. Ograniczenia związane z elementami i atrybutami
      • 43.7.1. Aspekty
      • 43.7.2. Łączenie aspektów
      • 43.7.3. Blokowanie wartości aspektów
      • 43.7.4. Liczba wystąpień elementu
      • 43.7.5. Opcjonalność atrybutu
      • 43.7.6. Treści i wartości domyślne i stałe
      • 43.7.7. Elementy i atrybuty nieokreślone
    • 43.8. Wyprowadzanie typów
      • 43.8.1. Blokady wyprowadzeń
      • 43.8.2. Typy abstrakcyjne
      • 43.8.3. Deklaracje globalne i lokalne typów
    • 43.9. Składacze
    • 43.10. Inne składniki schematów
      • 43.10.1. Odwołania
      • 43.10.2. Grupy elementów i atrybutów
      • 43.10.3. Listy i kombinacje
      • 43.10.4. Elementy zastępcze
      • 43.10.5. Klucze i wartości unikatowe
    • 43.11. Automatyczne generowanie schematów XML Schema
      • 43.11.1. XSD/XML Schema Generator
      • 43.11.2. Visual Studio
    • 43.12. Mapowanie dokumentu XML w programie MS Excel
    • 43.13. Pliki XML w Excelu - importowanie i eksportowanie danych
    • 43.14. XML Schema w Pythonie

Bibliografia

Skorowidz

Code, Publish & WebDesing by CATALIST.com.pl



(c) 2005-2025 CATALIST agencja interaktywna, znaki firmowe należą do wydawnictwa Helion S.A.