reklama - zainteresowany?

G - Helion

G
ebook
Autor: Maxim Lapan
Tytuł oryginału: Deep Reinforcement Learning Hands-On: Apply modern RL methods to practical problems of chatbots, robotics, discrete optimization, web automation, and more, 2nd Edition
TÅ‚umaczenie: Jacek Janusz
ISBN: 978-83-283-8053-0
stron: 720, Format: ebook
Data wydania: 2022-06-01
Księgarnia: Helion

Cena książki: 81,95 zł (poprzednio: 146,34 zł)
Oszczędzasz: 44% (-64,39 zł)

Dodaj do koszyka G

Tagi: Uczenie maszynowe

G

Dodaj do koszyka G

Spis treści

Głębokie uczenie przez wzmacnianie. Praca z chatbotami oraz robotyka, optymalizacja dyskretna i automatyzacja sieciowa w praktyce. Wydanie II eBook -- spis treści

O autorze

O recenzentach

Wstęp

Rozdział 1. Czym jest uczenie przez wzmacnianie

  • Uczenie nadzorowane
  • Uczenie nienadzorowane
  • Uczenie przez wzmacnianie
  • TrudnoÅ›ci zwiÄ…zane z uczeniem przez wzmacnianie
  • Formalne podstawy uczenia przez wzmacnianie
    • Nagroda
    • Agent
    • Åšrodowisko
    • Akcje
    • Obserwacje
  • Teoretyczne podstawy uczenia przez wzmacnianie
    • Procesy decyzyjne Markowa
    • Polityka
  • Podsumowanie

Rozdział 2. Zestaw narzędzi OpenAI Gym

  • Anatomia agenta
  • Wymagania sprzÄ™towe i programowe
  • Interfejs API biblioteki OpenAI Gym
    • PrzestrzeÅ„ akcji
    • PrzestrzeÅ„ obserwacji
    • Åšrodowisko
    • Tworzenie Å›rodowiska
    • Sesja CartPole
  • Losowy agent dla Å›rodowiska CartPole
  • Dodatkowa funkcjonalność biblioteki Gym - opakowania i monitory
    • Opakowania
    • Monitory
  • Podsumowanie

Rozdział 3. Uczenie głębokie przy użyciu biblioteki PyTorch

  • Tensory
    • Tworzenie tensorów
    • Tensory skalarne
    • Operacje na tensorach
    • Tensory GPU
  • Gradienty
    • Tensory a gradienty
  • Bloki konstrukcyjne sieci neuronowych
  • Warstwy definiowane przez użytkownika
  • Funkcje straty i optymalizatory
    • Funkcje straty
    • Optymalizatory
  • Monitorowanie za pomocÄ… narzÄ™dzia TensorBoard
    • Podstawy obsÅ‚ugi narzÄ™dzia TensorBoard
    • NarzÄ™dzia do tworzenia wykresów
  • PrzykÅ‚ad - użycie sieci GAN z obrazami Atari
  • Biblioteka PyTorch Ignite
    • Zasady dziaÅ‚ania biblioteki Ignite
  • Podsumowanie

Rozdział 4. Metoda entropii krzyżowej

  • Taksonomia metod uczenia przez wzmacnianie
  • Praktyczne wykorzystanie entropii krzyżowej
  • Użycie entropii krzyżowej w Å›rodowisku CartPole
  • Użycie metody entropii krzyżowej w Å›rodowisku FrozenLake
  • Teoretyczne podstawy metody entropii krzyżowej
  • Podsumowanie

RozdziaÅ‚ 5. Uczenie tabelaryczne i równanie Bellmana

  • Wartość, stan i optymalność
  • Równanie optymalnoÅ›ci Bellmana
  • Wartość akcji
  • Metoda iteracji wartoÅ›ci
  • Wykorzystanie iteracji wartoÅ›ci w praktyce
  • Q-uczenie w Å›rodowisku FrozenLake
  • Podsumowanie

Rozdział 6. Głębokie sieci Q

  • RozwiÄ…zywanie realnego problemu z wykorzystaniem metody iteracji wartoÅ›ci
  • Q-uczenie tabelaryczne
  • GÅ‚Ä™bokie Q-uczenie
    • Interakcja ze Å›rodowiskiem
    • Optymalizacja za pomocÄ… stochastycznego spadku wzdÅ‚uż gradientu (SGD)
    • Korelacja pomiÄ™dzy krokami
    • WÅ‚asność Markowa
    • Ostateczna wersja procedury trenowania dla gÅ‚Ä™bokich sieci Q
  • Użycie gÅ‚Ä™bokiej sieci Q w grze Pong
    • Opakowania
    • Model gÅ‚Ä™bokiej sieci Q
    • Trenowanie
    • Uruchomienie programu i sprawdzenie jego wydajnoÅ›ci
    • Użycie modelu
  • Rzeczy do przetestowania
  • Podsumowanie

Rozdział 7. Biblioteki wyższego poziomu uczenia przez wzmacnianie

  • Dlaczego potrzebujemy bibliotek uczenia przez wzmacnianie?
  • Biblioteka PTAN
    • Selektory akcji
    • Agent
    • ŹródÅ‚o doÅ›wiadczeÅ„
    • Bufory doÅ›wiadczeÅ„
    • Klasa TargetNet
    • Klasy upraszczajÄ…ce wspóÅ‚pracÄ™ z bibliotekÄ… Ignite
  • RozwiÄ…zanie problemu Å›rodowiska CartPole za pomocÄ… biblioteki PTAN
  • Inne biblioteki zwiÄ…zane z uczeniem przez wzmacnianie
  • Podsumowanie

Rozdział 8. Rozszerzenia sieci DQN

  • Podstawowa, gÅ‚Ä™boka sieć Q
    • Wspólna biblioteka
    • Implementacja
    • Wyniki
  • GÅ‚Ä™boka sieć Q o n krokach
    • Implementacja
    • Wyniki
  • Podwójna sieć DQN
    • Implementacja
    • Wyniki
  • Sieci zakÅ‚ócone
    • Implementacja
    • Wyniki
  • Bufor priorytetowy
    • Implementacja
    • Wyniki
  • RywalizujÄ…ce sieci DQN
    • Implementacja
    • Wyniki
  • Kategoryczne sieci DQN
    • Implementacja
    • Wyniki
  • PoÅ‚Ä…czenie wszystkich metod
    • Wyniki
  • Podsumowanie
  • Bibliografia

Rozdział 9. Sposoby przyspieszania metod uczenia przez wzmacnianie

  • Dlaczego prÄ™dkość ma znaczenie?
  • Model podstawowy
  • Wykres obliczeniowy w bibliotece PyTorch
  • Różne Å›rodowiska
  • Granie i trenowanie w oddzielnych procesach
  • Dostrajanie opakowaÅ„
  • Podsumowanie testów
  • RozwiÄ…zanie ekstremalne: CuLE
  • Podsumowanie
  • Bibliografia

Rozdział 10. Inwestowanie na giełdzie za pomocą metod uczenia przez wzmacnianie

  • Handel
  • Dane
  • OkreÅ›lenie problemu i podjÄ™cie kluczowych decyzji
  • Åšrodowisko symulujÄ…ce gieÅ‚dÄ™
  • Modele
  • Kod treningowy
  • Wyniki
    • Model ze sprzężeniem wyprzedzajÄ…cym
    • Model konwolucyjny
  • Rzeczy do przetestowania
  • Podsumowanie

Rozdział 11. Alternatywa - gradienty polityki

  • WartoÅ›ci i polityka
    • Dlaczego polityka?
    • Reprezentacja polityki
    • Gradienty polityki
  • Metoda REINFORCE
    • PrzykÅ‚ad Å›rodowiska CartPole
    • Wyniki
    • Porównanie metod opartych na polityce z metodami opartymi na wartoÅ›ciach
  • Ograniczenia metody REINFORCE
    • Wymagane jest ukoÅ„czenie epizodu
    • Wariancja dużych gradientów
    • Eksploracja
    • Korelacja danych
  • Zastosowanie metody gradientu polityki w Å›rodowisku CartPole
    • Implementacja
    • Wyniki
  • Zastosowanie metody gradientu polityki w Å›rodowisku Pong
    • Implementacja
    • Wyniki
  • Podsumowanie

Rozdział 12. Metoda aktor-krytyk

  • Zmniejszenie poziomu wariancji
  • Wariancja w Å›rodowisku CartPole
  • Aktor-krytyk
  • Użycie metody A2C w Å›rodowisku Pong
    • Wyniki użycia metody A2C w Å›rodowisku Pong
    • Dostrajanie hiperparametrów
  • Podsumowanie

Rozdział 13. Asynchroniczna wersja metody aktor-krytyk

  • Korelacja i wydajność próbkowania
  • Zrównoleglenie metody A2C
  • Przetwarzanie wieloprocesorowe w jÄ™zyku Python
  • Algorytm A3C wykorzystujÄ…cy zrównoleglenie na poziomie danych
    • Implementacja
    • Wyniki
  • Algorytm A3C wykorzystujÄ…cy zrównoleglenie na poziomie gradientów
    • Implementacja
    • Wyniki
  • Podsumowanie

RozdziaÅ‚ 14. Trenowanie chatbotów z wykorzystaniem uczenia przez wzmacnianie

  • Czym sÄ… chatboty?
  • Trenowanie chatbotów
  • Podstawy gÅ‚Ä™bokiego przetwarzania jÄ™zyka naturalnego
    • Rekurencyjne sieci neuronowe
    • Osadzanie sÅ‚ów
    • Architektura koder-dekoder
  • Trenowanie modelu koder-dekoder
    • Trenowanie z wykorzystaniem logarytmu prawdopodobieÅ„stwa
    • Algorytm "Bilingual Evaluation Understudy" (BLEU)
    • Zastosowanie uczenia przez wzmacnianie w modelu koder-dekoder
    • Krytyczna analiza trenowania sekwencji
  • Projekt chatbota
    • PrzykÅ‚adowa struktura
    • ModuÅ‚y cornell.py i data.py
    • Wskaźnik BLEU i moduÅ‚ utils.py
    • Model
  • Eksploracja zbioru danych
  • Trenowanie - entropia krzyżowa
    • Implementacja
    • Wyniki
  • Trenowanie - metoda SCST
    • Implementacja
    • Wyniki
  • Przetestowanie modeli przy użyciu danych
  • Bot dla komunikatora Telegram
  • Podsumowanie

Rozdział 15. Środowisko TextWorld

  • Fikcja interaktywna
  • Åšrodowisko
    • Instalacja
    • Generowanie gry
    • Przestrzenie obserwacji i akcji
    • Dodatkowe informacje o grze
  • Podstawowa sieć DQN
    • WstÄ™pne przetwarzanie obserwacji
    • Osadzenia i kodery
    • Model DQN i agent
    • Kod treningowy
    • Wyniki trenowania
  • Model generujÄ…cy polecenia
    • Implementacja
    • Wyniki uzyskane po wstÄ™pnym trenowaniu
    • Kod treningowy sieci DQN
    • Wyniki uzyskane po trenowaniu sieci DQN
  • Podsumowanie

Rozdział 16. Nawigacja w sieci

  • Nawigacja w sieci
  • Automatyzacja dziaÅ‚aÅ„ w przeglÄ…darce i uczenie przez wzmacnianie
  • Test porównawczy MiniWoB
  • OpenAI Universe
    • Instalacja
    • Akcje i obserwacje
    • Tworzenie Å›rodowiska
    • Stabilność systemu MiniWoB
  • Proste klikanie
    • Akcje zwiÄ…zane z siatkÄ…
    • PrzeglÄ…d rozwiÄ…zania
    • Model
    • Kod treningowy
    • Uruchamianie kontenerów
    • Proces trenowania
    • Testowanie wyuczonej polityki
    • Problemy wystÄ™pujÄ…ce podczas prostego klikania
  • Obserwacje ludzkich dziaÅ‚aÅ„
    • Zapisywanie dziaÅ‚aÅ„
    • Format zapisywanych danych
    • Trenowanie z wykorzystaniem obserwacji dziaÅ‚aÅ„
    • Wyniki
    • Gra w kóÅ‚ko i krzyżyk
  • Dodawanie opisów tekstowych
    • Implementacja
    • Wyniki
  • Rzeczy do przetestowania
  • Podsumowanie

Rozdział 17. Ciągła przestrzeń akcji

  • Dlaczego jest potrzebna ciÄ…gÅ‚a przestrzeÅ„ akcji?
    • PrzestrzeÅ„ akcji
    • Åšrodowiska
  • Metoda A2C
    • Implementacja
    • Wyniki
    • Użycie modeli i zapisywanie plików wideo
  • Deterministyczne gradienty polityki
    • Eksploracja
    • Implementacja
    • Wyniki
    • Nagrywanie plików wideo
  • Dystrybucyjne gradienty polityki
    • Architektura
    • Implementacja
    • Wyniki
    • Nagrania wideo
  • Rzeczy do przetestowania
  • Podsumowanie

Rozdział 18. Metody uczenia przez wzmacnianie w robotyce

  • Roboty i robotyka
    • ZÅ‚ożoność robota
    • PrzeglÄ…d sprzÄ™tu
    • Platforma
    • Sensory
    • SiÅ‚owniki
    • Szkielet
  • Pierwszy cel trenowania
  • Emulator i model
    • Plik z definicjÄ… modelu
    • Klasa robota
  • Trenowanie zgodnie z algorytmem DDPG i uzyskane wyniki
  • Sterowanie sprzÄ™tem
    • MicroPython
    • ObsÅ‚uga czujników
    • Sterowanie serwomechanizmami
    • Przenoszenie modelu do sprzÄ™tu
    • PoÅ‚Ä…czenie wszystkiego w caÅ‚ość
  • Eksperymentowanie z politykÄ…
  • Podsumowanie

Rozdział 19. Regiony zaufania - PPO, TRPO, ACKTR i SAC

  • Biblioteka Roboschool
  • Model bazowy A2C
    • Implementacja
    • Wyniki
    • Nagrywanie plików wideo
  • Algorytm PPO
    • Implementacja
    • Wyniki
  • Algorytm TRPO
    • Implementacja
    • Wyniki
  • Algorytm ACKTR
    • Implementacja
    • Wyniki
  • Algorytm SAC
    • Implementacja
    • Wyniki
  • Podsumowanie

Rozdział 20. Optymalizacja typu "czarna skrzynka" w przypadku uczenia przez wzmacnianie

  • Metody typu "czarna skrzynka"
  • Strategie ewolucyjne
    • Testowanie strategii ewolucyjnej w Å›rodowisku CartPole
    • Testowanie strategii ewolucyjnej w Å›rodowisku HalfCheetah
  • Algorytmy genetyczne
    • Testowanie algorytmu genetycznego w Å›rodowisku CartPole
    • Dostrajanie algorytmu genetycznego
    • Testowanie algorytmu genetycznego w Å›rodowisku HalfCheetah
  • Podsumowanie
  • Bibliografia

Rozdział 21. Zaawansowana eksploracja

  • Dlaczego eksploracja jest ważna?
  • Co zÅ‚ego jest w metodzie epsilonu zachÅ‚annego?
  • Alternatywne sposoby eksploracji
    • Sieci zakÅ‚ócone
    • Metody oparte na liczebnoÅ›ci
    • Metody oparte na prognozowaniu
  • Eksperymentowanie w Å›rodowisku MountainCar
    • Metoda DQN z wykorzystaniem strategii epsilonu zachÅ‚annego
    • Metoda DQN z wykorzystaniem sieci zakÅ‚óconych
    • Metoda DQN z licznikami stanów
    • Optymalizacja bliskiej polityki
    • Metoda PPO z wykorzystaniem sieci zakÅ‚óconych
    • Metoda PPO wykorzystujÄ…ca eksploracjÄ™ opartÄ… na liczebnoÅ›ci
    • Metoda PPO wykorzystujÄ…ca destylacjÄ™ sieci
  • Eksperymentowanie ze Å›rodowiskami Atari
    • Metoda DQN z wykorzystaniem strategii epsilonu zachÅ‚annego
    • Klasyczna metoda PPO
    • Metoda PPO z wykorzystaniem destylacji sieci
    • Metoda PPO z wykorzystaniem sieci zakÅ‚óconych
  • Podsumowanie
  • Bibliografia

Rozdział 22. Alternatywa dla metody bezmodelowej - agent wspomagany wyobraźnią

  • Metody oparte na modelu
    • Porównanie metody opartej na modelu z metodÄ… bezmodelowÄ…
    • NiedoskonaÅ‚oÅ›ci modelu
  • Agent wspomagany wyobraźniÄ…
    • Model Å›rodowiskowy
    • Polityka wdrożenia
    • Koder wdrożeÅ„
    • Wyniki zaprezentowane w artykule
  • Użycie modelu I2A w grze Breakout
    • Podstawowy agent A2C
    • Trenowanie modelu Å›rodowiskowego
    • Agent wspomagany wyobraźniÄ…
  • Wyniki eksperymentów
    • Agent podstawowy
    • Trenowanie wag modelu Å›rodowiskowego
    • Trenowanie przy użyciu modelu I2A
  • Podsumowanie
  • Bibliografia

Rozdział 23. AlphaGo Zero

  • Gry planszowe
  • Metoda AlphaGo Zero
    • Wprowadzenie
    • Przeszukiwanie drzewa metodÄ… Monte Carlo (MCTS)
    • Granie modelu z samym sobÄ…
    • Trenowanie i ocenianie
  • Bot dla gry Czwórki
    • Model gry
    • Implementacja algorytmu przeszukiwania drzewa metodÄ… Monte Carlo (MCTS)
    • Model
    • Trenowanie
    • Testowanie i porównywanie
  • Wyniki uzyskane w grze Czwórki
  • Podsumowanie
  • Bibliografia

Rozdział 24. Użycie metod uczenia przez wzmacnianie w optymalizacji dyskretnej

  • Rola uczenia przez wzmacnianie
  • Kostka Rubika i optymalizacja kombinatoryczna
  • Optymalność i liczba boska
  • Sposoby ukÅ‚adania kostki
    • Reprezentacja danych
    • Akcje
    • Stany
  • Proces trenowania
    • Architektura sieci neuronowej
    • Trenowanie
  • Aplikacja modelowa
  • Wyniki
  • Analiza kodu
    • Åšrodowiska kostki
    • Trenowanie
    • Proces wyszukiwania
  • Wyniki eksperymentu
    • Kostka 2×2
    • Kostka 3×3
  • Dalsze usprawnienia i eksperymenty
  • Podsumowanie

Rozdział 25. Metoda wieloagentowa

  • Na czym polega dziaÅ‚anie metody wieloagentowej?
    • Formy komunikacji
    • Użycie uczenia przez wzmacnianie
  • Åšrodowisko MAgent
    • Instalacja
    • PrzeglÄ…d rozwiÄ…zania
    • Åšrodowisko losowe
  • GÅ‚Ä™boka sieć Q obsÅ‚ugujÄ…ca tygrysy
    • Trenowanie i wyniki
  • WspóÅ‚praca miÄ™dzy tygrysami
  • Trenowanie tygrysów i jeleni
  • Walka pomiÄ™dzy równorzÄ™dnymi aktorami
  • Podsumowanie

Dodaj do koszyka G

Code, Publish & WebDesing by CATALIST.com.pl



(c) 2005-2024 CATALIST agencja interaktywna, znaki firmowe należą do wydawnictwa Helion S.A.