Ucz - Helion
ISBN: 978-83-8156-272-0
stron: 248, Format: ebook
Data wydania: 2021-10-14
Księgarnia: Helion
Cena książki: 35,00 zł
Osoby które kupowały "Ucz", wybierały także:
- Jak sztuczna inteligencja zmieni twoje 69,00 zł, (34,50 zł -50%)
- Sztuczna inteligencja. Nowe spojrzenie. Wydanie IV. Tom 1 169,00 zł, (84,50 zł -50%)
- Sztuczna inteligencja. Nowe spojrzenie. Wydanie IV. Tom 2 129,00 zł, (64,50 zł -50%)
- Sztuczna inteligencja i uczenie maszynowe dla programistów. Praktyczny przewodnik po sztucznej inteligencji 89,00 zł, (44,50 zł -50%)
- Termodynamika dla bystrzaków 49,00 zł, (24,50 zł -50%)
Spis treści
Uczące się systemy decyzyjne eBook -- spis treści
I Preliminaria 9
1. Wprowadzenie 11
1.1 PrzykÅ‚ady zagadnieÅ„, w których pojawia siÄ™ potrzeba adaptacji i uczenia siÄ™ 13
1.2 Cel podręcznika i poruszane zagadnienia 14
1.3 Dziedziny składające się na zawartość podręcznika 15
1.4 Adaptacja i uczenie siÄ™ jako droga do inteligentnego zachowania siÄ™ maszyn i programów 16
1.5 Organizacja podręcznika 18
1.6 Potrzebna wiedza wstępna 19
2. Optymalizacja stochastyczna 21
2.1 Algorytm gradientu prostego 21
2.2 Procedura Stochastycznego Najszybszego Spadku, SGD 23
3. Aproksymacja funkcji i podstawowe mechanizmy adaptacji 31
3.1 Aproksymatory i zagadnienie aproksymacji 31
3.2 Zagadnienie uczenia na zbiorze nieskończonym, on-line 35
3.3 Perceptron wielowarstwowy 37
3.4 Uczenie się przy użyciu aproksymacji stochastycznej 43
3.5 Zagadnienia praktyczne związane z używaniem sieci neuronowych w systemach uczących się 46
4. Proces Decyzyjny Markowa i programowanie dynamiczne 49
4.1 Proces Decyzyjny Markowa 49
4.2 Funkcja wartości akcji i indukowanie strategii 52
4.3 Klasyczny algorytm programowania dynamicznego 53
4.4 Programowanie dynamiczne w algorytmice 56
4.5 Algorytm Iteracji Strategii 58
4.6 Algorytm Iteracji Funkcji Wartości 59
II Uczenie siÄ™ ze wzmocnieniem 61
5. Podstawy 63
5.1 Nieznany z góry Proces Decyzyjny Markowa 63
5.2 Algorytmy Q-Learning i SARSA 66
5.3 Rozszerzenie algorytmów Q-Learningi SARSA do ciÄ…gÅ‚ych przestrzeni stanów i akcji 68
6. Optymalizacja stochastycznego wyboru 75
6.1 Parametryzowane rozkłady prawdopodobieństwa 76
6.2 Algorytm REINFORCE punktowy 83
6.3 Stacjonarna strategia decyzyjna 85
6.4 Algorytm REINFORCE statyczny 87
6.5 Algorytm REINFORCE epizodyczny 89
7. Algorytm Aktor-Krytyk 95
7.1 Idea algorytmu Aktor-Krytyk 95
7.2 Klasyczny Aktor-Krytyk 96
7.3 Aktor-Krytyk(λ) 99
8. Aktor-Krytyk z kompatybilnÄ… aproksymacjÄ… 105
8.1 Optymalizacja średniej nagrody 105
8.2 Gradient strategii 107
8.3 Aktor-Krytyk z kompatybilnÄ… aproksymacjÄ… 110
8.4 Naturalny Aktor-Krytyk 112
8.5 Dyskonto ograniczenie wariancji estymatora gradientu 115
9. Wielokrotne przetwarzanie obserwacji 117
9.1 Algorytm Q-Learning z powtarzaniem doświadczenia 119
9.2 Próbkowanie istotnoÅ›ciowe 120
9.3 Algorytm Aktor-Krytyk z powtarzaniem doświadczenia 122
9.4 Optymalizacja estymatora wskaźnika jakości 131
10. Algorytmy wzbogacone 133
10.1 Asynchronous Advantage Actor-Critic 133
10.2 Proximal Policy Optimization 134
10.3 Deep Deterministic Policy Gradient 137
10.4 Soft Actor-Critic 138
11. Gęsta dyskretyzacja czasu 143
11.1 Strategia z auto skorelowanymi akcjami 144
11.2 Actor-Critic with Experience Replay and Autocorrelated actions 147
12. Uczenie się w warunkach częściowo obserwowalnego stanu 151
12.1 Rekurencyjne sieci neuronowe 152
12.2 Deep Recurrent Q-Learning 153
13. Wieloagentowe uczenie siÄ™ ze wzmocnieniem 155
13.1 Model synchroniczny niekooperacyjny z częściowo obserwowa¬nym stanem 156
13.2 Multi-Agent Deep Deterministic Policy Gradient 157
III Sterowanie adaptacyjne 161
14. Obiekty dynamiczne 163
14.1 Wstęp 163
14.2 Liniowe obiekty SISO 165
14.3 Dyskretna aproksyracja obiektów o ciÄ…gÅ‚ej dynamice 175
15. Stabilność i funkcja Lapunowa 179
15.1 Ogólna postać typowego schematu adaptacji 179
15.2 Stabilność 181
15.3 Funkcja Lapunowa 184
15.4 Stabilność w kontekście funkcji Lapunowa 185
16. Sterowanie adaptacyjne z modelem referencyjnym 191
16.1 Liniowy obiekt SISO pierwszego rzędu 191
16.2 Uogólnienie 195
16. 3 Obiekty liniowe wyższych rzÄ™dów 198
17. Zaawansowane schematy adaptacji 205
17.1 Obiekty o nieliniowej dynamice 205
17.2 Obiekty z nieobserwowalnymi pochodnymi stanu 208
18. SamostrojÄ…ce siÄ™ regulatory 215
18.1 Dynamika liniowo pararetryzowalna 216
18.2 Liniowe najmniejsze kwadraty 218
18.3 Najmniejsze kwadraty z wykładniczym zapominaniem 220
18.4 Adaptacyjny dobór wspóÅ‚czynnika zapominania 223
IV Inne podejścia do adaptacji 225
19. Aproksymowane programowanie dynamiczne 227
20. Stochastyczne sterowanie adaptacyjne 231
21. Sterowanie z iteracyjnym uczeniem siÄ™ 233
22. Filtr Kalmana 237
22.1 Model 237
22.2 Algorytm 239
22.3 Wyprowadzenia 241
22.4 Rozszerzony Filtr Kalrana 243
Literatura 245