Ucz - Helion

ISBN: 978-83-8156-272-0
stron: 248, Format: ebook
Data wydania: 2021-10-14
Ksi臋garnia: Helion
Cena ksi膮偶ki: 35,00 z艂
Osoby kt贸re kupowa艂y "Ucz", wybiera艂y tak偶e:
- Elektronika. Od praktyki do teorii. Wydanie II 69,00 z艂, (34,50 z艂 -50%)
- Termodynamika dla bystrzak贸w 49,00 z艂, (26,95 z艂 -45%)
- Fascynuj膮cy 艣wiat robot贸w. Przewodnik dla konstruktor贸w 66,98 z艂, (36,84 z艂 -45%)
- Sztuczna Inteligencja 49,00 z艂, (26,95 z艂 -45%)
- Ksi臋ga odkrywc贸w LEGO Mindstorms NXT 2.0. Podstawy budowy i programowania robot贸w 49,00 z艂, (26,95 z艂 -45%)
Spis tre艣ci
Ucz膮ce si臋 systemy decyzyjne eBook -- spis tre艣ci
I Preliminaria 9
1. Wprowadzenie 11
1.1 Przyk艂ady zagadnie艅, w których pojawia si臋 potrzeba adaptacji i uczenia si臋 13
1.2 Cel podr臋cznika i poruszane zagadnienia 14
1.3 Dziedziny sk艂adaj膮ce si臋 na zawarto艣膰 podr臋cznika 15
1.4 Adaptacja i uczenie si臋 jako droga do inteligentnego zachowania si臋 maszyn i programów 16
1.5 Organizacja podr臋cznika 18
1.6 Potrzebna wiedza wst臋pna 19
2. Optymalizacja stochastyczna 21
2.1 Algorytm gradientu prostego 21
2.2 Procedura Stochastycznego Najszybszego Spadku, SGD 23
3. Aproksymacja funkcji i podstawowe mechanizmy adaptacji 31
3.1 Aproksymatory i zagadnienie aproksymacji 31
3.2 Zagadnienie uczenia na zbiorze niesko艅czonym, on-line 35
3.3 Perceptron wielowarstwowy 37
3.4 Uczenie si臋 przy u偶yciu aproksymacji stochastycznej 43
3.5 Zagadnienia praktyczne zwi膮zane z u偶ywaniem sieci neuronowych w systemach ucz膮cych si臋 46
4. Proces Decyzyjny Markowa i programowanie dynamiczne 49
4.1 Proces Decyzyjny Markowa 49
4.2 Funkcja warto艣ci akcji i indukowanie strategii 52
4.3 Klasyczny algorytm programowania dynamicznego 53
4.4 Programowanie dynamiczne w algorytmice 56
4.5 Algorytm Iteracji Strategii 58
4.6 Algorytm Iteracji Funkcji Warto艣ci 59
II Uczenie si臋 ze wzmocnieniem 61
5. Podstawy 63
5.1 Nieznany z góry Proces Decyzyjny Markowa 63
5.2 Algorytmy Q-Learning i SARSA 66
5.3 Rozszerzenie algorytmów Q-Learningi SARSA do ci膮g艂ych przestrzeni stanów i akcji 68
6. Optymalizacja stochastycznego wyboru 75
6.1 Parametryzowane rozk艂ady prawdopodobie艅stwa 76
6.2 Algorytm REINFORCE punktowy 83
6.3 Stacjonarna strategia decyzyjna 85
6.4 Algorytm REINFORCE statyczny 87
6.5 Algorytm REINFORCE epizodyczny 89
7. Algorytm Aktor-Krytyk 95
7.1 Idea algorytmu Aktor-Krytyk 95
7.2 Klasyczny Aktor-Krytyk 96
7.3 Aktor-Krytyk(λ) 99
8. Aktor-Krytyk z kompatybiln膮 aproksymacj膮 105
8.1 Optymalizacja 艣redniej nagrody 105
8.2 Gradient strategii 107
8.3 Aktor-Krytyk z kompatybiln膮 aproksymacj膮 110
8.4 Naturalny Aktor-Krytyk 112
8.5 Dyskonto ograniczenie wariancji estymatora gradientu 115
9. Wielokrotne przetwarzanie obserwacji 117
9.1 Algorytm Q-Learning z powtarzaniem do艣wiadczenia 119
9.2 Próbkowanie istotno艣ciowe 120
9.3 Algorytm Aktor-Krytyk z powtarzaniem do艣wiadczenia 122
9.4 Optymalizacja estymatora wska藕nika jako艣ci 131
10. Algorytmy wzbogacone 133
10.1 Asynchronous Advantage Actor-Critic 133
10.2 Proximal Policy Optimization 134
10.3 Deep Deterministic Policy Gradient 137
10.4 Soft Actor-Critic 138
11. G臋sta dyskretyzacja czasu 143
11.1 Strategia z auto skorelowanymi akcjami 144
11.2 Actor-Critic with Experience Replay and Autocorrelated actions 147
12. Uczenie si臋 w warunkach cz臋艣ciowo obserwowalnego stanu 151
12.1 Rekurencyjne sieci neuronowe 152
12.2 Deep Recurrent Q-Learning 153
13. Wieloagentowe uczenie si臋 ze wzmocnieniem 155
13.1 Model synchroniczny niekooperacyjny z cz臋艣ciowo obserwowa¬nym stanem 156
13.2 Multi-Agent Deep Deterministic Policy Gradient 157
III Sterowanie adaptacyjne 161
14. Obiekty dynamiczne 163
14.1 Wst臋p 163
14.2 Liniowe obiekty SISO 165
14.3 Dyskretna aproksyracja obiektów o ci膮g艂ej dynamice 175
15. Stabilno艣膰 i funkcja Lapunowa 179
15.1 Ogólna posta膰 typowego schematu adaptacji 179
15.2 Stabilno艣膰 181
15.3 Funkcja Lapunowa 184
15.4 Stabilno艣膰 w kontek艣cie funkcji Lapunowa 185
16. Sterowanie adaptacyjne z modelem referencyjnym 191
16.1 Liniowy obiekt SISO pierwszego rz臋du 191
16.2 Uogólnienie 195
16. 3 Obiekty liniowe wy偶szych rz臋dów 198
17. Zaawansowane schematy adaptacji 205
17.1 Obiekty o nieliniowej dynamice 205
17.2 Obiekty z nieobserwowalnymi pochodnymi stanu 208
18. Samostroj膮ce si臋 regulatory 215
18.1 Dynamika liniowo pararetryzowalna 216
18.2 Liniowe najmniejsze kwadraty 218
18.3 Najmniejsze kwadraty z wyk艂adniczym zapominaniem 220
18.4 Adaptacyjny dobór wspó艂czynnika zapominania 223
IV Inne podej艣cia do adaptacji 225
19. Aproksymowane programowanie dynamiczne 227
20. Stochastyczne sterowanie adaptacyjne 231
21. Sterowanie z iteracyjnym uczeniem si臋 233
22. Filtr Kalmana 237
22.1 Model 237
22.2 Algorytm 239
22.3 Wyprowadzenia 241
22.4 Rozszerzony Filtr Kalrana 243
Literatura 245