EITC/AI/ARL Advanced Reinforcement Learning on Euroopa IT sertifitseerimisprogramm, mis käsitleb DeepMindi lähenemist tehisintellekti õppimise tugevdamisele.
EITC/AI/ARL Advanced Reinforcement Learning õppekava keskendub tugevdava õppe tehnikate teoreetilistele aspektidele ja praktilistele oskustele DeepMindi vaatenurgast, mis on korraldatud järgmises struktuuris, hõlmates põhjalikku didaktilist videosisu selle EITC sertifikaadi viitena.
Tugevdusõpe (RL) on masinõppe valdkond, mis on seotud sellega, kuidas intelligentsed agendid peaksid keskkonnas tegutsema, et maksimeerida kumulatiivse tasu mõistet. Tugevdusõpe on üks kolmest põhilisest masinõppe paradigmast kõrvuti juhendatava ja järelevalveta õppimisega.
Tugevdusõpe erineb juhendatavast õppest selles, et ei pea esitama märgistatud sisendi/väljundi paare ja selgesõnaliselt parandama ei vaja optimaalsemaid toiminguid. Selle asemel keskendutakse tasakaalu leidmisele (kaardistamata territooriumi) ja ekspluateerimise (praeguste teadmiste) vahel.
Keskkond on tavaliselt märgitud Markovi otsustusprotsessi (MDP) vormis, sest paljud selle konteksti tugevdavad õppimisalgoritmid kasutavad dünaamilisi programmeerimistehnikaid. Peamine erinevus klassikaliste dünaamiliste programmeerimismeetodite ja tugevdava õppimise algoritmide vahel on see, et viimased ei eelda teadmisi MDP täpse matemaatilise mudeli kohta ja nad on suunatud suurtele MDP-dele, kus täpsed meetodid muutuvad teostamatuks.
Tänu oma üldisusele õpitakse tugevdavat õppimist paljudel erialadel, nagu mänguteooria, juhtimisteooria, operatsiooniuuringud, teabeteooria, simulatsioonipõhine optimeerimine, mitme agendi süsteemid, sülemite intelligentsus ja statistika. Operatsioonide uurimis- ja kontrollikirjanduses nimetatakse tugevdamise õppimist ligikaudseks dünaamiliseks programmeerimiseks või neurodünaamiliseks programmeerimiseks. Tugevdusõppes huvipakkuvaid probleeme on uuritud ka optimaalse kontrolli teoorias, mis käsitleb peamiselt optimaalsete lahenduste olemasolu ja iseloomustamist ning nende täpse arvutamise algoritme ja vähem õppimist või lähendamist, eriti kui puudub keskkonna matemaatiline mudel. Majanduses ja mänguteoorias võib tugevdava õppimise abil selgitada, kuidas tasakaalustatud ratsionaalsuse korral tasakaal võib tekkida.
Põhitugevus modelleeritakse Markovi otsustusprotsessina (MDP). Matemaatikas on Markovi otsustusprotsess (MDP) diskreetse aja stohhastiline juhtimisprotsess. See annab matemaatilise raamistiku otsuste langetamiseks olukordades, kus tulemused on osaliselt juhuslikud ja osaliselt otsustaja kontrolli all. MDP-d on kasulikud dünaamilise programmeerimise abil lahendatud optimeerimisprobleemide uurimiseks. MDP-d olid teada vähemalt juba 1950ndatel. Markovi otsustusprotsesside uurimistöö põhiosa tulenes Ronald Howardi 1960. aasta raamatust „Dünaamiline programmeerimine ja Markovi protsessid“. Neid kasutatakse paljudel erialadel, sealhulgas robootika, automaatjuhtimine, majandus ja tootmine. MDP-de nimi pärineb vene matemaatikult Andrei Markovilt, kuna need on Markovi ahelate jätk.
Igal etapil on protsess mõnes olekus S ja otsustaja võib valida mis tahes toimingu a, mis on saadaval olekus S. Protsess reageerib järgmisel etapil juhuslikult uude olekusse S 'liikudes ja andes otsustajale vastav tasu Ra (S, S ').
Tõenäosust, et protsess liigub uude olekusse S ', mõjutab valitud toiming a. Täpsemalt annab selle oleku siirdefunktsioon Pa (S, S '). Seega sõltub järgmine olek S 'hetkeseisust S ja otsustaja tegevusest a. Kuid arvestades S ja a, on see tinglikult sõltumatu kõigist varasematest olekutest ja toimingutest. Teisisõnu, MDP oleku üleminekud rahuldavad Markovi omadust.
Markovi otsustusprotsessid on Markovi ahelate pikendus; erinevus seisneb tegevuste (valiku lubamine) ja hüvede (motivatsiooni andmine) lisamises. Ja vastupidi, kui iga riigi jaoks on olemas ainult üks toiming (nt „ootamine“) ja kõik hüved on ühesugused (nt „null“), taandub Markovi otsustusprotsess Markovi ahelaks.
Tugevdav õppeaine suhtleb oma keskkonnaga diskreetsete aja sammude kaupa. Igal ajahetkel t saab agent hetkeseisundi S (t) ja preemia r (t). Seejärel valib ta saadaolevate toimingute hulgast toimingu a (t), mis seejärel keskkonnale saadetakse. Keskkond liigub uude olekusse S (t + 1) ja määratakse üleminekuga seotud tasu r (t + 1). Tugevdava õppeagendi eesmärk on õppida poliitikat, mis maksimeerib oodatava kumulatiivse tasu.
MDP sõnastamisel eeldatakse, et agent jälgib otseselt praegust keskkonnaseisundit. Sel juhul öeldakse, et probleem on täielikult jälgitav. Kui agendil on juurdepääs ainult olekute alamhulgale või kui täheldatud olekud on müra poolt rikutud, öeldakse, et agendil on osaline jälgitavus ja ametlikult tuleb probleem sõnastada osaliselt jälgitava Markovi otsustusprotsessina. Mõlemal juhul saab agendi käsutuses olevate toimingute kogumit piirata. Näiteks võib konto saldo olekut piirata positiivseks; kui oleku praegune väärtus on 3 ja oleku üleminek üritab väärtust 4 võrra vähendada, pole üleminek lubatud.
Kui agendi jõudlust võrreldakse optimaalselt toimiva agendiga, tekitab tulemuslikkuse erinevus kahetsuse mõiste. Optimaalse läheduse nimel tegutsemiseks peab agent mõtlema oma tegevuse pikaajaliste tagajärgede üle (st maksimeerima tulevasi sissetulekuid), kuigi sellega seotud vahetu tasu võib olla negatiivne.
Seega sobib täiendõpe eriti hästi probleemide lahendamiseks, mis hõlmavad pikaajalise ja lühiajalise tasuvuse kompromissi. Seda on edukalt rakendatud mitmesuguste probleemide jaoks, sealhulgas robotite juhtimine, lifti planeerimine, telekommunikatsioon, backgammon, kabe ja Go (AlphaGo).
Kaks elementi muudavad tugevdamise õppimise võimsaks: proovide kasutamine jõudluse optimeerimiseks ja funktsioonide lähendamise kasutamine suurte keskkondadega toimetulekuks. Tänu neile kahele põhikomponendile saab tugevdusõpet kasutada suures keskkonnas järgmistes olukordades:
- Keskkonna mudel on teada, kuid analüütiline lahendus pole saadaval.
- Esitatakse ainult keskkonna simulatsioonimudel (simulatsioonipõhise optimeerimise teema).
- Ainus viis keskkonna kohta teabe kogumiseks on keskkonnaga suhtlemine.
Neist kahest esimesest probleemist võiks lugeda planeerimisprobleeme (kuna on olemas mingisugune mudel), viimast aga tõeliseks õppeprobleemiks. Tugevdusõpe muudab aga mõlemad planeerimisprobleemid masinõppe probleemideks.
Uurimise ja ekspluateerimise kompromissi on põhjalikumalt uuritud mitme relvastatud bandiitide probleemi ja piiratud olekuruumi MDP-de kaudu Burnetases ja Katehakises (1997).
Tugevdusõpe nõuab nutikaid uurimismehhanisme; juhuslikult valitud toimingud, viidamata hinnangulisele tõenäosuse jaotusele, näitavad halba tulemust. (Väikeste) piiratud Markovi otsustusprotsesside juhtum on suhteliselt hästi mõistetav. Kuid algoritmide puudumise tõttu, mis oleksid hästi skaleeritavad olekute arvuga (või ulatuksid lõpmatute olekuruumidega seotud probleemideks), on kõige otstarbekamad lihtsad uurimismeetodid.
Isegi kui uurimisküsimust ei arvestata ja isegi kui riik oli jälgitav, jääb probleemiks varasemate kogemuste kasutamine, et teada saada, millised tegevused toovad kaasa suurema kumulatiivse kasu.
Sertifitseerimisõppekavaga põhjalikumalt tutvumiseks saate allolevat tabelit laiendada ja analüüsida.
EITC/AI/ARL Advanced Reforcement Learning Certification Curriculum viitab videovormingus avatud juurdepääsuga didaktilistele materjalidele. Õppeprotsess on jagatud samm-sammult struktuuriks (programmid -> tunnid -> teemad), mis hõlmab vastavaid õppekavaosi. Pakutakse ka piiramatut nõustamist domeeniekspertidega.
Sertifitseerimisprotseduuri üksikasjad leiate Mugav tellimus.
Õppekava viited
Inimtaseme kontroll läbi Deep Reinforcement Learning väljaande
https://deepmind.com/research/publications/human-level-control-through-deep-reinforcement-learning
Avatud juurdepääsuga kursus süvendatud tugevdamise õppimiseks UC Berkeleys
http://rail.eecs.berkeley.edu/deeprlcourse/
RL rakendati K-varraste bandiitide probleemile lehelt Manifold.ai
https://www.manifold.ai/exploration-vs-exploitation-in-reinforcement-learning
Laadige alla täielikud võrguühenduseta iseõppimise ettevalmistavad materjalid EITC/AI/ARL Advanced Reforcement Learning programmi jaoks PDF-failina
EITC/AI/ARL ettevalmistusmaterjalid – standardversioon
EITC/AI/ARL ettevalmistavad materjalid – laiendatud versioon ülevaateküsimustega