Har du nogensinde undret dig over, hvordan cirkusledere får bjørne til at balancere en bold, eller en tiger til at hoppe gennem flaming hoops? Svaret: forstærkning. Tigre normalt ikke hoppe gennem flaming hoops, men de vil, hvis du giver dem et velsmagende stykke kød hver gang det gør. Til sidst lærer en tiger, at for at få maden, det skal udføre de dristige spring, og så gør det dygtigt og konsekvent. Mennesker lærer på lignende måder: vi lærer at spise sund mad, motion, og studere hårdt for at tjene noget positivt, om det er et udbrud af dopamin, penge, og succes. Dette fænomen, hvor et menneske (eller næsten ethvert andet dyr) øger en specifik adfærd efter at de er belønnet på en eller
Wisdom Comes from Within
1938 - B.F. Skinner, adfærdsmæssig psykolog
Det var denne enkle sandhed, der førte Christopher Watkins til at udvikle sin
Så ville et muligt state-action-par være at vælge "4" ved den anden gate. En anden ville være at vælge "6" ved den anden gate, selvom dette valg sandsynligvis vil føre til en meget lavere belønning, da det er det forkerte tal for den anden gate. Lad os sige, at belønningen for at passere den 6. gate er 1, og at hver ekstra gate passeret (ikke inkluderet den 6. en) giver en belønning på 0.2. En tidlig Q Learning agent ville sandsynligvis have prøvet tallene 1-9 ved den første gate, den anden gate, og så videre. Det ville gøre det, indtil det prøvede alle mulige resultater af statsværdipar og modtog alle belønningerne for hver kombination af disse par. Det ville derefter afgøre for den serie af tal, der fører til den højeste belønning, som, som vi kan sige,Q VærdierVed at lære at maksimere Q-værdien, har Watkins hypotetiseret, at modeller vil være i stand til at træffe optimale beslutninger i et ikke-probabilistisk miljø.
DeepMind Steps In
I 2013 offentliggjorde forskere på AI-forskningslaboratoriet DeepMind, hvad der ville blive en
DeepMind-teamet løste begge problemer på en klog måde.For at mindske de beregningsmæssige omkostninger ved at køre gennem alle muligheder, introducerede deaf Epsilon-GreedyDenne metode, opkaldt efter den græske bogstav epsilon (Ɛ), balancerer WatkinsGrådig politikaltid gå efter den højeste kendte belønning med enUdforskningspolitikIdeen er, at agenten i hver tilstand vil have en Ɛ chance for at udforske (vælg en af handlingerne tilfældigt) og en 1 - Ɛ chance for at følge den maksimale Q-værdi som dikteret af den grådige politik. Hvis du ikke er i formelle forklaringer, betyder det grundlæggende, at modellen vil have en fast sandsynlighed for at prøve nye handlinger fra tid til anden, en nyttig adfærd, der vil spare en masse tid ved at fokusere på maksimering (så mindre værdifulde state-action-par kan overses), samtidig med at der er fleksibilitet i beslutningstagningen (så agenten ikke bliver fanget på lokale maxima).
Hvis agenten for eksempel stadig er i færd med at afslutte et spil, hvordan vil han vide, at visse handlinger direkte vil føre til et bedre resultat?Fordiaf din klapping. vel, agenten skalForudsigelseDeepMind introducerede en ny måde på, hvad de kalder "brud på korrelationen" mellem statslige handlinger parret medQ netværkQ-netværket er i det væsentlige en kompakt Machine Learning-model inde i den komplette DQN. Q-netværkets eneste opgave er at lære af agentens erfaringer, og i betragtning af en stat,ForudsigelseTilbage til vores eksempel med porte og adgangskoder, vil et veluddannet Q-netværk udstede en højere forudset Q-værdi for handlingen med at gætte det korrekte antal ved hver gate, i stedet for at gætte et forkert nummer.Oplevelsen gentager sigNetværket er i stand til at blive trænet på en batch af data, som agenten modtager fra miljøet, og er således i stand til at justere sine vægte for bedre at forudsige Q-værdier og dermed være mere effektiv i den "rådgivning" det giver agenten.
All the World’s a Game…
Reinforcement Learning i sin reneste form har haft mange fremskridt. DeepMind, efter dets opkøb af Google i 2014, fortsatte med at udvikle
- AlphaGo, som chokerede verden ved at besejre verdens regerende Go-mester, Lee Sedol, i det, der blev anset for at være et af de mest komplekse brætspil, der nogensinde blev lavet.
- AlphaProof, en variant dedikeret til at løse Olympiad matematikproblemer ved at operere på LEAN-formaliserede beviser, opnåede en sølv i simuleret International Math Olympiad (IMO) benchmarking tests.
- AlphaFold, som vandt sit udviklingsteam en Nobelpris i biologi i 2024, opnåede gennembrud i protein foldning, en af de mest komplicerede aspekter af molekylærbiologi.
Konceptet med forstærket læring har meget at lære os om livet: Find ud af, hvad ting har den højeste værdi, og søg at opnå den værdi gennem handlinger. Hvis noget ikke går din vej, så prøv noget andet, indtil det virker. Mennesker ofte overser subtletierne i de systemer, vi designer, og det er derfor jeg elsker forstærket læring så meget. For noget så simpelt og strålende, er dets potentiale begrænset af (ironisk) menneskehedens natur. En af de vigtigste dele af RL-processen, nemlig belønningsfunktionen, er sat af mennesker. Når vi ser tilbage på AlphaZero-holdets resultater, er det indlysende, at vi er den begrænsende faktor i, hvad der kan gøres ved hjælp af RL. Det syntes, at da AlphaZ
Og det er, hvad verdens førende forskere gør. Nå, slags. Da jeg først lærte om RL i sommeren 2024, havde teknologien ikke haft et stort gennembrud siden triumferne af AlphaZero-teamet i 2017. Alle talte om ChatGPT, det syntes, såvel som de nye Transformers, der havde domineret teknologisk diskussion i et halvt år. Jeg tænkte vildt over, hvor cool RL var, og så glemte jeg det. Det vil sige, indtil OpenAI havde ideen om at kombinere Transformer arkitektur med Reinforcement Learning, skabelsen af en uren hybrid, jeg kan lide at kalde RL-LLMs, eller Reinforcement Learning-Large Language Models, for enkelhed. Det virkede som en no-brainer: styrket af et paradigme kaldet Reinforcement Learning
Denne artikel er bragt til dig af Vores AI, en studerende-baseret og studerende-ledet AI Ethics organisation, der søger at diversificere perspektiver i AI ud over, hvad der typisk diskuteres i moderne medier.
Denne artikel er bragt til dig af Vores AI, en studerende-baseret og studerende-ledet AI Ethics organisation, der søger at diversificere perspektiver i AI ud over, hvad der typisk diskuteres i moderne medier.https://www.our-ai.org/ai-nexus/read!
Learn More
Når det er sagt, har RL en lang vej at gå, før det når sit maksimale potentiale.