319 aflæsninger
319 aflæsninger

Hvordan forskere forvandlede verdens problemer til spil med forstærkningslæring

ved Our AI8m2025/06/04
Read on Terminal Reader

For langt; At læse

Reinforcement Learning er en simpel idé, der har haft en uigennemtrængelig indvirkning på teknologi og tænkning.
featured image - Hvordan forskere forvandlede verdens problemer til spil med forstærkningslæring
Our AI HackerNoon profile picture
0-item

Har du nogensinde undret dig over, hvordan cirkusledere får bjørne til at balancere en bold, eller en tiger til at hoppe gennem flaming hoops? Svaret: forstærkning. Tigre normalt ikke hoppe gennem flaming hoops, men de vil, hvis du giver dem et velsmagende stykke kød hver gang det gør. Til sidst lærer en tiger, at for at få maden, det skal udføre de dristige spring, og så gør det dygtigt og konsekvent. Mennesker lærer på lignende måder: vi lærer at spise sund mad, motion, og studere hårdt for at tjene noget positivt, om det er et udbrud af dopamin, penge, og succes. Dette fænomen, hvor et menneske (eller næsten ethvert andet dyr) øger en specifik adfærd efter at de er belønnet på en ellerPapirer fra 1990'erneDet blev beskrevet i detaljer, hvordan “Q Learning” kunne bidrage til at gøre algoritmer tilpasningsdygtige til et komplekst miljø, men det var ikke før2013 Landmark forskningspapirDet er ikke en overdrivelse at sige, at i løbet af et årti, Reinforcement Learning, eller RL for kort, har ændret verden, og det vil fortsætte med at gøre det i ganske lang tid.

Papirer fra 1990'erne2013 Landmark forskningspapir

Wisdom Comes from Within

1938 - B.F. Skinner, adfærdsmæssig psykologSkabte udtrykket”operativ betingelse” for at beskrive, hvordan organismer kan øge deres tilbøjelighed til at udføre visse frivillige handlinger ved hjælp af en proces kaldetForstærkningHan fandt ud af, at hvis en handling (såsom i hans tilfælde en mus, der skubber en løftestang) blev forstærket af noget positivt (han brugte mad og vand), var det sandsynligt at blive gentaget igen.Straffetaf noget skadeligt (smerten ved at brænde), det varMindreSå simpelt som denne proces er, ville menneskeheden som vi ved det ikke være det samme uden det. Forestil dig verden, hvis alle små børn havde svært ved at lære, at du ikke skal gøre de ting, der altid fører dig til at skade dig selv!

Skabte udtrykket

Det var denne enkle sandhed, der førte Christopher Watkins til at udvikle sin1989 Ph.D. afhandlingHvis mennesker og dyr kunne lære ved hjælp af forstærkning, hvorfor ikke maskiner?Q LæringHan foreslog, at i ethvert miljø er målet for en Q Learning-agent at udvikle enPolitikenVed at korrelereAction-state parFor at forstå dette, tag eksemplet på et videospil, hvor man skal passere flere porte, med hver port låst af adgangskoden til et enkelt tilfældigt tal.aktion, eller den adfærd, som agenten udfører, ville være det tal, som agenten gætter ved hver port, ogStaten, eller miljøet omkring agenten, ville være porten, hvor agenten er.BelønningEn belønning kan være en stor (måske for at færdiggøre et niveau) eller en lille (for at færdiggøre en enkelt gate).Statslige par, eller en specifik situation, hvor en handling er forbundet med en tilstand, derefter udføre en simpel maksimering algoritme for at foretrække de memoriserede state-action par, der førte til en høj belønning.

1989 Ph.D. afhandling

Så ville et muligt state-action-par være at vælge "4" ved den anden gate. En anden ville være at vælge "6" ved den anden gate, selvom dette valg sandsynligvis vil føre til en meget lavere belønning, da det er det forkerte tal for den anden gate. Lad os sige, at belønningen for at passere den 6. gate er 1, og at hver ekstra gate passeret (ikke inkluderet den 6. en) giver en belønning på 0.2. En tidlig Q Learning agent ville sandsynligvis have prøvet tallene 1-9 ved den første gate, den anden gate, og så videre. Det ville gøre det, indtil det prøvede alle mulige resultater af statsværdipar og modtog alle belønningerne for hver kombination af disse par. Det ville derefter afgøre for den serie af tal, der fører til den højeste belønning, som, som vi kan sige,Q VærdierVed at lære at maksimere Q-værdien, har Watkins hypotetiseret, at modeller vil være i stand til at træffe optimale beslutninger i et ikke-probabilistisk miljø.

DeepMind Steps In

I 2013 offentliggjorde forskere på AI-forskningslaboratoriet DeepMind, hvad der ville blive enlandmark paperDeres papir markerer indførelsen af en af de vigtigste typer af, hvad der ville blive kendt som Reinforcement Learning (RL) modeller:Deep-Q netværkForskerne anerkendte evnen til at bruge Q Learning til at træne agenter, men bemærkede, at Watkins' system havde nogle problemer.AlleMulige state-action-par ville ikke fungere i komplekse spil med millioner af kombinationer af beslutninger. For det andet ville enkle maksimeringsfunktioner ikke fungere, da mere komplekse spil har tendens til at haveLokalt maksimeretLad os sige, at en labyrintspils belønning er defineret af den længde, som en spiller krydser i alt mod målet.Hvis det første Q Value-par, som Watkins RL-agent opdager, er en død ende, vil det fortsætte med at besøge den døde ende, da det ikke ved bedre.

Landmark papir

DeepMind-teamet løste begge problemer på en klog måde.For at mindske de beregningsmæssige omkostninger ved at køre gennem alle muligheder, introducerede deaf Epsilon-GreedyDenne metode, opkaldt efter den græske bogstav epsilon (Ɛ), balancerer WatkinsGrådig politikaltid gå efter den højeste kendte belønning med enUdforskningspolitikIdeen er, at agenten i hver tilstand vil have en Ɛ chance for at udforske (vælg en af handlingerne tilfældigt) og en 1 - Ɛ chance for at følge den maksimale Q-værdi som dikteret af den grådige politik. Hvis du ikke er i formelle forklaringer, betyder det grundlæggende, at modellen vil have en fast sandsynlighed for at prøve nye handlinger fra tid til anden, en nyttig adfærd, der vil spare en masse tid ved at fokusere på maksimering (så mindre værdifulde state-action-par kan overses), samtidig med at der er fleksibilitet i beslutningstagningen (så agenten ikke bliver fanget på lokale maxima).

Hvis agenten for eksempel stadig er i færd med at afslutte et spil, hvordan vil han vide, at visse handlinger direkte vil føre til et bedre resultat?Fordiaf din klapping. vel, agenten skalForudsigelseDeepMind introducerede en ny måde på, hvad de kalder "brud på korrelationen" mellem statslige handlinger parret medQ netværkQ-netværket er i det væsentlige en kompakt Machine Learning-model inde i den komplette DQN. Q-netværkets eneste opgave er at lære af agentens erfaringer, og i betragtning af en stat,ForudsigelseTilbage til vores eksempel med porte og adgangskoder, vil et veluddannet Q-netværk udstede en højere forudset Q-værdi for handlingen med at gætte det korrekte antal ved hver gate, i stedet for at gætte et forkert nummer.Oplevelsen gentager sigNetværket er i stand til at blive trænet på en batch af data, som agenten modtager fra miljøet, og er således i stand til at justere sine vægte for bedre at forudsige Q-værdier og dermed være mere effektiv i den "rådgivning" det giver agenten.

All the World’s a Game…

Reinforcement Learning i sin reneste form har haft mange fremskridt. DeepMind, efter dets opkøb af Google i 2014, fortsatte med at udvikleAlphaZero, en af de mest berømte RL modeller af alle tider. Trænet ved hjælp af en sandsynlighedsfordeling model forbedret afMonte Carlo træ søgningAlphaZero-teamet generaliserede med succes varianter af den oprindelige AlphaZero-model til forskellige andre komplekse opgaver, herunder:

AlphaZeroMonte Carlo træ søgning


  • AlphaGo, som chokerede verden ved at besejre verdens regerende Go-mester, Lee Sedol, i det, der blev anset for at være et af de mest komplekse brætspil, der nogensinde blev lavet.
  • AlphaProof, en variant dedikeret til at løse Olympiad matematikproblemer ved at operere på LEAN-formaliserede beviser, opnåede en sølv i simuleret International Math Olympiad (IMO) benchmarking tests.
  • AlphaFold, som vandt sit udviklingsteam en Nobelpris i biologi i 2024, opnåede gennembrud i protein foldning, en af de mest komplicerede aspekter af molekylærbiologi.

Konceptet med forstærket læring har meget at lære os om livet: Find ud af, hvad ting har den højeste værdi, og søg at opnå den værdi gennem handlinger. Hvis noget ikke går din vej, så prøv noget andet, indtil det virker. Mennesker ofte overser subtletierne i de systemer, vi designer, og det er derfor jeg elsker forstærket læring så meget. For noget så simpelt og strålende, er dets potentiale begrænset af (ironisk) menneskehedens natur. En af de vigtigste dele af RL-processen, nemlig belønningsfunktionen, er sat af mennesker. Når vi ser tilbage på AlphaZero-holdets resultater, er det indlysende, at vi er den begrænsende faktor i, hvad der kan gøres ved hjælp af RL. Det syntes, at da AlphaZ

Og det er, hvad verdens førende forskere gør. Nå, slags. Da jeg først lærte om RL i sommeren 2024, havde teknologien ikke haft et stort gennembrud siden triumferne af AlphaZero-teamet i 2017. Alle talte om ChatGPT, det syntes, såvel som de nye Transformers, der havde domineret teknologisk diskussion i et halvt år. Jeg tænkte vildt over, hvor cool RL var, og så glemte jeg det. Det vil sige, indtil OpenAI havde ideen om at kombinere Transformer arkitektur med Reinforcement Learning, skabelsen af en uren hybrid, jeg kan lide at kalde RL-LLMs, eller Reinforcement Learning-Large Language Models, for enkelhed. Det virkede som en no-brainer: styrket af et paradigme kaldet Reinforcement LearningArbejdstagernes udbytningsproblemi AI-branchen, noget, som vi har dækket før og forsvarer imod.

Arbejdstagernes udbytningsproblem


Denne artikel er bragt til dig af Vores AI, en studerende-baseret og studerende-ledet AI Ethics organisation, der søger at diversificere perspektiver i AI ud over, hvad der typisk diskuteres i moderne medier.

Denne artikel er bragt til dig af Vores AI, en studerende-baseret og studerende-ledet AI Ethics organisation, der søger at diversificere perspektiver i AI ud over, hvad der typisk diskuteres i moderne medier.https://www.our-ai.org/ai-nexus/read!

Learn More

Når det er sagt, har RL en lang vej at gå, før det når sit maksimale potentiale.Kæden af tanke (CoT)Mange traditionelle RL-modeller skal træne for millioner af iterationer før konvergens, hvilket hurtigt øger omkostningerne, hvis det tilknyttede miljø er stort eller alt for komplekst, ligesom det er tilfældet for generalisering af løsninger på komplekse problemer skrevet på naturligt sprog. Til dette formål kan fremtidige RL-modeller stole på LLM'er (eller endda RL-LLM'er) for at "gamify" problemer, ligesom AlphaZero-holdet gjorde for AlphaProof, konvertere de ligninger, det stødte på, til det formelle bevisformat LEAN, så de kan løses.Kunstig generel intelligens (AGI)Igen kan RL løse verdens mest komplekse problemer ... hvis vi kan finde ud af, hvordan man hurtigt kan gøre dem til spil.

Kæden af tanke (CoT)Kunstig generel intelligens (AGI)

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks