319 показания
319 показания

Как учените превърнаха проблемите на света в игри с укрепване на ученето

от Our AI8m2025/06/04
Read on Terminal Reader

Твърде дълго; Чета

Укрепването на ученето е проста идея, която има неотменимо въздействие върху технологиите и мисленето.
featured image - Как учените превърнаха проблемите на света в игри с укрепване на ученето
Our AI HackerNoon profile picture
0-item

Чудили ли сте се някога как мениджърите на цирковете получават мечки, за да балансират топката, или тигър, за да скочат през пламъците? Отговорът: подсилване. Тигрите обикновено не скачат през пламъците, но те ще го направят, ако им давате вкусно парче месо всеки път, когато го правите. В крайна сметка, тигърът научава, че за да получи храната, той трябва да направи смелите скокове и така го прави умело и последователно. Хората се учат по подобен начин: ние се научаваме да ядем здравословна храна, да се упражняваме и да учим усилено, за да печелим нещо положително, независимо дали това е пробив на допамин, пари и успех. Този феномен, при който човек (или почти всяко друго живоДокументи от 90-те годиниподробно как "Q Learning" може да помогне за приспособяването на алгоритмите към сложна среда, но това не беше до2013 Изследователски докладНе е преувеличение да се каже, че в продължение на десетилетие Reinforcement Learning, или RL накратко, е променила света и ще продължи да го прави за известно време.

Документи от 90-те години2013 Изследователски доклад

Wisdom Comes from Within

1938 г. – Поведенческият психолог Б. Ф. СкинърИзмислете термина„оперативно усъвършенстване“, за да се опише как организмите могат да увеличат склонността си да извършват определени доброволни действия, като използват процес, нареченукрепванеТой открил, че ако едно действие (като, в неговия случай, мишката натискане на лост) е засилено от нещо положително (тя използва храна и вода), то е вероятно да се повтори отново.Наказаниот нещо вредно (болката от изгаряне), то е билопо-малкоКолкото и прост да е този процес, човечеството, както го знаем, няма да е същото без него.Представете си света, ако всички малки деца имат трудности да научат, че не трябва да правите нещата, които винаги ви карат да се наранявате!

Измислете термина

Именно тази проста истина е довела Кристофър Уоткинс да развие1989 Ph.D. ДисертацияАко хората и животните могат да се учат чрез укрепване, защо машините не могат?Q Обучениепроцес, чрез който агентът се учи чрез взаимодействия с ограничена среда.Той предложи, че във всяка среда целта на агент Q Learning е да развиеПолитикачрез корелацияДържавни двойкиЗа да разберете това, вземете примера на видео игра, където човек трябва да мине през няколко порта, като всеки портал е заключен с паролата на една случайна цифра.действие, или поведението, което агентът изпълнява, би било числото, което агентът гадае на всяка врата, идържавата, или околната среда, която заобикаля агента, ще бъде вратата, на която се намира агентът.НаградаНаградата може да бъде голяма (може би за завършване на ниво) или малка (за завършване на една врата).Държавна двойка, или конкретна ситуация, в която едно действие е свързано със състояние, след това изпълнете прост алгоритъм за максимизиране, за да предпочетете запаметените двойки държавни действия, които доведоха до висока награда.

1989 Ph.D. Дисертация

След това една възможна двойка държавни действия би била да се избере "4" на втората врата. Друг би бил да се избере "6" на втората врата, въпреки че този избор вероятно ще доведе до много по-ниска награда, тъй като това е грешната цифра за втората врата. Да кажем, че наградата за преминаване на шестата врата е 1, и че всяка допълнителна врата, преминала (без да се включва шестата), дава награда от 0.2. Ранният агент Q Learning вероятно би опитал цифрите 1-9 на първата врата, втората врата и т.н. Това би направило, докато не опита всички възможни резултати от държавните стойностни двойки и получи всички награди за всяка комбинация от тези двойки. Тогава ще се определи за поредицата от цифри, водещи до най-високата награда, която, кактоQ Стойности, предложена променлива, която ще обозначава възнаграждението, което произтича от конкретна двойка действие-стойност.Чрез научаване как да се максимизира стойността Q, Уоткинс хипотезира, моделите ще могат да вземат оптимални решения в среда, която не е вероятност.

DeepMind Steps In

През 2013 г. изследователи от изследователската лаборатория за изкуствен интелект DeepMind публикуваха това, което ще станеЛандмарк хартияТехният труд бележи въвеждането на един от най-важните видове модели на това, което ще стане известно като Reinforcement Learning (RL):Deep-Q мрежаИзследователите признаха възможността за използване на Q Learning за обучение на агенти, но отбелязаха, че системата на Уоткинс имаше няколко проблема.всичкиВъзможните двойки държавни действия няма да работят в сложни игри с милиони комбинации от решения.На второ място, прости функции за максимизиране няма да работят, тъй като по-сложните игри са склонни да иматМаксимално локалноДа предположим, че възнаграждението на лабиринтната игра се определя от дължината, която играчът пресича общо към целта.Ако първата двойка Q Value, която RL агентът на Уоткин открие, е мъртъв край, той ще продължи да посещава този мъртъв край, тъй като не знае по-добре.

Ландмарк хартия

Екипът на DeepMind реши и двата проблема по умен начин.За да се намалят изчислителните разходи за изпълнение на всички опции, те въведохаЕпсилон ГрейдиТози метод, наречен след гръцката буква epsilon (Ɛ), балансираГлупава политикавинаги след най-високата известна награда сИзследователска политикаИдеята е, че във всяко състояние агентът ще има Ɛ шанс да проучи (изберете едно от действията случайно) и 1 - Ɛ шанс да следвате максималната Q стойност, както се диктува от алчната политика.Ако не сте във формални обяснения, това основно означава, че моделът ще има определена вероятност да опита нови действия от време на време, полезно поведение, което ще спести много време, като се съсредоточи върху максимизирането (така че по-малко ценните двойки държавни действия могат да бъдат пропуснати), като същевременно позволява гъвкавост в вземането на решения (така че агентът да не се задържа в местните максими).

Ако агентът все още е в процес на завършване на игра, например, как ще знае, че определени действия директно ще доведат до по-добър резултат?ЗащотоЗа да се отървем от него, агентът трябва даПредсказаниеDeepMind въвежда нов начин за това, което те наричат „разкъсване на корелацията“ между държавните действия сМрежата QМрежата Q е по същество компактен модел на машинно обучение в рамките на пълния DQN. Единствената задача на мрежата Q е да се учи от опита на агента и, като се има предвид състоянието,ПредсказаниеВръщайки се към нашия пример с порти и пароли, добре обучена мрежа Q ще произведе по-висока предсказана стойност Q за действието на отгатване на правилното число на всяка порта, вместо да отгатне неправилно число.Опитът се повтаря, мрежата е в състояние да бъде обучена по партида данни, които агентът получава от околната среда, и по този начин е в състояние да коригира своите тежести, за да предскаже по-добре Q стойности и по този начин да бъде по-ефективен в "съветите" той дава на агента.

All the World’s a Game…

Reinforcement Learning в най-чистата си форма има много напредъци. DeepMind, след придобиването му от Google през 2014 г., продължи да развиваАлфаЗеро, един от най-известните RL модели на всички времена. Обучени с помощта на модел за разпределение на вероятностите, подобрен отMonte Carlo Tree ТърсенеАлгоритъмът (MCTS), екипът на AlphaZero успешно генерализира варианти на оригиналния модел на AlphaZero за различни други сложни задачи, включително:

АлфаЗероMonte Carlo Tree Търсене


  • AlphaGo, която шокира света, като решително победи господстващия световен шампион на Go, Лий Седол, в това, което се смяташе за една от най-сложните настолни игри, създадени някога.
  • AlphaProof, вариант, посветен на решаването на математически проблеми на Олимпиадата, като работи по LEAN-формализирани доказателства, постигна сребърен в симулирани Международни математически олимпиади (IMO) бенчмаркинг тестове.
  • AlphaFold, който спечели Нобелова награда за биология през 2024 г., постигна пробиви в протеиновото сгъване, един от най-сложните аспекти на молекулярната биология.

Концепцията за укрепване на ученето има много да ни научи за живота: да разберем кои неща имат най-висока стойност и да се опитаме да постигнем тази стойност чрез действия. Ако нещо не върви по вашия начин, опитайте нещо друго, докато не работи. Често хората пренебрегват тънкостите на самите системи, които проектираме, и затова обичам укрепването на ученето толкова много. За нещо толкова просто и блестящо, потенциалът му е ограничен от (иронично) природата на човечеството. Една от най-важните части на процеса на RL, а именно функцията за възнаграждение, е зададена от хората. Като погледнем назад към постиженията на екипа на AlphaZero, очевидно е, че ние сме ограничаващият фактор в това, което може да се направи с

И това е, което върховните изследователи в света правят. Е, нещо подобно. Когато за пръв път научих за RL през лятото на 2024 г., технологията не е имала голям пробив от триумфите на екипа на AlphaZero през 2017 г. Всеки говори за ChatGPT, изглежда, както и новите Transformers, които доминират в технологичната дискусия в продължение на половин година. Мислех за това колко е хладно RL, а след това забравих за него. Това е, докато OpenAI не е имал идеята да комбинира архитектурата на Transformers с Reinforcement Learning, създавайки нечист хибрид, който обичам да наричам RL-LLMs, или Reinforcement Learning-Large Language Models, за простота. Изглеждаше като безсмислено: подсилен отПроблемът с експлоатацията на работницитев индустрията на AI, нещо, което ние сме покрили преди и се противопоставяме.

Проблемът с експлоатацията на работниците


Тази статия е донесена до вас от Нашата AI, студент-основана и студент-председател AI етика организация, която се стреми да разнообрази перспективите в AI отвъд това, което обикновено се обсъжда в съвременните медии.

Тази статия е донесена до вас от Нашата AI, студент-основана и студент-председател AI етика организация, която се стреми да разнообрази перспективите в AI отвъд това, което обикновено се обсъжда в съвременните медии.https://www.our-ai.org/ai-nexus/read!

Learn More

Тъй като това е казано, RL има дълъг път, преди да достигне максималния си потенциал.Верига на мисълта (CoT)Много традиционни RL модели трябва да се обучават за милиони итерации преди конвергенция, бързо нарастващи разходи, ако свързаната среда е голяма или прекалено сложна, както е случаят за генерализиране на решения на сложни проблеми, написани на естествен език. За тази цел бъдещите RL модели могат да разчитат на LLMs (или дори RL-LLMs) да „играят“ проблеми, точно както екипът на AlphaZero направи за AlphaProof, превръщайки уравненията, с които се сблъска в официалния формат на доказателство LEAN, така че те да могат да бъдат решени.Изкуствен общ интелект (AGI)Отново, RL може да реши най-сложните проблеми в света ... ако можем да разберем как бързо да ги превърнем в игри.

Верига на мисълта (CoT)Изкуствен общ интелект (AGI)
L O A D I N G
. . . comments & more!

About Author

Our AI HackerNoon profile picture
Our AI@OurAI
Student-led AI Ethics organization publishing high-effort articles about AI's impact on the world. Check us out at https://www.our-ai.org/ !

ЗАКАЧВАЙТЕ ЕТИКЕТИ

ТАЗИ СТАТИЯ Е ПРЕДСТАВЕНА В...

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks