Чудили ли сте се някога как мениджърите на цирковете получават мечки, за да балансират топката, или тигър, за да скочат през пламъците? Отговорът: подсилване. Тигрите обикновено не скачат през пламъците, но те ще го направят, ако им давате вкусно парче месо всеки път, когато го правите. В крайна сметка, тигърът научава, че за да получи храната, той трябва да направи смелите скокове и така го прави умело и последователно. Хората се учат по подобен начин: ние се научаваме да ядем здравословна храна, да се упражняваме и да учим усилено, за да печелим нещо положително, независимо дали това е пробив на допамин, пари и успех. Този феномен, при който човек (или почти всяко друго живо
Wisdom Comes from Within
1938 г. – Поведенческият психолог Б. Ф. Скинър
Именно тази проста истина е довела Кристофър Уоткинс да развие
След това една възможна двойка държавни действия би била да се избере "4" на втората врата. Друг би бил да се избере "6" на втората врата, въпреки че този избор вероятно ще доведе до много по-ниска награда, тъй като това е грешната цифра за втората врата. Да кажем, че наградата за преминаване на шестата врата е 1, и че всяка допълнителна врата, преминала (без да се включва шестата), дава награда от 0.2. Ранният агент Q Learning вероятно би опитал цифрите 1-9 на първата врата, втората врата и т.н. Това би направило, докато не опита всички възможни резултати от държавните стойностни двойки и получи всички награди за всяка комбинация от тези двойки. Тогава ще се определи за поредицата от цифри, водещи до най-високата награда, която, кактоQ Стойности, предложена променлива, която ще обозначава възнаграждението, което произтича от конкретна двойка действие-стойност.Чрез научаване как да се максимизира стойността Q, Уоткинс хипотезира, моделите ще могат да вземат оптимални решения в среда, която не е вероятност.
DeepMind Steps In
През 2013 г. изследователи от изследователската лаборатория за изкуствен интелект DeepMind публикуваха това, което ще стане
Екипът на DeepMind реши и двата проблема по умен начин.За да се намалят изчислителните разходи за изпълнение на всички опции, те въведохаЕпсилон ГрейдиТози метод, наречен след гръцката буква epsilon (Ɛ), балансираГлупава политикавинаги след най-високата известна награда сИзследователска политикаИдеята е, че във всяко състояние агентът ще има Ɛ шанс да проучи (изберете едно от действията случайно) и 1 - Ɛ шанс да следвате максималната Q стойност, както се диктува от алчната политика.Ако не сте във формални обяснения, това основно означава, че моделът ще има определена вероятност да опита нови действия от време на време, полезно поведение, което ще спести много време, като се съсредоточи върху максимизирането (така че по-малко ценните двойки държавни действия могат да бъдат пропуснати), като същевременно позволява гъвкавост в вземането на решения (така че агентът да не се задържа в местните максими).
Ако агентът все още е в процес на завършване на игра, например, как ще знае, че определени действия директно ще доведат до по-добър резултат?ЗащотоЗа да се отървем от него, агентът трябва даПредсказаниеDeepMind въвежда нов начин за това, което те наричат „разкъсване на корелацията“ между държавните действия сМрежата QМрежата Q е по същество компактен модел на машинно обучение в рамките на пълния DQN. Единствената задача на мрежата Q е да се учи от опита на агента и, като се има предвид състоянието,ПредсказаниеВръщайки се към нашия пример с порти и пароли, добре обучена мрежа Q ще произведе по-висока предсказана стойност Q за действието на отгатване на правилното число на всяка порта, вместо да отгатне неправилно число.Опитът се повтаря, мрежата е в състояние да бъде обучена по партида данни, които агентът получава от околната среда, и по този начин е в състояние да коригира своите тежести, за да предскаже по-добре Q стойности и по този начин да бъде по-ефективен в "съветите" той дава на агента.
All the World’s a Game…
Reinforcement Learning в най-чистата си форма има много напредъци. DeepMind, след придобиването му от Google през 2014 г., продължи да развива
- AlphaGo, която шокира света, като решително победи господстващия световен шампион на Go, Лий Седол, в това, което се смяташе за една от най-сложните настолни игри, създадени някога.
- AlphaProof, вариант, посветен на решаването на математически проблеми на Олимпиадата, като работи по LEAN-формализирани доказателства, постигна сребърен в симулирани Международни математически олимпиади (IMO) бенчмаркинг тестове.
- AlphaFold, който спечели Нобелова награда за биология през 2024 г., постигна пробиви в протеиновото сгъване, един от най-сложните аспекти на молекулярната биология.
Концепцията за укрепване на ученето има много да ни научи за живота: да разберем кои неща имат най-висока стойност и да се опитаме да постигнем тази стойност чрез действия. Ако нещо не върви по вашия начин, опитайте нещо друго, докато не работи. Често хората пренебрегват тънкостите на самите системи, които проектираме, и затова обичам укрепването на ученето толкова много. За нещо толкова просто и блестящо, потенциалът му е ограничен от (иронично) природата на човечеството. Една от най-важните части на процеса на RL, а именно функцията за възнаграждение, е зададена от хората. Като погледнем назад към постиженията на екипа на AlphaZero, очевидно е, че ние сме ограничаващият фактор в това, което може да се направи с
И това е, което върховните изследователи в света правят. Е, нещо подобно. Когато за пръв път научих за RL през лятото на 2024 г., технологията не е имала голям пробив от триумфите на екипа на AlphaZero през 2017 г. Всеки говори за ChatGPT, изглежда, както и новите Transformers, които доминират в технологичната дискусия в продължение на половин година. Мислех за това колко е хладно RL, а след това забравих за него. Това е, докато OpenAI не е имал идеята да комбинира архитектурата на Transformers с Reinforcement Learning, създавайки нечист хибрид, който обичам да наричам RL-LLMs, или Reinforcement Learning-Large Language Models, за простота. Изглеждаше като безсмислено: подсилен от
Тази статия е донесена до вас от Нашата AI, студент-основана и студент-председател AI етика организация, която се стреми да разнообрази перспективите в AI отвъд това, което обикновено се обсъжда в съвременните медии.
Тази статия е донесена до вас от Нашата AI, студент-основана и студент-председател AI етика организация, която се стреми да разнообрази перспективите в AI отвъд това, което обикновено се обсъжда в съвременните медии.https://www.our-ai.org/ai-nexus/read!
Learn More
Тъй като това е казано, RL има дълъг път, преди да достигне максималния си потенциал.