¿Alguna vez te has preguntado cómo los gerentes de circo consiguen que los osos equilibren una pelota, o un tigre saltan a través de los saltos de fuego? La respuesta: refuerzo. Los tigres no suelen saltar a través de los saltos de fuego, pero lo harán si les dás un delicioso trozo de carne cada vez que lo hacen. Finalmente, un tigre aprende que para obtener la comida, debe realizar los saltos audaces, y así lo hace de manera hábil y consistente. Los humanos aprenden de maneras similares: aprendemos a comer alimentos saludables, hacer ejercicio y estudiar duro para ganar algo positivo, ya sea una explosión de dopamina, dinero y éxito. Este fenómeno, en el que un ser humano (o prácticamente cualquier otro animal) aumenta un comportamiento específico después de ser recompensados de alguna manera Detalló cómo “Q Learning” podría ayudar a hacer que los algoritmos se adapten a un entorno complejo, pero no fue hasta que el No es una exageración decir que, a lo largo de una década, Reinforcement Learning, o RL para resumir, ha cambiado el mundo, y continuará haciendo esto durante un tiempo. Documentos de los años 90 2013 landmark research paper Documentos de los años 90 Documentación de investigación de 2013 Wisdom Comes from Within En 1938, el psicólogo B. F. Skinner “condicionamiento operante” para describir cómo los organismos pueden aumentar su propensión a realizar ciertas acciones voluntarias utilizando un proceso llamado Descubrió que, si una acción (como, en su caso, un ratón presionando una palanca) fue reforzada por algo positivo (utilizó comida y agua), era probable que se repita de nuevo. por algo dañino (el dolor de quemar), fue Por simple que sea este proceso, la humanidad como la conocemos no sería la misma sin ella.Imagina el mundo si todos los niños pequeños tuvieran dificultades para aprender que no deberías hacer las cosas que siempre te llevan a dañarte a ti mismo! Conocer el término Reforzamiento castigado Menos Conocer el término Fue esta simple verdad la que llevó a Christopher Watkins a desarrollar su Si los seres humanos y los animales podían aprender mediante el refuerzo, ¿por qué no podían las máquinas? El proceso por el cual un agente aprende a través de las interacciones con un entorno limitado. propuso que, en cualquier entorno, el objetivo de un agente de Q Learning es desarrollar una A través de la correlación Para entender esto, tome el ejemplo de un videojuego donde uno tiene que pasar varias puertas, con cada puerta bloqueada por la contraseña de un único dígito aleatorio. , o el comportamiento que el agente realiza, sería el número que el agente adivina en cada puerta, y el , o el entorno que rodea al agente, sería la puerta a la que está el agente. Una recompensa puede ser una gran (quizás por terminar un nivel) o una pequeña (por completar un único puerto). , o una situación específica donde una acción está asociada con un estado, luego realice un algoritmo de maximización simple para preferir los pares memorizados de estado-acción que llevaron a una gran recompensa. 1989 Ph. D. tesis Q Aprendizaje Política Acción-Estado pares Acción Estado La recompensa Pares de acción estatal 1989 Ph. D. tesis Entonces, una posible pareja de acción estatal sería elegir “4” en la segunda puerta. Otra sería elegir “6” en la segunda puerta, aunque esta elección probablemente llevará a una recompensa mucho más baja, ya que es la cifra equivocada para la segunda puerta. Digamos que la recompensa por pasar la sexta puerta es 1, y que cada puerta adicional pasada (no incluida la sexta) da una recompensa de 0.2. Un agente de aprendizaje Q temprano habría probado probablemente los dígitos 1-9 en la primera puerta, la segunda puerta, y así sucesivamente. Lo haría hasta que probó todos los posibles resultados de los pares de valores de estado y recibió todas las recompensas para cada combinación de estos pares. Luego se ajustaría a la serie de dígitos que conducen a la recompensa más alta, que, como podemos decir Al aprender a maximizar el Valor Q, Watkins hipotetizó, los modelos serán capaces de tomar decisiones óptimas en un entorno no probabilístico. Q Valores DeepMind Steps In En 2013, los investigadores del laboratorio de investigación de IA DeepMind publicaron lo que se convertiría en un Su trabajo marca la introducción de uno de los tipos más importantes de lo que se conocería como Reinforcement Learning (RL) modelos: Los investigadores reconocieron la capacidad de usar Q Learning para entrenar a los agentes, pero notaron que el sistema de Watkins tenía algunos problemas. Los posibles pares de estado-acción no funcionarían en juegos complejos con millones de combinaciones de decisiones.En segundo lugar, las funciones de maximización simples no funcionarían, ya que los juegos más complejos tienden a tener Supongamos que la recompensa de un juego de laberinto se define por la longitud que un jugador cruza en total hacia el objetivo.Si el primer par de Q Value que el agente RL de Watkin descubre es un final muerto, continuará visitando ese final muerto ya que no sabe mejor. Papel de Landmark Redes Deep-Q todo Localmente maximizado Papel de Landmark El equipo de DeepMind resolvió ambos problemas de una manera inteligente. Para mitigar el coste computacional de ejecutar todas las opciones, introdujeron el Este método, nombrado después de la letra griega epsilon (Ɛ), equilibra los valores de Watkin. de seguir siempre la recompensa más alta conocida con un La idea es que, en cada estado, el agente tendrá una oportunidad Ɛ de explorar (seleccione una de las acciones aleatoriamente) y una oportunidad 1 - Ɛ de seguir el valor Q máximo dictado por la política codiciosa. Si no está en explicaciones formales, esto básicamente significa que el modelo tendrá una probabilidad establecida de probar nuevas acciones de vez en cuando, un comportamiento útil que ahorrará mucho tiempo al centrarse en la maximización (para que se puedan saltar los pares de acciones de estado menos valiosos) al tiempo que también permite la flexibilidad en la toma de decisiones (para que el agente no se quede atrapado en las máximas locales). Epsilon-Greedy Políticas ganaderas Política de exploración Entonces, hubo el problema de la evaluación.Si el agente todavía está en el proceso de terminar un juego, por ejemplo, ¿cómo sabrá que ciertas acciones conducirán directamente a un resultado mejor? ¿Qué es lo mismo?El agente tiene que DeepMind introdujo una nueva forma de lo que ellos llaman “romper la correlación” entre las acciones del estado y la La Red Q es básicamente un modelo compacto de Machine Learning dentro del DQN completo.El único trabajo de la Red Q es aprender de las experiencias del agente, y, dado un estado, El valor Q resultante de cada acción posible. Volviendo a nuestro ejemplo con puertas y contraseñas, una red Q bien entrenada producirá un valor Q predicho más alto para la acción de adivinar el número correcto en cada puerta, en lugar de adivinar un número incorrecto. , la red es capaz de ser entrenada en un lote de datos que el agente recibe del medio ambiente, y es así capaz de ajustar sus pesos para predecir mejor los Valores Q y, por lo tanto, ser más eficaz en el “aconsejo” que da al agente. porque predicción La red Q. predicción Experiencia Reproducción All the World’s a Game… Reinforcement Learning en su forma más pura ha tenido muchos avances. DeepMind, después de su adquisición por Google en 2014, siguió desarrollando , uno de los modelos RL más famosos de todos los tiempos. Entrenado utilizando un modelo de distribución de probabilidad mejorado por el (MCTS) algoritmo, el equipo de AlphaZero generalizó con éxito variantes del modelo original de AlphaZero a varias otras tareas complejas, incluyendo: AlphaZero Buscar árboles de Monte Carlo AlphaZero Buscar árboles de Monte Carlo 
 
 
 
 AlphaGo, que chocó al mundo al derrotar decisivamente al campeón mundial de Go, Lee Sedol, en lo que se consideraba uno de los juegos de mesa más complejos jamás creados. AlphaProof, una variante dedicada a resolver problemas matemáticos de las Olimpiadas operando en pruebas formalizadas en LEAN, logró un premio de plata en las pruebas de referencia simuladas de las Olimpiadas Internacionales de Matemáticas (IMO). AlphaFold, que ganó el Premio Nobel de Biología en 2024, logró avances en el plegamiento de proteínas, uno de los aspectos más complicados de la biología molecular. El concepto de Reinforcement Learning tiene mucho que enseñarnos sobre la vida: averiguar qué cosas tienen el valor más alto, y buscar alcanzar ese valor a través de acciones. Si algo no va bien, intente otra cosa hasta que funcione. Los humanos a menudo olvidan las sutilezas de los propios sistemas que diseñamos, y es por eso que me encanta tanto Reinforcement Learning. Para algo tan simple y brillante, su potencial está limitado por (ironicamente) la naturaleza de la humanidad. Una de las partes más importantes del proceso RL, es decir, la función de recompensa, es establecida por los humanos. Mirando hacia atrás los logros del equipo de AlphaZero, es obvio que somos el factor limitante en lo que se puede hacer usando RL. Parecía que, ya que AlphaZero podía resolver casi cualquier juego heurísticamente, lo único que Y eso es lo que están haciendo los principales investigadores del mundo. Bueno, algo así. Cuando aprendí por primera vez sobre RL en el verano de 2024, la tecnología no había tenido un gran avance desde los triunfos del equipo de AlphaZero en 2017. Todo el mundo estaba hablando de ChatGPT, parecía, así como los nuevos Transformers que habían dominado la discusión de tecnología durante medio año. Pensé misteriosamente sobre cuán cool era RL, y luego me olvidé de ello. Es decir, hasta que OpenAI tuvo la idea de combinar la arquitectura de Transformers con Reinforcement Learning, creando un híbrido impuro que me gusta llamar RL-LLMs, o Reinforcement Learning-Large Language Models, por simplicidad. Parecía un no-brainer: reforzado por un paradigma llamado Reinfor en la industria de la IA, algo que hemos cubierto antes y defendemos contra. El problema de la explotación laboral El problema de la explotación laboral 
 
 Este artículo es traído a usted por Nuestro AI, una organización de ética de IA fundada por estudiantes y liderada por estudiantes que busca diversificar perspectivas en IA más allá de lo que se discute típicamente en los medios modernos. Si te gusta este artículo, por favor revisa nuestras publicaciones mensuales en https://www.our-ai.org/ai-nexus/read! Este artículo es traído a usted por Nuestra IA, una organización de ética de IA fundada por estudiantes y liderada por estudiantes que busca diversificar perspectivas en IA más allá de lo que se discute típicamente en los medios modernos. ! https://www.our-ai.org/ai-nexus/read Learn More Dicho esto, RL tiene un largo camino por recorrer antes de alcanzar su máximo potencial. Muchos modelos RL tradicionales tienen que entrenar para millones de iteraciones antes de la convergencia, rápidamente aumentando los costos si el entorno asociado es grande o demasiado complejo, como es el caso para generalizar soluciones a problemas complejos escritos en lengua natural. A este fin, los futuros modelos RL pueden depender de LLMs (o incluso RL-LLMs) para "gamificar" problemas, al igual que el equipo de AlphaZero hizo para AlphaProof, convirtiendo las ecuaciones que encontró en el formato de prueba formal LEAN para que puedan ser resueltos. Con esto, podemos ser capaces de aprovechar RLs específicos de campo mucho más barato y eficientemente, aunque esto es un paso atrás de la visión comercial ampliamente reconocida de producir Una vez más, RL podría resolver los problemas más complejos del mundo... si pudiéramos imaginar cómo convertirlos rápidamente en juegos. La cadena del pensamiento (CoT) Inteligencia General Artificial (AGI) La cadena del pensamiento (CoT) Inteligencia General Artificial (AGI)

The is an opinion piece based on the author’s POV and does not necessarily reflect the views of HackerNoon.

Read My Stories

Este audio es producido en el idioma original de la historia!

Cómo los científicos transformaron los problemas del mundo en juegos con el aprendizaje reforzado

About Author

COMENTARIOS

ETIQUETAS

ESTE ARTÍCULO FUE PRESENTADO EN

Related Stories

¿Quieres ganar un concurso de redacción de HackerNoon? Esto es lo que recomiendan los ganadores del concurso #crypto-api

Una breve introducción a la teoría del cerebro de Boltzmann

Toque para ganar: Telegram puede incorporar a los próximos 10 mil millones de usuarios de criptomonedas antes de Solana

De los foros a los feeds: cómo los algoritmos de las redes sociales influyen en la interacción digital

¿Quieres ganar un concurso de redacción de HackerNoon? Esto es lo que recomiendan los ganadores del concurso #crypto-api

Una breve introducción a la teoría del cerebro de Boltzmann

Toque para ganar: Telegram puede incorporar a los próximos 10 mil millones de usuarios de criptomonedas antes de Solana

De los foros a los feeds: cómo los algoritmos de las redes sociales influyen en la interacción digital

Light-Mode

Classic

Newspaper

Dark-Mode

Neon Noir

Minty

HN StartUps