¿Alguna vez te has preguntado cómo los gerentes de circo consiguen que los osos equilibren una pelota, o un tigre saltan a través de los saltos de fuego? La respuesta: refuerzo. Los tigres no suelen saltar a través de los saltos de fuego, pero lo harán si les dás un delicioso trozo de carne cada vez que lo hacen. Finalmente, un tigre aprende que para obtener la comida, debe realizar los saltos audaces, y así lo hace de manera hábil y consistente. Los humanos aprenden de maneras similares: aprendemos a comer alimentos saludables, hacer ejercicio y estudiar duro para ganar algo positivo, ya sea una explosión de dopamina, dinero y éxito. Este fenómeno, en el que un ser humano (o prácticamente cualquier otro animal) aumenta un comportamiento específico después de ser recompensados de alguna manera
Wisdom Comes from Within
En 1938, el psicólogo B. F. Skinner
Fue esta simple verdad la que llevó a Christopher Watkins a desarrollar su
Entonces, una posible pareja de acción estatal sería elegir “4” en la segunda puerta. Otra sería elegir “6” en la segunda puerta, aunque esta elección probablemente llevará a una recompensa mucho más baja, ya que es la cifra equivocada para la segunda puerta. Digamos que la recompensa por pasar la sexta puerta es 1, y que cada puerta adicional pasada (no incluida la sexta) da una recompensa de 0.2. Un agente de aprendizaje Q temprano habría probado probablemente los dígitos 1-9 en la primera puerta, la segunda puerta, y así sucesivamente. Lo haría hasta que probó todos los posibles resultados de los pares de valores de estado y recibió todas las recompensas para cada combinación de estos pares. Luego se ajustaría a la serie de dígitos que conducen a la recompensa más alta, que, como podemos decirQ ValoresAl aprender a maximizar el Valor Q, Watkins hipotetizó, los modelos serán capaces de tomar decisiones óptimas en un entorno no probabilístico.
DeepMind Steps In
En 2013, los investigadores del laboratorio de investigación de IA DeepMind publicaron lo que se convertiría en un
El equipo de DeepMind resolvió ambos problemas de una manera inteligente. Para mitigar el coste computacional de ejecutar todas las opciones, introdujeron elEpsilon-GreedyEste método, nombrado después de la letra griega epsilon (Ɛ), equilibra los valores de Watkin.Políticas ganaderasde seguir siempre la recompensa más alta conocida con unPolítica de exploraciónLa idea es que, en cada estado, el agente tendrá una oportunidad Ɛ de explorar (seleccione una de las acciones aleatoriamente) y una oportunidad 1 - Ɛ de seguir el valor Q máximo dictado por la política codiciosa. Si no está en explicaciones formales, esto básicamente significa que el modelo tendrá una probabilidad establecida de probar nuevas acciones de vez en cuando, un comportamiento útil que ahorrará mucho tiempo al centrarse en la maximización (para que se puedan saltar los pares de acciones de estado menos valiosos) al tiempo que también permite la flexibilidad en la toma de decisiones (para que el agente no se quede atrapado en las máximas locales).
Entonces, hubo el problema de la evaluación.Si el agente todavía está en el proceso de terminar un juego, por ejemplo, ¿cómo sabrá que ciertas acciones conducirán directamente a un resultado mejor?porque¿Qué es lo mismo?El agente tiene quepredicciónDeepMind introdujo una nueva forma de lo que ellos llaman “romper la correlación” entre las acciones del estado y laLa red Q.La Red Q es básicamente un modelo compacto de Machine Learning dentro del DQN completo.El único trabajo de la Red Q es aprender de las experiencias del agente, y, dado un estado,predicciónEl valor Q resultante de cada acción posible. Volviendo a nuestro ejemplo con puertas y contraseñas, una red Q bien entrenada producirá un valor Q predicho más alto para la acción de adivinar el número correcto en cada puerta, en lugar de adivinar un número incorrecto.Experiencia Reproducción, la red es capaz de ser entrenada en un lote de datos que el agente recibe del medio ambiente, y es así capaz de ajustar sus pesos para predecir mejor los Valores Q y, por lo tanto, ser más eficaz en el “aconsejo” que da al agente.
All the World’s a Game…
Reinforcement Learning en su forma más pura ha tenido muchos avances. DeepMind, después de su adquisición por Google en 2014, siguió desarrollando
- AlphaGo, que chocó al mundo al derrotar decisivamente al campeón mundial de Go, Lee Sedol, en lo que se consideraba uno de los juegos de mesa más complejos jamás creados.
- AlphaProof, una variante dedicada a resolver problemas matemáticos de las Olimpiadas operando en pruebas formalizadas en LEAN, logró un premio de plata en las pruebas de referencia simuladas de las Olimpiadas Internacionales de Matemáticas (IMO).
- AlphaFold, que ganó el Premio Nobel de Biología en 2024, logró avances en el plegamiento de proteínas, uno de los aspectos más complicados de la biología molecular.
El concepto de Reinforcement Learning tiene mucho que enseñarnos sobre la vida: averiguar qué cosas tienen el valor más alto, y buscar alcanzar ese valor a través de acciones. Si algo no va bien, intente otra cosa hasta que funcione. Los humanos a menudo olvidan las sutilezas de los propios sistemas que diseñamos, y es por eso que me encanta tanto Reinforcement Learning. Para algo tan simple y brillante, su potencial está limitado por (ironicamente) la naturaleza de la humanidad. Una de las partes más importantes del proceso RL, es decir, la función de recompensa, es establecida por los humanos. Mirando hacia atrás los logros del equipo de AlphaZero, es obvio que somos el factor limitante en lo que se puede hacer usando RL. Parecía que, ya que AlphaZero podía resolver casi cualquier juego heurísticamente, lo único que
Y eso es lo que están haciendo los principales investigadores del mundo. Bueno, algo así. Cuando aprendí por primera vez sobre RL en el verano de 2024, la tecnología no había tenido un gran avance desde los triunfos del equipo de AlphaZero en 2017. Todo el mundo estaba hablando de ChatGPT, parecía, así como los nuevos Transformers que habían dominado la discusión de tecnología durante medio año. Pensé misteriosamente sobre cuán cool era RL, y luego me olvidé de ello. Es decir, hasta que OpenAI tuvo la idea de combinar la arquitectura de Transformers con Reinforcement Learning, creando un híbrido impuro que me gusta llamar RL-LLMs, o Reinforcement Learning-Large Language Models, por simplicidad. Parecía un no-brainer: reforzado por un paradigma llamado Reinfor
Este artículo es traído a usted por Nuestro AI, una organización de ética de IA fundada por estudiantes y liderada por estudiantes que busca diversificar perspectivas en IA más allá de lo que se discute típicamente en los medios modernos. Si te gusta este artículo, por favor revisa nuestras publicaciones mensuales en https://www.our-ai.org/ai-nexus/read!
Este artículo es traído a usted por Nuestra IA, una organización de ética de IA fundada por estudiantes y liderada por estudiantes que busca diversificar perspectivas en IA más allá de lo que se discute típicamente en los medios modernos.https://www.our-ai.org/ai-nexus/read!
Learn More
Dicho esto, RL tiene un largo camino por recorrer antes de alcanzar su máximo potencial.