319 lecturas
319 lecturas

Cómo los científicos transformaron los problemas del mundo en juegos con el aprendizaje reforzado

por Our AI8m2025/06/04
Read on Terminal Reader

Demasiado Largo; Para Leer

Reinforcement Learning es una idea simple que ha tenido impactos indelebles en la tecnología y el pensamiento.
featured image - Cómo los científicos transformaron los problemas del mundo en juegos con el aprendizaje reforzado
Our AI HackerNoon profile picture
0-item

¿Alguna vez te has preguntado cómo los gerentes de circo consiguen que los osos equilibren una pelota, o un tigre saltan a través de los saltos de fuego? La respuesta: refuerzo. Los tigres no suelen saltar a través de los saltos de fuego, pero lo harán si les dás un delicioso trozo de carne cada vez que lo hacen. Finalmente, un tigre aprende que para obtener la comida, debe realizar los saltos audaces, y así lo hace de manera hábil y consistente. Los humanos aprenden de maneras similares: aprendemos a comer alimentos saludables, hacer ejercicio y estudiar duro para ganar algo positivo, ya sea una explosión de dopamina, dinero y éxito. Este fenómeno, en el que un ser humano (o prácticamente cualquier otro animal) aumenta un comportamiento específico después de ser recompensados de alguna maneraDocumentos de los años 90Detalló cómo “Q Learning” podría ayudar a hacer que los algoritmos se adapten a un entorno complejo, pero no fue hasta que el2013 landmark research paperNo es una exageración decir que, a lo largo de una década, Reinforcement Learning, o RL para resumir, ha cambiado el mundo, y continuará haciendo esto durante un tiempo.

Documentos de los años 90Documentación de investigación de 2013

Wisdom Comes from Within

En 1938, el psicólogo B. F. SkinnerConocer el término“condicionamiento operante” para describir cómo los organismos pueden aumentar su propensión a realizar ciertas acciones voluntarias utilizando un proceso llamadoReforzamientoDescubrió que, si una acción (como, en su caso, un ratón presionando una palanca) fue reforzada por algo positivo (utilizó comida y agua), era probable que se repita de nuevo.castigadopor algo dañino (el dolor de quemar), fueMenosPor simple que sea este proceso, la humanidad como la conocemos no sería la misma sin ella.Imagina el mundo si todos los niños pequeños tuvieran dificultades para aprender que no deberías hacer las cosas que siempre te llevan a dañarte a ti mismo!

Conocer el término

Fue esta simple verdad la que llevó a Christopher Watkins a desarrollar su1989 Ph. D. tesisSi los seres humanos y los animales podían aprender mediante el refuerzo, ¿por qué no podían las máquinas?Q AprendizajeEl proceso por el cual un agente aprende a través de las interacciones con un entorno limitado. propuso que, en cualquier entorno, el objetivo de un agente de Q Learning es desarrollar unaPolíticaA través de la correlaciónAcción-Estado paresPara entender esto, tome el ejemplo de un videojuego donde uno tiene que pasar varias puertas, con cada puerta bloqueada por la contraseña de un único dígito aleatorio.Acción, o el comportamiento que el agente realiza, sería el número que el agente adivina en cada puerta, y elEstado, o el entorno que rodea al agente, sería la puerta a la que está el agente.La recompensaUna recompensa puede ser una gran (quizás por terminar un nivel) o una pequeña (por completar un único puerto).Pares de acción estatal, o una situación específica donde una acción está asociada con un estado, luego realice un algoritmo de maximización simple para preferir los pares memorizados de estado-acción que llevaron a una gran recompensa.

1989 Ph. D. tesis

Entonces, una posible pareja de acción estatal sería elegir “4” en la segunda puerta. Otra sería elegir “6” en la segunda puerta, aunque esta elección probablemente llevará a una recompensa mucho más baja, ya que es la cifra equivocada para la segunda puerta. Digamos que la recompensa por pasar la sexta puerta es 1, y que cada puerta adicional pasada (no incluida la sexta) da una recompensa de 0.2. Un agente de aprendizaje Q temprano habría probado probablemente los dígitos 1-9 en la primera puerta, la segunda puerta, y así sucesivamente. Lo haría hasta que probó todos los posibles resultados de los pares de valores de estado y recibió todas las recompensas para cada combinación de estos pares. Luego se ajustaría a la serie de dígitos que conducen a la recompensa más alta, que, como podemos decirQ ValoresAl aprender a maximizar el Valor Q, Watkins hipotetizó, los modelos serán capaces de tomar decisiones óptimas en un entorno no probabilístico.

DeepMind Steps In

En 2013, los investigadores del laboratorio de investigación de IA DeepMind publicaron lo que se convertiría en unPapel de LandmarkSu trabajo marca la introducción de uno de los tipos más importantes de lo que se conocería como Reinforcement Learning (RL) modelos:Redes Deep-QLos investigadores reconocieron la capacidad de usar Q Learning para entrenar a los agentes, pero notaron que el sistema de Watkins tenía algunos problemas.todoLos posibles pares de estado-acción no funcionarían en juegos complejos con millones de combinaciones de decisiones.En segundo lugar, las funciones de maximización simples no funcionarían, ya que los juegos más complejos tienden a tenerLocalmente maximizadoSupongamos que la recompensa de un juego de laberinto se define por la longitud que un jugador cruza en total hacia el objetivo.Si el primer par de Q Value que el agente RL de Watkin descubre es un final muerto, continuará visitando ese final muerto ya que no sabe mejor.

Papel de Landmark

El equipo de DeepMind resolvió ambos problemas de una manera inteligente. Para mitigar el coste computacional de ejecutar todas las opciones, introdujeron elEpsilon-GreedyEste método, nombrado después de la letra griega epsilon (Ɛ), equilibra los valores de Watkin.Políticas ganaderasde seguir siempre la recompensa más alta conocida con unPolítica de exploraciónLa idea es que, en cada estado, el agente tendrá una oportunidad Ɛ de explorar (seleccione una de las acciones aleatoriamente) y una oportunidad 1 - Ɛ de seguir el valor Q máximo dictado por la política codiciosa. Si no está en explicaciones formales, esto básicamente significa que el modelo tendrá una probabilidad establecida de probar nuevas acciones de vez en cuando, un comportamiento útil que ahorrará mucho tiempo al centrarse en la maximización (para que se puedan saltar los pares de acciones de estado menos valiosos) al tiempo que también permite la flexibilidad en la toma de decisiones (para que el agente no se quede atrapado en las máximas locales).

Entonces, hubo el problema de la evaluación.Si el agente todavía está en el proceso de terminar un juego, por ejemplo, ¿cómo sabrá que ciertas acciones conducirán directamente a un resultado mejor?porque¿Qué es lo mismo?El agente tiene quepredicciónDeepMind introdujo una nueva forma de lo que ellos llaman “romper la correlación” entre las acciones del estado y laLa red Q.La Red Q es básicamente un modelo compacto de Machine Learning dentro del DQN completo.El único trabajo de la Red Q es aprender de las experiencias del agente, y, dado un estado,predicciónEl valor Q resultante de cada acción posible. Volviendo a nuestro ejemplo con puertas y contraseñas, una red Q bien entrenada producirá un valor Q predicho más alto para la acción de adivinar el número correcto en cada puerta, en lugar de adivinar un número incorrecto.Experiencia Reproducción, la red es capaz de ser entrenada en un lote de datos que el agente recibe del medio ambiente, y es así capaz de ajustar sus pesos para predecir mejor los Valores Q y, por lo tanto, ser más eficaz en el “aconsejo” que da al agente.

All the World’s a Game…

Reinforcement Learning en su forma más pura ha tenido muchos avances. DeepMind, después de su adquisición por Google en 2014, siguió desarrollandoAlphaZero, uno de los modelos RL más famosos de todos los tiempos. Entrenado utilizando un modelo de distribución de probabilidad mejorado por elBuscar árboles de Monte Carlo(MCTS) algoritmo, el equipo de AlphaZero generalizó con éxito variantes del modelo original de AlphaZero a varias otras tareas complejas, incluyendo:

AlphaZeroBuscar árboles de Monte Carlo


  • AlphaGo, que chocó al mundo al derrotar decisivamente al campeón mundial de Go, Lee Sedol, en lo que se consideraba uno de los juegos de mesa más complejos jamás creados.
  • AlphaProof, una variante dedicada a resolver problemas matemáticos de las Olimpiadas operando en pruebas formalizadas en LEAN, logró un premio de plata en las pruebas de referencia simuladas de las Olimpiadas Internacionales de Matemáticas (IMO).
  • AlphaFold, que ganó el Premio Nobel de Biología en 2024, logró avances en el plegamiento de proteínas, uno de los aspectos más complicados de la biología molecular.

El concepto de Reinforcement Learning tiene mucho que enseñarnos sobre la vida: averiguar qué cosas tienen el valor más alto, y buscar alcanzar ese valor a través de acciones. Si algo no va bien, intente otra cosa hasta que funcione. Los humanos a menudo olvidan las sutilezas de los propios sistemas que diseñamos, y es por eso que me encanta tanto Reinforcement Learning. Para algo tan simple y brillante, su potencial está limitado por (ironicamente) la naturaleza de la humanidad. Una de las partes más importantes del proceso RL, es decir, la función de recompensa, es establecida por los humanos. Mirando hacia atrás los logros del equipo de AlphaZero, es obvio que somos el factor limitante en lo que se puede hacer usando RL. Parecía que, ya que AlphaZero podía resolver casi cualquier juego heurísticamente, lo único que

Y eso es lo que están haciendo los principales investigadores del mundo. Bueno, algo así. Cuando aprendí por primera vez sobre RL en el verano de 2024, la tecnología no había tenido un gran avance desde los triunfos del equipo de AlphaZero en 2017. Todo el mundo estaba hablando de ChatGPT, parecía, así como los nuevos Transformers que habían dominado la discusión de tecnología durante medio año. Pensé misteriosamente sobre cuán cool era RL, y luego me olvidé de ello. Es decir, hasta que OpenAI tuvo la idea de combinar la arquitectura de Transformers con Reinforcement Learning, creando un híbrido impuro que me gusta llamar RL-LLMs, o Reinforcement Learning-Large Language Models, por simplicidad. Parecía un no-brainer: reforzado por un paradigma llamado ReinforEl problema de la explotación laboralen la industria de la IA, algo que hemos cubierto antes y defendemos contra.

El problema de la explotación laboral


Este artículo es traído a usted por Nuestro AI, una organización de ética de IA fundada por estudiantes y liderada por estudiantes que busca diversificar perspectivas en IA más allá de lo que se discute típicamente en los medios modernos. Si te gusta este artículo, por favor revisa nuestras publicaciones mensuales en https://www.our-ai.org/ai-nexus/read!

Este artículo es traído a usted por Nuestra IA, una organización de ética de IA fundada por estudiantes y liderada por estudiantes que busca diversificar perspectivas en IA más allá de lo que se discute típicamente en los medios modernos.https://www.our-ai.org/ai-nexus/read!

Learn More

Dicho esto, RL tiene un largo camino por recorrer antes de alcanzar su máximo potencial.La cadena del pensamiento (CoT)Muchos modelos RL tradicionales tienen que entrenar para millones de iteraciones antes de la convergencia, rápidamente aumentando los costos si el entorno asociado es grande o demasiado complejo, como es el caso para generalizar soluciones a problemas complejos escritos en lengua natural. A este fin, los futuros modelos RL pueden depender de LLMs (o incluso RL-LLMs) para "gamificar" problemas, al igual que el equipo de AlphaZero hizo para AlphaProof, convirtiendo las ecuaciones que encontró en el formato de prueba formal LEAN para que puedan ser resueltos. Con esto, podemos ser capaces de aprovechar RLs específicos de campo mucho más barato y eficientemente, aunque esto es un paso atrás de la visión comercial ampliamente reconocida de producirInteligencia General Artificial (AGI)Una vez más, RL podría resolver los problemas más complejos del mundo... si pudiéramos imaginar cómo convertirlos rápidamente en juegos.

La cadena del pensamiento (CoT)Inteligencia General Artificial (AGI)

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks