319 leituras
319 leituras

Como os cientistas transformaram os problemas do mundo em jogos com aprendizagem de reforço

por Our AI8m2025/06/04
Read on Terminal Reader

Muito longo; Para ler

Reinforcement Learning é uma ideia simples que teve impactos indelével sobre a tecnologia e o pensamento.
featured image - Como os cientistas transformaram os problemas do mundo em jogos com aprendizagem de reforço
Our AI HackerNoon profile picture
0-item

Você já se perguntou como os gerentes de circo conseguem ursos para equilibrar uma bola, ou um tigre para saltar através de saltos em chamas? A resposta: reforço. Os tigres geralmente não saltam através de saltos em chamas, mas eles vão se você lhes dar um pedaço saboroso de carne toda vez que ele faz. Finalmente, um tigre aprende que, a fim de obter a comida, ele deve realizar os saltos ousados, e assim faz de forma hábil e consistente. Os humanos aprendem de maneiras semelhantes: aprendemos a comer comida saudável, exercício, e estudar duro para ganhar algo positivo, seja uma explosão de dopamina, dinheiro, e sucesso. Este fenômeno, em que um humano (ou praticamente qualquer outro animal) aumenta um comportamento específico depois que eles são recompensados de alguma forma porDocumentos dos anos 90detalhou como “Q Learning” poderia ajudar a tornar os algoritmos adaptáveis a um ambiente complexo, mas não foi até oRelatório de Pesquisa de 2013Não é exagero dizer que, ao longo de uma década, o Reinforcement Learning, ou RL para resumir, mudou o mundo, e continuará a fazê-lo por um bom tempo.

Documentos dos anos 90Relatório de Pesquisa de 2013

Wisdom Comes from Within

Em 1938, o psicólogo B. F. SkinnerConheça o termo“condicionamento operante” para descrever como os organismos podem aumentar sua propensão a realizar certas ações voluntárias usando um processo chamadoReforçoEle descobriu que, se uma ação (como, no seu caso, um rato pressionando uma alavanca) foi reforçada por algo positivo (ele usou comida e água), é provável que seja repetida novamente.Puniçãopor algo prejudicial (a dor de queimar), foiMenosPor mais simples que este processo seja, a humanidade como a conhecemos não seria a mesma sem ela.Imagine o mundo se todas as crianças pequenas tivessem dificuldade em aprender que você não deveria fazer as coisas que sempre levam você a se machucar!

Conheça o termo

Foi esta simples verdade que levou Christopher Watkins a desenvolver seu1989 Ph. D. TeseSe os seres humanos e os animais pudessem aprender através do reforço, por que as máquinas não poderiam?Q EnsinoO processo pelo qual um agente aprende através de interações com um ambiente limitado. propôs que, em qualquer ambiente, o objetivo de um agente de Q Learning é desenvolver umaPolíticaAtravés da correlaçãoAcção-Estado PairsPara entender isso, tome o exemplo de um videogame onde você tem que passar por várias portas, com cada porta sendo bloqueada pela senha de um único dígito aleatório.Ação, ou o comportamento que o agente realiza, seria o número que o agente adivinha em cada porta, e oEstado, ou o ambiente ao redor do agente, seria a porta em que o agente está.RecompensaUma recompensa pode ser uma grande (talvez por terminar um nível) ou uma pequena (por completar um único portão).PAIROS DE ACÇÃO, ou uma situação específica onde uma ação está associada a um estado, em seguida, execute um algoritmo de maximizacao simples para preferir os pares memorizados de estado-ação que levaram a uma recompensa alta.

1989 Ph. D. Tese

Então, um possível par de ações de estado seria escolher “4” na segunda porta. Outra seria escolher “6” na segunda porta, embora esta escolha provavelmente leve a uma recompensa muito menor, uma vez que é o número errado para a segunda porta. Digamos que a recompensa por passar a sexta porta é 1, e que cada porta adicional passada (não incluindo a sexta) dá uma recompensa de 0,2. Um agente de aprendizagem Q precoce provavelmente teria tentado os dígitos 1-9 na primeira porta, a segunda porta, e assim por diante. Ele faria isso até tentar todos os possíveis resultados de pares de valores de estado e receber todas as recompensas para cada combinação desses pares. Ele então se resolveria para a série de dígitos levando à recompensa mais alta, que, como podemos dizer, é a combinação correta 5-4Q Valores, uma variável proposta que denotaria a recompensa resultante de um par de ação-valor específico.Ao aprender a maximizar o valor Q, Watkins hipotetizou, os modelos serão capazes de tomar decisões ótimas em um ambiente não probabilístico.

DeepMind Steps In

Em 2013, pesquisadores do laboratório de pesquisa de IA DeepMind publicaram o que se tornaria umaCartão LandmarkSeu trabalho marca a introdução de um dos tipos mais importantes do que se tornaria conhecido como Reinforcement Learning (RL) modelos:Rede Deep-QOs pesquisadores reconheceram a capacidade de usar o Q Learning para treinar agentes, mas notaram que o sistema de Watkins tinha alguns problemas.TodosOs possíveis pares de estado-ação não funcionariam em jogos complexos com milhões de combinações de decisões.Em segundo lugar, as funções de maximização simples não funcionariam, uma vez que os jogos mais complexos tendem a terLocalização maximizadaSuponhamos que a recompensa de um jogo de labirinto é definida pelo comprimento que um jogador atravessa no total em direção ao objetivo.Se o primeiro par de Q Value que o agente RL de Watkin descobre é um fim morto, ele continuará a visitar esse fim morto porque não sabe melhor.

Cartão Landmark

A equipe do DeepMind resolveu ambos os problemas de forma inteligente.Para mitigar o custo computacional de executar todas as opções, eles introduziram oEpsilon-Greedy emEste método, nomeado após a letra grega epsilon (Ɛ), equilibra asPolíticas de ganânciade sempre ir atrás da maior recompensa conhecida com umPolítica de exploraçãoA ideia é que, em cada estado, o agente terá uma chance Ɛ de explorar (escolher uma das ações aleatoriamente) e uma chance de 1 - Ɛ de seguir o valor máximo Q como ditado pela política gananciosa. Se você não estiver em explicações formais, isso basicamente significa que o modelo terá uma probabilidade definida de tentar novas ações de vez em quando, um comportamento útil que economizará muito tempo, concentrando-se na maximização (de modo que pares de ações de estado menos valiosos possam ser ignorados) ao mesmo tempo que também permite flexibilidade na tomada de decisão (de modo que o agente não fique preso às máximas locais).

Então, houve o problema da avaliação.Se o agente ainda está no processo de terminar um jogo, por exemplo, como ele saberá que certas ações levarão diretamente a um resultado melhor?Porquedo seu claping. bem, o agente devePrevisãoA DeepMind introduziu uma nova maneira do que eles chamam de “quebrar a correlação” entre o estado-ações pares com oA rede Q.A Rede Q é basicamente um modelo compacto de Machine Learning dentro do DQN completo.O único trabalho da Rede Q é aprender com as experiências do agente e, dado um estado,PrevisãoVoltando ao nosso exemplo com portas e senhas, uma rede Q bem treinada produzirá um valor Q mais elevado para a ação de adivinhar o número correto em cada porta, em vez de adivinhar um número incorreto.Experiência Replay, a rede é capaz de ser treinada em um lote de dados que o agente recebe do ambiente, e é assim capaz de ajustar seus pesos para prever melhor os Valores Q e, assim, ser mais eficaz no "conselho" que dá ao agente.

All the World’s a Game…

O Reinforcement Learning na sua forma mais pura teve muitos avanços.A DeepMind, após sua aquisição pelo Google em 2014, continuou a desenvolverAlphaZero, um dos modelos RL mais famosos de todos os tempos. Treinado usando um modelo de distribuição de probabilidade aprimorado peloMonte Carlo Tree BuscaCom o algoritmo (MCTS), a equipe AlphaZero generalizou com sucesso variantes do modelo AlphaZero original para várias outras tarefas complexas, incluindo:

AlphaZeroMonte Carlo Tree Busca


  • AlphaGo, que chocou o mundo ao derrotar decisivamente o campeão mundial de Go, Lee Sedol, no que era considerado um dos jogos de tabuleiro mais complexos já feitos.
  • AlphaProof, uma variante dedicada à resolução de problemas matemáticos da Olimpíada operando em provas formalizadas pelo LEAN, obteve um prêmio de prata nos testes de benchmarking da Olimpíada Internacional de Matemática (IMO).
  • A AlphaFold, que ganhou o Prêmio Nobel de Biologia em 2024, alcançou avanços na formação de proteínas, um dos aspectos mais complicados da biologia molecular.

O conceito de Reinforcement Learning tem muito a nos ensinar sobre a vida: descobrir o que tem o maior valor, e procurar alcançar esse valor através de ações. Se algo não vai bem, tente outra coisa até que funcione. Os seres humanos muitas vezes ignoram as sutilezas dos próprios sistemas que projetamos, e é por isso que eu amo o Reinforcement Learning tanto. Para algo tão simples e brilhante, seu potencial é confinado pela (ironicamente) natureza da humanidade. Uma das partes mais importantes do processo RL, ou seja, a função de recompensa, é definida por humanos. Olhando para trás para as realizações da equipe AlphaZero, é óbvio que somos o fator limitante no que pode ser feito usando RL. Parecia que, uma vez que AlphaZero poderia resolver quase qualquer jogo heuristicamente, a única coisa a

E é isso que os principais pesquisadores do mundo estão fazendo. Bem, tipo. Quando eu aprendi pela primeira vez sobre o RL no verão de 2024, a tecnologia não teve um grande avanço desde os triunfos da equipe AlphaZero em 2017. Todo mundo estava falando sobre o ChatGPT, parecia, bem como os novos Transformers que tinham dominado a discussão de tecnologia por meio ano. Pensei misteriosamente sobre o quão legal o RL era, e depois esqueci. Ou seja, até que a OpenAI tivesse a ideia de combinar a arquitetura do Transformer com o Reinforcement Learning, criando um híbrido impuro que eu gostaria de chamar de RL-LLMs, ou Reinforcement Learning-Large Language Models, por simplicidade. Parecia um não-brainer: reforçado por um paradigma chamadoO problema da exploração dos trabalhadoresna indústria de IA, algo que já cobrimos antes e defendemos contra.

O problema da exploração dos trabalhadores


Este artigo é trazido para você por Nossa IA, uma organização de ética de IA fundada por estudantes e liderada por estudantes que procura diversificar perspectivas em IA além do que é tipicamente discutido nas mídias modernas.

Este artigo é trazido para você por Nossa IA, uma organização de ética de IA fundada por estudantes e liderada por estudantes que procura diversificar perspectivas em IA além do que é tipicamente discutido nas mídias modernas.https://www.our-ai.org/ai-nexus/read!

Learn More

Dito isto, RL tem um longo caminho a percorrer antes de atingir seu máximo potencial.A cadeia do pensamento (CoT)Muitos modelos RL tradicionais têm que treinar para milhões de iterações antes da convergência, rapidamente aumentando os custos se o ambiente associado é grande ou excessivamente complexo, como é o caso para generalizar soluções para problemas complexos escritos em linguagem natural. Para este fim, os futuros modelos RL podem depender de LLMs (ou mesmo RL-LLMs) para “gamificar” problemas, assim como a equipe AlphaZero fez para AlphaProof, convertendo as equações que encontrou para o formato de prova formal LEAN para que possam ser resolvidos. Com isso, podemos ser capazes de alavancar RLs específicos de campo muito mais barato e eficientemente, embora este seja um passo atrás da visão comercial amplamente reconhecida de produzirArtificial General Intelligence (AGI)Mais uma vez, a RL poderia resolver os problemas mais complexos do mundo... se pudéssemos descobrir como transformá-los rapidamente em jogos.

A cadeia do pensamento (CoT)Inteligência Artificial Geral (AGI)

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks