Você já se perguntou como os gerentes de circo conseguem ursos para equilibrar uma bola, ou um tigre para saltar através de saltos em chamas? A resposta: reforço. Os tigres geralmente não saltam através de saltos em chamas, mas eles vão se você lhes dar um pedaço saboroso de carne toda vez que ele faz. Finalmente, um tigre aprende que, a fim de obter a comida, ele deve realizar os saltos ousados, e assim faz de forma hábil e consistente. Os humanos aprendem de maneiras semelhantes: aprendemos a comer comida saudável, exercício, e estudar duro para ganhar algo positivo, seja uma explosão de dopamina, dinheiro, e sucesso. Este fenômeno, em que um humano (ou praticamente qualquer outro animal) aumenta um comportamento específico depois que eles são recompensados de alguma forma por
Wisdom Comes from Within
Em 1938, o psicólogo B. F. Skinner
Foi esta simples verdade que levou Christopher Watkins a desenvolver seu
Então, um possível par de ações de estado seria escolher “4” na segunda porta. Outra seria escolher “6” na segunda porta, embora esta escolha provavelmente leve a uma recompensa muito menor, uma vez que é o número errado para a segunda porta. Digamos que a recompensa por passar a sexta porta é 1, e que cada porta adicional passada (não incluindo a sexta) dá uma recompensa de 0,2. Um agente de aprendizagem Q precoce provavelmente teria tentado os dígitos 1-9 na primeira porta, a segunda porta, e assim por diante. Ele faria isso até tentar todos os possíveis resultados de pares de valores de estado e receber todas as recompensas para cada combinação desses pares. Ele então se resolveria para a série de dígitos levando à recompensa mais alta, que, como podemos dizer, é a combinação correta 5-4Q Valores, uma variável proposta que denotaria a recompensa resultante de um par de ação-valor específico.Ao aprender a maximizar o valor Q, Watkins hipotetizou, os modelos serão capazes de tomar decisões ótimas em um ambiente não probabilístico.
DeepMind Steps In
Em 2013, pesquisadores do laboratório de pesquisa de IA DeepMind publicaram o que se tornaria uma
A equipe do DeepMind resolveu ambos os problemas de forma inteligente.Para mitigar o custo computacional de executar todas as opções, eles introduziram oEpsilon-Greedy emEste método, nomeado após a letra grega epsilon (Ɛ), equilibra asPolíticas de ganânciade sempre ir atrás da maior recompensa conhecida com umPolítica de exploraçãoA ideia é que, em cada estado, o agente terá uma chance Ɛ de explorar (escolher uma das ações aleatoriamente) e uma chance de 1 - Ɛ de seguir o valor máximo Q como ditado pela política gananciosa. Se você não estiver em explicações formais, isso basicamente significa que o modelo terá uma probabilidade definida de tentar novas ações de vez em quando, um comportamento útil que economizará muito tempo, concentrando-se na maximização (de modo que pares de ações de estado menos valiosos possam ser ignorados) ao mesmo tempo que também permite flexibilidade na tomada de decisão (de modo que o agente não fique preso às máximas locais).
Então, houve o problema da avaliação.Se o agente ainda está no processo de terminar um jogo, por exemplo, como ele saberá que certas ações levarão diretamente a um resultado melhor?Porquedo seu claping. bem, o agente devePrevisãoA DeepMind introduziu uma nova maneira do que eles chamam de “quebrar a correlação” entre o estado-ações pares com oA rede Q.A Rede Q é basicamente um modelo compacto de Machine Learning dentro do DQN completo.O único trabalho da Rede Q é aprender com as experiências do agente e, dado um estado,PrevisãoVoltando ao nosso exemplo com portas e senhas, uma rede Q bem treinada produzirá um valor Q mais elevado para a ação de adivinhar o número correto em cada porta, em vez de adivinhar um número incorreto.Experiência Replay, a rede é capaz de ser treinada em um lote de dados que o agente recebe do ambiente, e é assim capaz de ajustar seus pesos para prever melhor os Valores Q e, assim, ser mais eficaz no "conselho" que dá ao agente.
All the World’s a Game…
O Reinforcement Learning na sua forma mais pura teve muitos avanços.A DeepMind, após sua aquisição pelo Google em 2014, continuou a desenvolver
- AlphaGo, que chocou o mundo ao derrotar decisivamente o campeão mundial de Go, Lee Sedol, no que era considerado um dos jogos de tabuleiro mais complexos já feitos.
- AlphaProof, uma variante dedicada à resolução de problemas matemáticos da Olimpíada operando em provas formalizadas pelo LEAN, obteve um prêmio de prata nos testes de benchmarking da Olimpíada Internacional de Matemática (IMO).
- A AlphaFold, que ganhou o Prêmio Nobel de Biologia em 2024, alcançou avanços na formação de proteínas, um dos aspectos mais complicados da biologia molecular.
O conceito de Reinforcement Learning tem muito a nos ensinar sobre a vida: descobrir o que tem o maior valor, e procurar alcançar esse valor através de ações. Se algo não vai bem, tente outra coisa até que funcione. Os seres humanos muitas vezes ignoram as sutilezas dos próprios sistemas que projetamos, e é por isso que eu amo o Reinforcement Learning tanto. Para algo tão simples e brilhante, seu potencial é confinado pela (ironicamente) natureza da humanidade. Uma das partes mais importantes do processo RL, ou seja, a função de recompensa, é definida por humanos. Olhando para trás para as realizações da equipe AlphaZero, é óbvio que somos o fator limitante no que pode ser feito usando RL. Parecia que, uma vez que AlphaZero poderia resolver quase qualquer jogo heuristicamente, a única coisa a
E é isso que os principais pesquisadores do mundo estão fazendo. Bem, tipo. Quando eu aprendi pela primeira vez sobre o RL no verão de 2024, a tecnologia não teve um grande avanço desde os triunfos da equipe AlphaZero em 2017. Todo mundo estava falando sobre o ChatGPT, parecia, bem como os novos Transformers que tinham dominado a discussão de tecnologia por meio ano. Pensei misteriosamente sobre o quão legal o RL era, e depois esqueci. Ou seja, até que a OpenAI tivesse a ideia de combinar a arquitetura do Transformer com o Reinforcement Learning, criando um híbrido impuro que eu gostaria de chamar de RL-LLMs, ou Reinforcement Learning-Large Language Models, por simplicidade. Parecia um não-brainer: reforçado por um paradigma chamado
Este artigo é trazido para você por Nossa IA, uma organização de ética de IA fundada por estudantes e liderada por estudantes que procura diversificar perspectivas em IA além do que é tipicamente discutido nas mídias modernas.
Este artigo é trazido para você por Nossa IA, uma organização de ética de IA fundada por estudantes e liderada por estudantes que procura diversificar perspectivas em IA além do que é tipicamente discutido nas mídias modernas.https://www.our-ai.org/ai-nexus/read!
Learn More
Dito isto, RL tem um longo caminho a percorrer antes de atingir seu máximo potencial.