627 lecturas
627 lecturas

Cómo el aprendizaje contrastante ayuda a la IA a mejorarse

Demasiado Largo; Para Leer

Esta sección presenta DNO-Prct, una implementación práctica y escalable de Direct Nash Optimization. Aprovecha el aprendizaje iterativo contrastante —similar al DPO— pero está diseñado para el entrenamiento en serie con preferencias generales. Al usar implícitamente señales de recompensa y estructurar comparaciones en pareja, DNO-Prct permite una mejora eficiente de sí mismo y aborda el equilibrio de Nash en modelos de preferencia de IA complejos.
featured image - Cómo el aprendizaje contrastante ayuda a la IA a mejorarse
Language Models (dot tech) HackerNoon profile picture
0-item
y

Los autores:

y

(1) Corby Rosset, Microsoft Research y Correspondencia a corbyrosset@microsoft.com;

y

(2) Ching-An Cheng, de Microsoft Research;

y

Arindam Mitra, investigador de Microsoft;

y

Michael Santacroce, investigador de Microsoft.

y

(5) Ahmed Awadallah, Microsoft Research y Correspondencia a hassanam@microsoft.com;

y

(6) Tengyang Xie, Microsoft Research y Correspondencia a tengyangxie@microsoft.com.

y

Authors:

(1) Corby Rosset, Microsoft Research y Correspondencia a corbyrosset@microsoft.com;

(2) Ching-An Cheng, de Microsoft Research;

Arindam Mitra, investigador de Microsoft;

Michael Santacroce, investigador de Microsoft.

(5) Ahmed Awadallah, Microsoft Research y Correspondencia a hassanam@microsoft.com;

(6) Tengyang Xie, Microsoft Research y Correspondencia a tengyangxie@microsoft.com.

Abstracto y 1 Introducción

2 Preliminares

2.1 RLHF basado en modelos de recompensa

2.2 RLHF con preferencias generales

3 Optimización directa de Nash y 3.1 Derivación del algoritmo 1

3.2 Análisis teórico

4 Algoritmo práctico – auto-mejora iterativa de contraste

5 Experimentos y 5.1 Configuración experimental

5.2 Resultados y análisis

6 Trabajo relacionado

7 Conclusiones y referencias


Appendix

Una extensión a las preferencias regularizadas

B. Pruebas detalladas

C. Detalles experimentales adicionales

4 Algoritmo práctico – auto-mejora iterativa de contraste

En esta sección, nos enfocamos en el diseño algorítmico de la versión prácticamente escalable de DNO, siguiendo los principios discutidos en la última sección.Un desafío primario encontrado en la implementación del algoritmo conceptual DNO (Algoritmo 1) proviene de la necesidad de calcular la expectativa con respecto a la función de preferencia P bajo la política actual πt. Tal vez sorprendentemente, como mostraremos, todo lo que necesitamos es un algoritmo de aprendizaje iterativo DPO-like adecuadamente implementado.


Presentamos nuestra implementación práctica de DNO en el Algoritmo 2 (DNO-Prct), que es un algoritmo en serie que realiza la auto mejora iterativamente a través del aprendizaje contrastante. Una consideración clave en nuestro diseño algorítmico es que solo necesitamos usar implícitamente la función de recompensa rt. Esto proviene de la muestra específicamente diseñada en la política, la filtración de datos y la construcción en pareja. Si bien estas opciones de diseño específicas hacen que DNO-Prct parezca similar a simplemente realizar DPO iterativamente, hay razones significativas para estas decisiones de diseño, como discutiremos a continuación.





Relationship betweenEl DNO-PrctandDPO. El lector puede discernir que DNO-Prct (Algoritmo 2) —la implementación práctica de DNO— puede describirse como una versión iterativa del algoritmo DPO. Tal similitud es por diseño, destinado a aprovechar la simplicidad y efectividad de DPO (Rafailov et al., 2023) y se basa en avances empíricos de trabajo reciente que aplica DPO iterativamente (por ejemplo, Yuan et al., 2024; Tran et al., 2024). Nuestros experimentos señalan la importancia de varias opciones de diseño que ayudan a acomodar las preferencias generales, como las clasificaciones derivadas de las tasas de ganancia en pareja. Más interesante, nuestros hallazgos señalan una conexión sorprendente:Una meticulosamente diseñada iterativaDPOAlgoritmo” podría acercarse al equilibrio de Nash de cualquier preferencia general dada.

Una meticulosamente diseñada iterativaAlgoritmo” podría acercarse al equilibrio de Nash de cualquier preferencia general dada.


Nuestro marco algorítmico general, el DNO (Algoritmo 1) es más amplio y fundamentalmente diferente del DPO iterativo. Por ejemplo, el marco DNO también podría extenderse directamente al caso de preferencia regularizada (como se discute en el Apéndice A) o equipado con otras técnicas de muestra avanzadas (por ejemplo, Liu et al., 2024b, RSO) como se sugiere por el Teorema 1 para la eficiencia de la muestra. Por otro lado, aunque la iteración de la política suave (o la optimización de la recompensa KL-regularizada) se utiliza tanto en el DNO como en el DPO, surgen por razones fundamentalmente diferentes.


Figure 2: Comparison of various post-training techniques showing that Direct Nash Optimization (DNO) is the most effective. All methods with colorful error bands are 1) implemented by ourselves, 2) initialized with a 7B parameter Orca-2.5 LLM, and 3) are “batched on-policy” (except SFT and Offline DPO which are epochs), all else being equal.


se origina del aprendizaje en línea, el aprendizaje sin arrepentirse a través del descenso en espejo (Nemirovskij y Yudin, 1983) o seguido del líder regularizado (FTRL) (Kalai y Vempala, 2005; Cesa-Bianchi y Lugosi, 2006; Shalev-Shwartz et al., 2012; Hazan et al., 2016). Para DPO y PPO, la KL-regularización es una aproximación de la sanción de variación total para garantizar la mejora monótona de la política (Kakade y Langford, 2002; Schulman et al., 2015). Más tarde, este enfoque fue simplificado por Schulman et al. (2017, PPO), y recientemente se utilizó para LLMs post-entrenamiento (Ouyang et al., 2022).


y

Este artículo está disponible en archivo bajo la licencia CC BY 4.0 DEED.

y

Este documento esDisponible en Archivobajo la licencia CC BY 4.0 DEED.


Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks