Los autores:
y(1) Corby Rosset, Microsoft Research y Correspondencia a corbyrosset@microsoft.com;
y(2) Ching-An Cheng, de Microsoft Research;
yArindam Mitra, investigador de Microsoft;
yMichael Santacroce, investigador de Microsoft.
y(5) Ahmed Awadallah, Microsoft Research y Correspondencia a hassanam@microsoft.com;
y(6) Tengyang Xie, Microsoft Research y Correspondencia a tengyangxie@microsoft.com.
yAuthors:
(1) Corby Rosset, Microsoft Research y Correspondencia a corbyrosset@microsoft.com;
(2) Ching-An Cheng, de Microsoft Research;
Arindam Mitra, investigador de Microsoft;
Michael Santacroce, investigador de Microsoft.
(5) Ahmed Awadallah, Microsoft Research y Correspondencia a hassanam@microsoft.com;
(6) Tengyang Xie, Microsoft Research y Correspondencia a tengyangxie@microsoft.com.
Mesa de la izquierda
2.1 RLHF basado en modelos de recompensa
2.2 RLHF con preferencias generales
3 Optimización directa de Nash y 3.1 Derivación del algoritmo 1
4 Algoritmo práctico – auto-mejora iterativa de contraste
5 Experimentos y 5.1 Configuración experimental
Appendix
Una extensión a las preferencias regularizadas
C. Detalles experimentales adicionales
4 Algoritmo práctico – auto-mejora iterativa de contraste
En esta sección, nos enfocamos en el diseño algorítmico de la versión prácticamente escalable de DNO, siguiendo los principios discutidos en la última sección.Un desafío primario encontrado en la implementación del algoritmo conceptual DNO (Algoritmo 1) proviene de la necesidad de calcular la expectativa con respecto a la función de preferencia P bajo la política actual πt. Tal vez sorprendentemente, como mostraremos, todo lo que necesitamos es un algoritmo de aprendizaje iterativo DPO-like adecuadamente implementado.
Presentamos nuestra implementación práctica de DNO en el Algoritmo 2 (DNO-Prct), que es un algoritmo en serie que realiza la auto mejora iterativamente a través del aprendizaje contrastante. Una consideración clave en nuestro diseño algorítmico es que solo necesitamos usar implícitamente la función de recompensa rt. Esto proviene de la muestra específicamente diseñada en la política, la filtración de datos y la construcción en pareja. Si bien estas opciones de diseño específicas hacen que DNO-Prct parezca similar a simplemente realizar DPO iterativamente, hay razones significativas para estas decisiones de diseño, como discutiremos a continuación.
Relationship betweenEl DNO-PrctandDPO. El lector puede discernir que DNO-Prct (Algoritmo 2) —la implementación práctica de DNO— puede describirse como una versión iterativa del algoritmo DPO. Tal similitud es por diseño, destinado a aprovechar la simplicidad y efectividad de DPO (Rafailov et al., 2023) y se basa en avances empíricos de trabajo reciente que aplica DPO iterativamente (por ejemplo, Yuan et al., 2024; Tran et al., 2024). Nuestros experimentos señalan la importancia de varias opciones de diseño que ayudan a acomodar las preferencias generales, como las clasificaciones derivadas de las tasas de ganancia en pareja. Más interesante, nuestros hallazgos señalan una conexión sorprendente:Una meticulosamente diseñada iterativaDPOAlgoritmo” podría acercarse al equilibrio de Nash de cualquier preferencia general dada.
Una meticulosamente diseñada iterativaAlgoritmo” podría acercarse al equilibrio de Nash de cualquier preferencia general dada.
Nuestro marco algorítmico general, el DNO (Algoritmo 1) es más amplio y fundamentalmente diferente del DPO iterativo. Por ejemplo, el marco DNO también podría extenderse directamente al caso de preferencia regularizada (como se discute en el Apéndice A) o equipado con otras técnicas de muestra avanzadas (por ejemplo, Liu et al., 2024b, RSO) como se sugiere por el Teorema 1 para la eficiencia de la muestra. Por otro lado, aunque la iteración de la política suave (o la optimización de la recompensa KL-regularizada) se utiliza tanto en el DNO como en el DPO, surgen por razones fundamentalmente diferentes.
se origina del aprendizaje en línea, el aprendizaje sin arrepentirse a través del descenso en espejo (Nemirovskij y Yudin, 1983) o seguido del líder regularizado (FTRL) (Kalai y Vempala, 2005; Cesa-Bianchi y Lugosi, 2006; Shalev-Shwartz et al., 2012; Hazan et al., 2016). Para DPO y PPO, la KL-regularización es una aproximación de la sanción de variación total para garantizar la mejora monótona de la política (Kakade y Langford, 2002; Schulman et al., 2015). Más tarde, este enfoque fue simplificado por Schulman et al. (2017, PPO), y recientemente se utilizó para LLMs post-entrenamiento (Ouyang et al., 2022).
Este artículo está disponible en archivo bajo la licencia CC BY 4.0 DEED.
yEste documento esDisponible en Archivobajo la licencia CC BY 4.0 DEED.