Autoři :
se(1) Corby Rosset, Microsoft Research and Correspondence na adresu corbyrosset@microsoft.com;
seChing-An Cheng, ředitel společnosti Microsoft Research
seArindam Mitra, ředitel společnosti Microsoft Research
seMichael Santacroce, ředitel společnosti Microsoft Research
se(5) Ahmed Awadallah, Výzkum a korespondence společnosti Microsoft na adresu hassanam@microsoft.com;
se(6) Tengyang Xie, Microsoft Research a korespondence na tengyangxie@microsoft.com.
seAuthors:
(1) Corby Rosset, Microsoft Research and Correspondence na adresu corbyrosset@microsoft.com;
Ching-An Cheng, ředitel společnosti Microsoft Research
Arindam Mitra, ředitel společnosti Microsoft Research
Michael Santacroce, ředitel společnosti Microsoft Research
(5) Ahmed Awadallah, Výzkum a korespondence společnosti Microsoft na adresu hassanam@microsoft.com;
(6) Tengyang Xie, Microsoft Research a korespondence na tengyangxie@microsoft.com.
Stůl vlevo
2.1 RLHF na základě modelů odměn
2.2 RLHF s obecnými preferencemi
Přímá Nash optimalizace a 3.1 derivace algoritmu 1
4 Praktický algoritmus – iterativní kontrastní sebevylepšení
5 Experimenty a 5.1 Experimentální nastavení
Appendix
Rozšíření na regulované preference
C Další experimentální detaily
Abstraktní
Tyto dlouhodobé výzkumné studie využívají také analýzu LLLM, která používá preferenční zpětnou vazbu od mocného oraklu, aby pomohl modelu iterativně zlepšit sám sebe. Typický přístup pro post-trénovací LLM zahrnuje posílení učení z lidské zpětné vazby (RLHF), které tradičně odděluje odměňovací učení a následnou optimalizaci politik. Nicméně takový přístup k maximalizaci odměn je omezen povahou odměnového rámce (jako je model Bradley-Terry), který nedokáže vyjádřit složité intransitivní nebo cyklické parametry preferenčních vztahů. Zatímco pokroky na RLHF ukazují odměňovací učení a následnou optimalizaci politik mohou být spojeny do jediného
1 Úvod
Oblast umělé inteligence se vyvíjí směrem k pokročilým modelům, které mohou porozumět, rozumět, následovat složité pokyny a vytvářet nuanční obsah, zatímco se přizpůsobují lidským hodnotám a preferencím. Velké jazykové modely (LLM) (např. Brown et al., 2020; Ouyang et al., 2022; Touvron et al., 2023; OpenAI et al., 2023) prokázaly pozoruhodné schopnosti při vytváření lidského textu, zodpovězení otázek a kódování, přesto se stále potýkají s výzvami v úkolech, které vyžadují vysoký stupeň spolehlivosti, bezpečnosti a etického sladění. Chcete-li řešit tyto výzvy, jemně přizpůsobené LLMs
RLHF rámec bez rámce byl dlouho studován v kontextu preferenčního posilovacího učení (RL) nebo RL z lidských preferencí (např. Knox a Stone, 2008; Akrour et al., 2012; Griffith et al., 2013; Wirth et al., 2017; Christiano et al., 2017). Konvenční metody pro RLHF obvykle předpokládají, že preference je určena skalární odměnou funkcí prostřednictvím některého modelu, jako je často používaný model Bradley-Terry (BT) (Bradley a Terry, 1952).[1] RLHF pak optimalizuje k preferenci ve dvoufázovém postupu: odměna učení, odměna a optimalizace politiky (prostřednictvím RL) k maximalizaci získané odměny. Za
Rámování maximalizace odměny představuje významné omezení. Funkce odměny, definované tak, aby produkovaly skalární skóre r(x, y) pro jedinou odpověď y na vstup x, nemohou vyjádřit obecné preference y y ′, x mezi páry výstupů ve všech případech, např. intransitivní nebo cyklické preference (Elo, 1978). Proto LLM vyškolené v rámci maximalizace odměny nemohou vždy sladit s lidskou preferencí. Kromě toho nedávné práce ukazují, že i v nastavení, kde mohou být preference dokonale vyjádřeny pod modelem BT založeným na odměně, optimalizace směrem k odměnám vede k problematickému chování; čteme referenční Bertrand et al. (2023); Azar
Jsme motivováni překonat dvě samostatné výzvy: omezenou expresivitu RLHF založených na odměnách a nedostatek jasnosti o tom, jak zvýšit míru optimalizace ve vztahu k obecným preferencím.Nedávné pokroky v oblasti optimalizace založené na odměnách, např. DPO, již mají efektivní a škálovatelné implementace – hledáme stejně efektivní řešení v rámci obecných preferencí.
Navrhujeme prokazatelný a škálovatelný algoritmus RLHF –Přímá Nash optimalizace(DNO) (Algorithm 1) který dosahuje toho nejlepšího z obou světů, kombinuje škálovatelnost kontrastních cílů s teoretickou spolehlivostí optimalizace obecných preferencí.DNO je navržen jako hromadný algoritmus s cílem učení založeným na regresi; tato volba designu činí DNO stabilním a škálovatelným, čímž dosahuje rovnováhy mezi efektivitou nasazení a adaptabilitou.
Přímá Nash optimalizace
Níže shrneme na vysoké úrovni klíčové složky a poznatky o DNO.
- se
- Abychom řešili problém, že funkce odměny nemohou vyjádřit obecné preference, využíváme nedávné poznatky, že pojem odměny by měl být vyjádřen jako očekávané výhry ve vztahu k funkci obecné preference.[2] se
- Abychom řešili problém nalezený v předchozích pracích, že optimalizace tohoto obecnějšího cíle pomocí on-line algoritmů je vzorkově neefektivní nebo nestabilní, rozkládáme učební postup na sekvenci iterací „balené na zásadě“, kde každý krok namísto toho optimalizuje jednoduchý regresní cíl. se
- Regresní cíl (vybereme binární cross-entropii) sladí „vnitřní funkci odměny“ politiky s očekávanou mírou výhry ve srovnání se sebou samým (jak je definováno v řádku 3 algoritmu 1). se
- Náš rámec je dostatečně obecný, aby připustil mimořádné vzorky do výcviku, zejména ty od silnějšího učitele (viz výběr μ1 a μ2 v algoritmu 1). se
- Kromě toho pro zajištění stability a výpočetní účinnosti navrhujeme filtrační schéma tak, aby se regrese odměny prováděla pouze na preferenčních párech s dostatečně velkou marží (pro teoretické vysvětlení viz oddíl 4; v praxi viz oddíl 5.2). se
- DNO opakuje tento postup pro více iterací, aby se politika optimalizovala směrem k obecné preferenci. Jelikož každý krok zahrnuje problém regrese, lze jej snadno implementovat v rozsahu. se
Teoreticky dokážeme, že DNO se v průměru sbližuje s zamýšlenou Nashovou rovnováhou a že se může během iterací monotónně zlepšovat (viz oddíl 3.1).Dále naše analýza konečného vzorku ukazuje, že chyba přibližování v jakékoli iterace mezi naučenou politikou a cílem je těsně omezena (teorém 1).
Na praktické straně poskytujeme škálovatelnou implementaci DNO (Algorithm 2): iterativní sebezlepšující algoritmus s kontrastními aktualizacemi, který přibližuje algoritmus 1 pod několika kritickými výběry designu.Tyto volby zahrnují: vzorkování více online výstupů z politiky, která je vyškolena, používání GPT-4 jako preferenčního oraklu, porovnání vzorků na politice s vlastními (učitelskými) výstupy GPT-4, a školení pouze na párech s „velkou marží“ (pro teoretické vysvětlení viz oddíl 4; v praxi viz oddíl 5.2).
Hlavním rozdílem naší práce nad souvisejícími pracemi Nash-MD (Munos et al., 2023) a SPO (Swamy et al., 2024) je to, že oba vykazují problémy s účinností vzorku (dvě aktualizace časového měřítka nebo kroky vzorku neefektivní RL) a oba používají čistě vzorky na politice.
A co je nejdůležitější, DNO funguje v praxi – poskytujeme komplexní empirické hodnocení, což vede k nejmodernějšímu výkonu:
• Výsledný model s parametrem 7B Orca-2.5, vyrovnaný pomocí praktické implementace DNO (Algorithm 2), dosahuje nejmodernější míry výhry jakéhokoli modelu 7B, překračující o 33% oproti GPT-4-Turbo v AlpacaEval 2.0, a to i po ovládání délky. To je více než 26% absolutní zisk (7%→33%) ve srovnání s inicializovaným modelem.
Naše důkladné ablační studie v oddíle 5.2 zkoumají kritické designové kontaktní body týkající se volby funkce ztráty (nadřízený finetuning nebo kontrastní), vzdělávací paradigma (s nebo bez vzorků v rámci politiky), kvalita preferenčního anotátora (velká marže nebo ne) a konstrukce tréninkového páru (samostatná hra, učitel vs. student atd.) Naše zjištění zdůrazňují, že pečlivě navržené metody kódované v algoritmu 2 vedou k podstatným ziskům.
• Ukážeme některé příklady výstupů přes iterace, které demonstrují kvalitativní zlepšení, jako je lepší řešení nuančních problémů a domněnkových otázek (tabulka 5), lepší organizace a jasnost při zdržování se klamných prohlášení (tabulka 6), a vyšší hustotu informací v odpovědích (tabulka 7).
Doufáme, že výsledky prezentované zde poskytnou komunitě jasnost ohledně používání zpětné vazby AI pro post-školení LLM.
Tento dokument je k dispozici v archivu pod licencí CC BY 4.0 DEED.
seTento papír jeDostupné v archivuPod licencí CC BY 4.0 DEED.
[1] Používáme „model odměny“ k označení rámce, který překládá preference do odměn, např. Bradley-Terry, zatímco „funkce odměny“ je (možná naučena) funkce, která vydává odměnné stupnice.