Autoři :
(1) Ze Wang, holistická AI a University College London;
(2) Zekun Wu, holistická AI a University College London;
Jeremy Zhang, Univerzita Emory
Navya Jain, University College Londýn
(5) Xin Guan, holistická AI
6 Adriano Koshiyama.
Authors:
(1) Ze Wang, holistická AI a University College London;
(2) Zekun Wu, holistická AI a University College London;
Jeremy Zhang, Univerzita Emory
Navya Jain, University College Londýn
(5) Xin Guan, holistická AI
6 Adriano Koshiyama.
Stůl vlevo
C Kvalitativní rámec pro analýzu předsudků a příklad rozšíření předsudků přes generace
Distribuce indexu kvality textu mezi generacemi
Průměrná perplexita mezi generacemi
F Příklad zhoršení kvality přes generace
Abstraktní
Vzhledem k tomu, že mechanické syntézy velkých jazykových modelů (LLM) se stále více integrují do různých aspektů společnosti, významná část online textu se následně stává syntetickou. To vyvolává obavy o zvětšení biasů, jev, ve kterém modely vycvičené na syntetických datech zvětšují předešlé biasy nad následnými tréninkovými iteracemi. Předchozí literatura zřídka diskutuje o zvětšení biasů jako o nezávislém problému kolapsu modelu. V této práci řešíme mezeru v porozumění zvětšení biasů LLM se čtyřmi hlavními příspěvky. Za prvé navrhujeme teoretický rámec, který definuje nezbytné a dostatečné podmínky pro jeho výskyt. Předchozí literatura zdů
1 Úvod
Velké stereografické modely (LLM) jsou podporovány velkými množstvími textů vyškrtnutých z internetu, které hrají klíčovou roli při zlepšování jejich schopností, ať už prostřednictvím vznikajících schopností (Wei et al., 2022) nebo specifických zákonů o škálování (Kaplan et al., 2020). Nicméně, jak se LLM stávají široce integrovanými do lidské společnosti (Peña-Fernández et al., 2023; Porlezza a Ferri, 2022; Nishal a Diakopoulos, 2024) – rostou obavy, že významná část on-line textu v budoucnu může být generována, buď zcela nebo částečně, LLMs (Peña-Fernández et al., 2023; Porlezza a Ferri, 2022; N
Zvětšení předsudků má hluboké společenské důsledky. Může vést k udržení stereotypů, posílení sociálních nerovností a marginalizace nedostatečně zastoupených skupin. V kontextu politických předsudků to může ovlivnit veřejné mínění, zkreslit demokratické procesy a zhoršit polarizaci. Pochopení a zmírnění rozšíření předsudků je proto zásadní pro zajištění toho, aby LLM pozitivně přispívaly ke společnosti a neúmyslně nezpůsobily škodu. Nicméně, navzdory literatuře o rozšíření předsudků v diskriminačních modelech, existuje pozoruhodný nedostatek komplexních rámců a empirických studií zaměřených konkrétně na rozšíření předsudků pro LLM,
V tomto článku se snažíme tuto výzkumnou mezeru vyplnit tím, že navrhneme teoretický rámec, který stanoví a vysvětluje příčiny zesílení předsudků v LLMs.Dále provádíme statistické simulace a experimenty LLM, abychom prokázali a ukázali teorém.
-
Theoretical Framework: We establish the necessary and sufficient conditions for bias amplification (i.e. Theorem 1). The theorem aids in understanding the cause of bias amplification and in distinguishing between bias amplification and model collapse. We conduct statistical simulations using weighted maximum likelihood estimation to illustrate the theorem (see Section 3.2).
-
Benchmarking Tool: We trained a highly accurate classifier capable of detecting political leaning in long-text content. With this classifier, we offer a benchmark for evaluating political bias in LLMs through open-generation tasks, filling a gap not covered in current bias studies (see Sections 2 and 4.3).
-
Empirical Demonstration and Mitigation Strategies: We demonstrate bias amplification in terms of political bias in GPT-2 using our benchmarking tool: the model exhibits a right-leaning bias in sentence continuation tasks and becomes increasingly right-leaning over successive generations (see Section 5.1). Additionally, we conducted experiments with three potential mitigation strategies, i.e. Overfitting, Preservation, and Accumulation, comparing their effectiveness, and found that some are surprisingly effective (see Section 5.3).
-
Mechanistic Interpretation: Building on our framework, we propose an innovative mechanistic interpretation pipeline that identifies two distinct sets of neurons responsible for bias amplification and model collapse during iterative fine-tuning experiments with GPT-2. We found minimal overlap between these two sets, supporting our theorem that bias amplification can occur independently of model collapse (see Section 5.4).
Zbytek papíru je uspořádán následovně: Nejprve diskutujeme o související práci v oddíle 2. V oddíle 3 představujeme náš teoretický rámec pro zesilování předsudků a provádíme statistickou simulaci. Oddíl 4 popisuje experimentální nastavení pro naše experimenty LLM, včetně přípravy dat a jemného nastavení modelů. V oddíle 5 prezentujeme naše empirické zjištění o zesilování předsudků a účinnosti strategií zmírňování.
Tento dokument je k dispozici v archivu pod licencí CC BY-NC-SA 4.0.
Tento papír jeDostupné v archivuPod licencí CC BY-NC-SA 4.0