Autorii :
(1) Ze Wang, Holistic AI și University College London;
(2) Zekun Wu, AI holistică și University College London;
(3) Jeremy Zhang, Universitatea Emory;
(4) Navya Jain, Universitatea din Londra;
(5) Xin Guan, AI holistică;
Adriano Koshiyama.
Authors:
(1) Ze Wang, Holistic AI și University College London;
(2) Zekun Wu, AI holistică și University College London;
(3) Jeremy Zhang, Universitatea Emory;
(4) Navya Jain, Universitatea din Londra;
(5) Xin Guan, AI holistică;
Adriano Koshiyama.
Tabelul din stânga
A. Formularea matematică a WMLE
Distribuția indexului calității textului între generații
E Perplexitatea medie între generații
Exemplu de deteriorare a calității de-a lungul generațiilor
abstractă
Pe măsură ce seturile de date cu potențial ridicat (LLM) devin din ce în ce mai mult integrate în diferite fațete ale societății, o parte semnificativă a textului online devine în consecință sintetică. Acest lucru ridică îngrijorări cu privire la amplificarea biasului, un fenomen în care modelele instruite pe date sintetice amplifică biasele preexistente peste iterațiile de formare succesive. Literatura anterioară subliniază că amplificarea biasului are loc rar ca o problemă independentă de colapsul modelului. În această lucrare, abordăm decalajul în înțelegerea amplificării biasului LLM cu patru contribuții principale. În primul rând, propunem un cadru teoretic, definind condițiile necesare și suficiente pentru colapsul modelului. În al doilea rând
1 Introducere
În timp ce grupurile LLM sunt predispuse la astfel de modele de limbă stereografică (LLMs) sunt predispuse la mari cantități de date sintetizate de pe internet, care joacă un rol crucial în îmbunătățirea capacităților lor, fie prin abilități emergente (Wei et al., 2022) sau prin legi specifice de scalare (Kaplan et al., 2020). Cu toate acestea, pe măsură ce LLMs devin mai integrate în societatea umană - de exemplu, în crearea de conținut și rezumare în mass-media, mediul academic și în afaceri (Maslej et al., 2024) - se ridică îngrijorarea că o parte semnificativă a textului online în viitor poate fi generată, fie în întregime, fie parțial, de LLMs (Peña-Fernández et
Amplificarea prejudecăților are implicații sociale profunde. Aceasta poate duce la perpetuarea stereotipurilor, consolidarea inegalităților sociale și marginalizarea grupurilor subreprezentate. În contextul prejudecăților politice, acest lucru poate influența opinia publică, distorsiona procesele democratice și exacerbează polarizarea. Înțelegerea și atenuarea amplificării prejudecăților este, prin urmare, crucială pentru a se asigura că LLM-urile contribuie pozitiv la societate și nu cauzează în mod neintenționat rău. Cu toate acestea, în ciuda literaturii privind amplificarea prejudecăților în modelele discriminatorii, există o lipsă notabilă de cadre cuprinzătoare și studii empirice care abordează în mod specific amplificarea prejudecăților pentru LLM-
În acest articol, încercăm să umplem această lacună de cercetare propunând un cadru teoretic care stabilește și explică cauzele amplificării biasului în LLM. În plus, efectuăm atât simulări statistice, cât și experimente LLM pentru a demonstra și a exemplifica teorema.
-
Theoretical Framework: We establish the necessary and sufficient conditions for bias amplification (i.e. Theorem 1). The theorem aids in understanding the cause of bias amplification and in distinguishing between bias amplification and model collapse. We conduct statistical simulations using weighted maximum likelihood estimation to illustrate the theorem (see Section 3.2).
-
Benchmarking Tool: We trained a highly accurate classifier capable of detecting political leaning in long-text content. With this classifier, we offer a benchmark for evaluating political bias in LLMs through open-generation tasks, filling a gap not covered in current bias studies (see Sections 2 and 4.3).
-
Empirical Demonstration and Mitigation Strategies: We demonstrate bias amplification in terms of political bias in GPT-2 using our benchmarking tool: the model exhibits a right-leaning bias in sentence continuation tasks and becomes increasingly right-leaning over successive generations (see Section 5.1). Additionally, we conducted experiments with three potential mitigation strategies, i.e. Overfitting, Preservation, and Accumulation, comparing their effectiveness, and found that some are surprisingly effective (see Section 5.3).
-
Mechanistic Interpretation: Building on our framework, we propose an innovative mechanistic interpretation pipeline that identifies two distinct sets of neurons responsible for bias amplification and model collapse during iterative fine-tuning experiments with GPT-2. We found minimal overlap between these two sets, supporting our theorem that bias amplification can occur independently of model collapse (see Section 5.4).
Restul lucrării este organizat după cum urmează: Discutăm mai întâi lucrările conexe în Secțiunea 2. În Secțiunea 3, prezentăm cadrul nostru teoretic pentru amplificarea biasului și efectuăm o simulare statistică. Secțiunea 4 descrie setarea experimentală pentru experimentele noastre LLM, inclusiv pregătirea datelor și ajustarea fină a modelelor. În Secțiunea 5, prezentăm concluziile noastre empirice privind amplificarea biasului și eficacitatea strategiilor de atenuare.
Acest document este disponibil în arhivă sub licența CC BY-NC-SA 4.0.
Acest document esteDisponibil în arhivăÎn conformitate cu CC BY-NC-SA 4.0.