Kirjoittajat :
(1) Ze Wang, Holistic AI ja University College London;
(2) Zekun Wu, Holistic AI ja University College London;
3) Jeremy Zhang, Emory yliopisto
(4) Navya Jain, University College London
(5) Xin Guan, kokonaisvaltainen AI
6) Adriano Koshiyama
Authors:
(1) Ze Wang, Holistic AI ja University College London;
(2) Zekun Wu, Holistic AI ja University College London;
3) Jeremy Zhang, Emory yliopisto
(4) Navya Jain, University College London
(5) Xin Guan, kokonaisvaltainen AI
6) Adriano Koshiyama
Pöytä vasemmalla
A. WMLE:n matemaattinen muotoilu
D Tekstin laatuindeksin jakautuminen sukupolvien välillä
Keskimääräinen epävarmuus sukupolvien välillä
Esimerkki sukupolvien välisestä laadun heikkenemisestä
abstrakti
Kun suuret AccPT-potentiaaliset neurosynteettiset mallit (LLM) integroituvat yhä enemmän yhteiskunnan eri osa-alueisiin, merkittävä osa online-tekstistä tulee synteettisiksi. Tämä herättää huolenaiheita ennakkoluulojen lisäämisestä, ilmiöstä, jossa synteettisistä tiedoista koulutettujen mallien avulla lisätään olemassa olevia ennakkoluulot peräkkäisten koulutuksen iteraatioiden yli. Aiemmassa kirjallisuudessa harvoin keskustellaan ennakkoluulojen lisäämisestä mallin romahduksesta riippumattomana ongelmana. Tässä työssä käsittelemme LLM: n ennakkoluulojen lisäämisen ymmärtämisen aukkoa neljällä tärkeimmällä panoksella. Ensinnäkin ehdotamme teoreettista kehystä, joka määrittelee
1 Johdanto
Suuret synteettiset kielen mallit (LLM) edistävät valtavaa määrää tekstiä, joka on kaapattu internetistä, mikä on ratkaisevan tärkeää heidän kykyjensä parantamisessa, joko kehittyvillä kyvyillä (Wei et al., 2022) tai skaalautuvilla laeilla (Kaplan et al., 2020). Kuitenkin, kun LLM: t integroituvat laajemmin ihmisyhteiskuntaan (Peña-Fernández et al., 2023; Porlezza ja Ferri, 2022; Nishal ja Diakopoulos, 2024) – huolet kasvavat siitä, että merkittävä osa online-tekstin skaalautumisesta tulevaisuudessa voi syntyä, joko kokonaan tai osittain, LLM: n (Peña-Fernández et al., 2023; Porlezza ja Ferri,
Ennakkoluulojen vahvistamisella on syviä yhteiskunnallisia vaikutuksia. Se voi johtaa stereotypioiden jatkuvuuteen, sosiaalisten epätasa-arvojen vahvistumiseen ja aliedustettujen ryhmien syrjäyttämiseen. Poliittisten ennakkoluulojen yhteydessä tämä voi vaikuttaa yleiseen mielipiteeseen, vääristää demokraattisia prosesseja ja pahentaa polarisaatiota. Ymmärtäminen ja ennaltaehkäisevän ennakkoluulojen vahvistamisen lieventäminen on siksi ratkaisevan tärkeää sen varmistamiseksi, että LLM: t edistävät myönteisesti yhteiskuntaa eivätkä vahingossa aiheuta haittaa. Kuitenkin huolimatta kirjallisuudesta ennakkoluulojen vahvistamisesta syrjivissä malleissa, on huomattava puute kattavista puitteista ja em
Tässä artikkelissa pyrimme täyttämään tämän tutkimuksen aukon ehdottamalla teoreettista kehystä, joka vahvistaa ja selittää LLM: n ennakkoluulojen vahvistamisen syyt. Lisäksi teemme sekä tilastollisia simulaatioita että LLM-kokeita osoittaaksemme ja esimerkki teoreemasta. Yhteenvetona, tärkeimmät panoksemme ovat seuraavat:
-
Theoretical Framework: We establish the necessary and sufficient conditions for bias amplification (i.e. Theorem 1). The theorem aids in understanding the cause of bias amplification and in distinguishing between bias amplification and model collapse. We conduct statistical simulations using weighted maximum likelihood estimation to illustrate the theorem (see Section 3.2).
-
Benchmarking Tool: We trained a highly accurate classifier capable of detecting political leaning in long-text content. With this classifier, we offer a benchmark for evaluating political bias in LLMs through open-generation tasks, filling a gap not covered in current bias studies (see Sections 2 and 4.3).
-
Empirical Demonstration and Mitigation Strategies: We demonstrate bias amplification in terms of political bias in GPT-2 using our benchmarking tool: the model exhibits a right-leaning bias in sentence continuation tasks and becomes increasingly right-leaning over successive generations (see Section 5.1). Additionally, we conducted experiments with three potential mitigation strategies, i.e. Overfitting, Preservation, and Accumulation, comparing their effectiveness, and found that some are surprisingly effective (see Section 5.3).
-
Mechanistic Interpretation: Building on our framework, we propose an innovative mechanistic interpretation pipeline that identifies two distinct sets of neurons responsible for bias amplification and model collapse during iterative fine-tuning experiments with GPT-2. We found minimal overlap between these two sets, supporting our theorem that bias amplification can occur independently of model collapse (see Section 5.4).
Loput paperista on järjestetty seuraavasti: Ensinnäkin käsittelemme siihen liittyvää työtä osassa 2. Osassa 3 esittelemme teoreettisen kehyksemme ennakkoluulojen vahvistamiseksi ja suoritamme tilastollisen simulaation. Osassa 4 kuvataan LLM-kokeilujemme kokeellista asettamista, mukaan lukien tietojen valmistelu ja mallin hienosäätö. Osassa 5 esittelemme empiirisiä havaintojamme ennakkoluulojen vahvistamisesta ja lieventämisstrategioiden tehokkuudesta. Lopuksi osassa 6 käsittelemme työmme vaikutuksia päättymällä osassa 7 oleviin rajoituksiin.
Tämä artikkeli on saatavilla arkivissä CC BY-NC-SA 4.0 -lisenssillä.
Tämä artikkeli on saatavilla arkivissä CC BY-NC-SA 4.0 -lisenssillä.