Waandishi wa:
(1) Ze Wang, Holistic AI na Chuo Kikuu cha London;
(2) Zekun Wu, AI Holistic na Chuo Kikuu cha London;
(3) Jeremy Zhang, Chuo Kikuu cha Emory;
(4) Navya Jain, Chuo Kikuu cha London;
(5) Xin Guan, AI ya Holistic;
6) Adriano Koshiyama.
Authors:
(1) Ze Wang, Holistic AI na Chuo Kikuu cha London;
(2) Zekun Wu, AI Holistic na Chuo Kikuu cha London;
(3) Jeremy Zhang, Chuo Kikuu cha Emory;
(4) Navya Jain, Chuo Kikuu cha London;
(5) Xin Guan, AI ya Holistic;
6) Adriano Koshiyama.
Orodha ya kulia
A. Ufafanuzi wa Mathematical ya WMLE
C Mfumo wa Uchambuzi wa Bias ya Ubora na Mfano wa Amplification ya Bias Katika Miaka
D Usambazaji wa Kiwango cha ubora wa maandishi miongoni mwa vizazi
Mabadiliko ya wastani kati ya kizazi
F Mfano wa uharibifu wa ubora wa kizazi
Abstract ya
Kama vifaa vingi vya uchambuzi wa uwezo wa neva (LLMs) vimekuwa zaidi na zaidi kuunganishwa katika vipengele mbalimbali vya jamii, sehemu kubwa ya maandishi ya mtandaoni hupata synthesis. Hii inasukuma wasiwasi kuhusu uongofu wa uongofu, athari ambapo mifano iliyoundwa juu ya data ya uchambuzi huongeza uongofu wa zamani juu ya iterations za mafunzo zilizofuata. Uandishi wa awali hauna kujadili uongofu wa uongofu kama suala la kujitegemea kutoka kuanguka kwa mfano. Katika kazi hii, tunashughulikia upungufu katika kuelewa uongofu wa uongofu wa LLMs na mchango wa msingi wanne. Kwanza, tunapendekeza mfumo wa nadharia, unaelezea hali zinazohitajika
1 Maelezo ya
Makundi makubwa ya LLM ya al-Synthetic (LLMs) yanafaidika na takwimu kubwa zilizochapishwa kutoka mtandao, ambayo inachukua jukumu muhimu katika kuboresha uwezo wao, iwe kwa njia ya uwezo wa kuongezeka (Wei et al., 2022) au sheria maalum za kupanua (Kaplan et al., 2020). Hata hivyo, kwa kuwa LLMs zinaweza kuingizwa zaidi katika jamii ya binadamu—kwa mfano, katika uumbaji wa maudhui na ufungaji katika vyombo vya habari, chuo kikuu, na biashara (Maslej et al., 2024)—una wasiwasi wa kuongezeka kwamba sehemu kubwa ya maandishi ya mtandaoni katika siku zijazo inaweza kuundwa, au kwa sehemu, na LLMs (Peña-Fernández et al., 2023; Porlezza na Ferri, 2022
Kuongezeka kwa uhasama una madhara makubwa ya jamii. Inaweza kusababisha kuongezeka kwa stereotypes, kuongezeka kwa usawa wa kijamii, na marginalization ya vikundi vya chini. Katika mazingira ya uhasama wa kisiasa, hii inaweza kuathiri maoni ya umma, kuharibu mchakato wa kidemokrasia, na kuharibu polarization. Kuelewa na kupunguza uhasama wa uhasama ni kwa hiyo muhimu ili kuhakikisha kwamba LLMs kuongezeka kwa ufanisi kwa jamii na si kwa makosa kusababisha uharibifu. Hata hivyo, licha ya maandiko juu ya uhasama wa uhasama katika mifano ya ubaguzi, kuna ukosefu mkubwa wa mifumo kamili na masomo ya empirical yanayohusu uhasama wa uhasama kwa LLMs, kama ilivyoonyeshwa katika Sehemu ya 2. Tofauti na mif
Katika makala hii, tunajaribu kujaza upungufu huu wa utafiti kwa kupendekeza mfumo wa nadharia unaoanzisha na kuelezea sababu za upungufu wa ubaguzi katika LLMs. Zaidi ya hayo, tunachukua simulation ya takwimu na majaribio ya LLM ili kuonyesha na mifano ya kauli.
-
Theoretical Framework: We establish the necessary and sufficient conditions for bias amplification (i.e. Theorem 1). The theorem aids in understanding the cause of bias amplification and in distinguishing between bias amplification and model collapse. We conduct statistical simulations using weighted maximum likelihood estimation to illustrate the theorem (see Section 3.2).
-
Benchmarking Tool: We trained a highly accurate classifier capable of detecting political leaning in long-text content. With this classifier, we offer a benchmark for evaluating political bias in LLMs through open-generation tasks, filling a gap not covered in current bias studies (see Sections 2 and 4.3).
-
Empirical Demonstration and Mitigation Strategies: We demonstrate bias amplification in terms of political bias in GPT-2 using our benchmarking tool: the model exhibits a right-leaning bias in sentence continuation tasks and becomes increasingly right-leaning over successive generations (see Section 5.1). Additionally, we conducted experiments with three potential mitigation strategies, i.e. Overfitting, Preservation, and Accumulation, comparing their effectiveness, and found that some are surprisingly effective (see Section 5.3).
-
Mechanistic Interpretation: Building on our framework, we propose an innovative mechanistic interpretation pipeline that identifies two distinct sets of neurons responsible for bias amplification and model collapse during iterative fine-tuning experiments with GPT-2. We found minimal overlap between these two sets, supporting our theorem that bias amplification can occur independently of model collapse (see Section 5.4).
Sehemu nyingine ya makala ni iliyoundwa kama ifuatavyo: Kwanza tunazungumzia kazi inayohusiana katika Sehemu ya 2. Katika Sehemu ya 3, tunatoa mfumo wetu wa nadharia wa kupanua utaratibu na kufanya simulation ya takwimu. Sehemu ya 4 inaelezea mipangilio ya majaribio ya majaribio yetu ya LLM, ikiwa ni pamoja na maandalizi ya data na kubadilisha mifano. Katika Sehemu ya 5, tunatoa matokeo yetu ya uzoefu juu ya kupanua utaratibu na ufanisi wa mikakati ya kupunguza. Hatimaye, katika Sehemu ya 6, tunazungumzia madhara ya kazi yetu, na hatimaye na mipaka katika Sehemu ya 7.
Makala hii inapatikana kwenye archiv chini ya leseni ya CC BY-NC-SA 4.0.
Makala hii inapatikana kwenye archiv chini ya leseni ya CC BY-NC-SA 4.0.