Los autores:
(1) Ze Wang, AI holística y University College London;
(2) Zekun Wu, AI holística y University College London;
Jeremy Zhang, Universidad de Emory.
(4) Navya Jain, Universidad de Londres;
(5) Xin Guan, la AI holística;
Adriano Koshiyama.
Authors:
(1) Ze Wang, AI holística y University College London;
(2) Zekun Wu, AI holística y University College London;
Jeremy Zhang, Universidad de Emory.
(4) Navya Jain, Universidad de Londres;
(5) Xin Guan, la AI holística;
Adriano Koshiyama.
Mesa de la izquierda
Formulación matemática de WMLE
Distribución del Índice de Calidad de Texto a través de las generaciones
La perplejidad a través de las generaciones
Ejemplo de deterioro de la calidad a través de las generaciones
Abstracción
A medida que los modelos de lenguaje finito (LLM) se integran cada vez más en las diversas facetas de la sociedad, una parte significativa del texto en línea se convierte en sintético. Esto plantea preocupaciones sobre la amplificación del bias, un fenómeno en el que los modelos entrenados en datos sintéticos amplifican los bias preexistentes sobre las iteraciones de formación sucesivas. La literatura anterior rara vez discute la amplificación del bias como un problema independiente del colapso del modelo. En este trabajo, abordamos la brecha en la comprensión de la amplificación del bias de los LLM con cuatro contribuciones principales. En primer lugar, proponemos un marco teórico, definiendo las condiciones necesarias y suficientes para su ocurrencia, y enfatizando que ocurre independientemente del modelo. Usando simulaciones estadísticas con
1 Introducción
Los grandes grupos de datos estereográficos (LLMs) son favorecidos por grandes cantidades de datos estereográficos extraídos de Internet, lo que desempeña un papel crucial en la mejora de sus capacidades, ya sea a través de habilidades emergentes (Wei et al., 2022) o leyes específicas de escala (Kaplan et al., 2020). No obstante, a medida que los LLMs se integran más ampliamente en la sociedad humana (Peña-Fernández et al., 2023; Porlezza y Ferri, 2022; Nishal y Diakopoulos, 2024) —las preocupaciones crecen de que una parte significativa del texto en línea en el futuro puede generarse, ya sea en su totalidad o en parte, por los LLMs (Peña-Fernández et al., 2023; Porlezza y Ferri, 2022;
La amplificación de los prejuicios tiene profundas implicaciones sociales. Puede conducir a la perpetuación de estereotipos, el fortalecimiento de las desigualdades sociales y la marginalización de los grupos subrepresentados. En el contexto de los prejuicios políticos, esto puede influir en la opinión pública, distorsionar los procesos democráticos y agravar la polarización. Entender y mitigar la amplificación de los prejuicios es, por lo tanto, crucial para asegurar que los LLM contribuyan de forma positiva a la sociedad y no causan daño involuntariamente. Sin embargo, a pesar de la literatura sobre la amplificación de los prejuicios en modelos discriminatorios, existe una notable falta de marcos completos y estudios empíricos que aborden específicamente la amplificación de los prejuicios para los LLM, como se
En este artículo, buscamos llenar esta brecha de investigación proponiendo un marco teórico que establezca y explique las causas de la amplificación del vicio en los LLMs. Además, realizamos tanto simulaciones estadísticas como experimentos de LLM para demostrar y ejemplificar el teorema.
-
Theoretical Framework: We establish the necessary and sufficient conditions for bias amplification (i.e. Theorem 1). The theorem aids in understanding the cause of bias amplification and in distinguishing between bias amplification and model collapse. We conduct statistical simulations using weighted maximum likelihood estimation to illustrate the theorem (see Section 3.2).
-
Benchmarking Tool: We trained a highly accurate classifier capable of detecting political leaning in long-text content. With this classifier, we offer a benchmark for evaluating political bias in LLMs through open-generation tasks, filling a gap not covered in current bias studies (see Sections 2 and 4.3).
-
Empirical Demonstration and Mitigation Strategies: We demonstrate bias amplification in terms of political bias in GPT-2 using our benchmarking tool: the model exhibits a right-leaning bias in sentence continuation tasks and becomes increasingly right-leaning over successive generations (see Section 5.1). Additionally, we conducted experiments with three potential mitigation strategies, i.e. Overfitting, Preservation, and Accumulation, comparing their effectiveness, and found that some are surprisingly effective (see Section 5.3).
-
Mechanistic Interpretation: Building on our framework, we propose an innovative mechanistic interpretation pipeline that identifies two distinct sets of neurons responsible for bias amplification and model collapse during iterative fine-tuning experiments with GPT-2. We found minimal overlap between these two sets, supporting our theorem that bias amplification can occur independently of model collapse (see Section 5.4).
El resto del artículo está organizado de la siguiente manera: En primer lugar discutimos el trabajo relacionado en la Sección 2. En la Sección 3, presentamos nuestro marco teórico para la amplificación de bias y realizamos una simulación estadística. En la Sección 4 se describe la configuración experimental para nuestros experimentos LLM, incluyendo la preparación de datos y el ajuste del modelo. En la Sección 5, presentamos nuestros hallazgos empíricos sobre la amplificación de bias y la eficacia de las estrategias de mitigación. Finalmente, en la Sección 6, discutimos las implicaciones de nuestro trabajo, concluyendo con limitaciones en la Sección 7.
Este artículo está disponible en archiv bajo la licencia CC BY-NC-SA 4.0.
Este artículo está disponible en archiv bajo la licencia CC BY-NC-SA 4.0.