Tác giả :
(1) Ze Wang, Holistic AI và Đại học College London;
(2) Zekun Wu, AI toàn diện và Đại học College London;
(3) Jeremy Zhang, Đại học Emory;
(4) Navya Jain, Đại học London;
(5) Xin Guan, AI toàn diện;
(6) Adriano Koshiyama.
Authors:
(1) Ze Wang, Holistic AI và Đại học College London;
(2) Zekun Wu, AI toàn diện và Đại học College London;
(3) Jeremy Zhang, Đại học Emory;
(4) Navya Jain, Đại học London;
(5) Xin Guan, AI toàn diện;
(6) Adriano Koshiyama.
Bàn trái
A. Định nghĩa toán học của WMLE
D. Phân phối chỉ số chất lượng văn bản qua các thế hệ
E Trung bình sự hoài nghi qua các thế hệ
F Ví dụ về sự suy giảm chất lượng qua các thế hệ
Abstracts
Khi kết hợp các mô hình thần kinh tiềm năng lớn (LLMs) trở nên ngày càng tích hợp vào các khía cạnh khác nhau của xã hội, một phần đáng kể của văn bản trực tuyến trở nên tổng hợp. Điều này làm dấy lên mối quan tâm về sự gia tăng thiên vị, một hiện tượng nơi các mô hình được đào tạo trên dữ liệu tổng hợp làm tăng các thiên vị đã tồn tại trên các lần lặp lại đào tạo khác nhau. Văn học trước đây hiếm khi thảo luận về sự gia tăng thiên vị như một vấn đề độc lập từ sự sụp đổ mô hình. Trong công việc này, chúng tôi giải quyết khoảng cách trong sự hiểu biết về sự gia tăng thiên vị của LLMs với bốn đóng góp chính. Thứ nhất, chúng tôi đề xuất một khuôn khổ lý thuyết, xác định các điều kiện cần thiết và đủ cho sự xuất hiện của nó, và nhấn mạnh rằng nó xảy ra độc lập với
1 Giới thiệu
Các mô hình ngôn ngữ phức tạp (LLMs) được đào tạo trên số lượng lớn văn bản được rút ra từ Internet, có thể đóng một vai trò quan trọng trong việc cải thiện khả năng của họ, cho dù thông qua khả năng mới nổi (Wei et al., 2022) hoặc quy mô quy mô cụ thể (Kaplan et al., 2020). Tuy nhiên, khi LLMs trở nên tích hợp rộng rãi hơn vào xã hội con người - ví dụ, trong việc tạo ra nội dung và tóm tắt trong truyền thông, học thuật và kinh doanh (Maslej et al., 2024) - mối quan tâm đang gia tăng rằng một phần đáng kể của văn bản trực tuyến trong tương lai có thể được tạo ra, hoàn toàn hoặc một phần, bởi LLMs (Peña-Fernández et al., 2023; Porlezza và Ferri, 2022; Nishal và Diakopoulos, 20
Sự gia tăng thiên vị có ý nghĩa xã hội sâu sắc. Nó có thể dẫn đến việc duy trì các khuôn mẫu, củng cố bất bình đẳng xã hội và giới hạn các nhóm bị đại diện kém. Trong bối cảnh thiên vị chính trị, điều này có thể ảnh hưởng đến ý kiến công chúng, làm xáo trộn các quá trình dân chủ và làm trầm trọng sự phân cực. Hiểu và giảm bớt thiên vị gia tăng do đó rất quan trọng để đảm bảo rằng LLM đóng góp tích cực cho xã hội và không vô tình gây hại. Tuy nhiên, mặc dù văn học về thiên vị gia tăng trong các mô hình phân biệt đối xử, có một sự thiếu hụt đáng kể của các khuôn khổ toàn diện và các nghiên cứu thực nghiệm cụ thể giải quyết thiên vị gia tăng cho LLM, như được thể hiện trong Phần 2. Không giống như các mô hình phân biệt đối xử, nơi thiên vị gia tăng có thể được
Trong bài báo này, chúng tôi tìm cách lấp đầy khoảng trống nghiên cứu này bằng cách đề xuất một khuôn khổ lý thuyết thiết lập và giải thích các nguyên nhân của sự củng cố thiên vị trong LLMs. Ngoài ra, chúng tôi thực hiện cả mô phỏng thống kê và các thí nghiệm LLM để chứng minh và minh họa lý thuyết.
-
Theoretical Framework: We establish the necessary and sufficient conditions for bias amplification (i.e. Theorem 1). The theorem aids in understanding the cause of bias amplification and in distinguishing between bias amplification and model collapse. We conduct statistical simulations using weighted maximum likelihood estimation to illustrate the theorem (see Section 3.2).
-
Benchmarking Tool: We trained a highly accurate classifier capable of detecting political leaning in long-text content. With this classifier, we offer a benchmark for evaluating political bias in LLMs through open-generation tasks, filling a gap not covered in current bias studies (see Sections 2 and 4.3).
-
Empirical Demonstration and Mitigation Strategies: We demonstrate bias amplification in terms of political bias in GPT-2 using our benchmarking tool: the model exhibits a right-leaning bias in sentence continuation tasks and becomes increasingly right-leaning over successive generations (see Section 5.1). Additionally, we conducted experiments with three potential mitigation strategies, i.e. Overfitting, Preservation, and Accumulation, comparing their effectiveness, and found that some are surprisingly effective (see Section 5.3).
-
Mechanistic Interpretation: Building on our framework, we propose an innovative mechanistic interpretation pipeline that identifies two distinct sets of neurons responsible for bias amplification and model collapse during iterative fine-tuning experiments with GPT-2. We found minimal overlap between these two sets, supporting our theorem that bias amplification can occur independently of model collapse (see Section 5.4).
Phần còn lại của bài báo được sắp xếp như sau: Đầu tiên chúng tôi thảo luận về công việc liên quan trong Phần 2. Trong Phần 3, chúng tôi trình bày khuôn khổ lý thuyết của chúng tôi cho sự gia tăng thiên vị và tiến hành mô phỏng thống kê. Phần 4 mô tả thiết lập thí nghiệm cho các thí nghiệm LLM của chúng tôi, bao gồm chuẩn bị dữ liệu và điều chỉnh mô hình. Trong Phần 5, chúng tôi trình bày những phát hiện thực nghiệm của chúng tôi về sự gia tăng thiên vị và hiệu quả của các chiến lược giảm thiểu. Cuối cùng, trong Phần 6, chúng tôi thảo luận về những tác động của công việc của chúng tôi, kết thúc với những hạn chế trong Phần 7.
Bài báo này có sẵn trên archiv theo giấy phép CC BY-NC-SA 4.0.
Bài báo này làCó sẵn trong Archivetheo giấy phép CC BY-NC-SA 4.0.