ผู้เขียน :
(1) Ze Wang, Holistic AI และ University College London
(2) Zekun Wu, Holistic AI และ University College London
(3) Jeremy Zhang, มหาวิทยาลัย Emory
(4) Navya Jain, มหาวิทยาลัยวิทยาลัยลอนดอน
(5) Xin Guan, Holistic AI
(6) Adriano Koshiyama
Authors:
(1) Ze Wang, Holistic AI และ University College London
(2) Zekun Wu, Holistic AI และ University College London
(3) Jeremy Zhang, มหาวิทยาลัย Emory
(4) Navya Jain, มหาวิทยาลัยวิทยาลัยลอนดอน
(5) Xin Guan, Holistic AI
(6) Adriano Koshiyama
ตารางด้านซ้าย
A. คําอธิบายทางคณิตศาสตร์ของ WMLE
C กรอบการวิเคราะห์ bias คุณภาพและตัวอย่างของการขยายตัว bias ผ่านรุ่น
D การกระจายตัวของดัชนีคุณภาพข้อความระหว่างรุ่น
F ตัวอย่างของความเสียหายของคุณภาพผ่านรุ่น
สารสกัดจาก
ในฐานะที่เป็นการทดลองการประมวลผลการประมวลผลการประมวลผลการประมวลผลการประมวลผลการประมวลผลการประมวลผลการประมวลผลการประมวลผลการประมวลผลการประมวลผลการประมวลผลการประมวลผลการประมวลผลการประมวลผลการประมวลผลการประมวลผลการประมวลผลการประมวลผลการประมวลผลการประมวลผลการประมวลผลการประมวลผลการประมวลผลการประมวลผลการประมวลผลการประมวลผลการประมวลผลการประมวลผลการประมวลผลการประมวลผลการประมวลผลการประมวลผลการประมวลผลการประมวลผลการประมวลผลการประมวลผลการประมวลผลการ
1 บทนํา
ในขณะที่กลุ่ม LLMs สเตอริกซ์ขนาดใหญ่ (LLMs) ได้รับการฝึกอบรมเกี่ยวกับปริมาณมากของข้อความที่ถูกลบออกจากอินเทอร์เน็ตซึ่งมีบทบาทสําคัญในการปรับปรุงความสามารถของพวกเขาทั้งผ่านความสามารถที่เกิดขึ้นใหม่ (Wei et al., 2022) หรือกฎหมายการปรับขนาดที่เฉพาะเจาะจง (Kaplan et al., 2020) อย่างไรก็ตามขณะที่ LLMs ได้รับการบูรณาการมากขึ้นในสังคมมนุษย์ - ตัวอย่างเช่นในการสร้างเนื้อหาและการสรุปในสื่อวิทยาศาสตร์และธุรกิจ (Maslej et al., 2024) - ความกังวลเพิ่มขึ้นว่าส่วนที่สําคัญของข้อความออนไลน์ในอนาคตอาจถูกสร้างขึ้น, ทั้งหมดหรือบางส่วน, โดย LLMs (Peña-Fernández et al., 2023; Porlezza and Ferri, 2022; Nishal and Diakopoulos, 20
การขยายตัวของแนวโน้มมีผลกระทบทางสังคมที่ลึกซึ้ง มันสามารถนําไปสู่การยืดตัวของแนวโน้มทางสังคมการเสริมสร้างความไม่เท่าเทียมกันทางสังคมและการขัดขวางของกลุ่มที่ถูกแทนที่ต่ํา ในแง่มุมของแนวโน้มทางการเมืองสิ่งนี้สามารถส่งผลกระทบต่อความคิดเห็นของสาธารณะการสกปรกกระบวนการประชาธิปไตยและเร่งความขัดแย้ง การทําความเข้าใจและการลดแนวโน้มการขยายตัวจึงมีความสําคัญเพื่อให้แน่ใจว่า LLMs มีส่วนร่วมในสังคมอย่างดีและไม่ก่อให้เกิดความเสียหายอย่างไม่ตั้งใจ อย่างไรก็ตามแม้จะมีคําอธิบายเกี่ยวกับแนวโน้มในการขยายตัวในรูปแบบการพิจารณาการพิจารณาการพิจารณาการพิจารณาการพิจารณาการพิจารณาการพิจารณาการพิจารณาการพิจารณาการพิจาร
ในบทความนี้เราก็จงมุ่งมั่นที่จะครอบคลุมช่องว่างในการวิจัยนี้โดยการเสนอโครงสร้างพื้นฐานทางทฤษฎีที่สร้างและอธิบายสาเหตุของการขยายตัวของความพึงประสงค์ใน LLMs นอกจากนี้เรายังดําเนินการการจําลองสถิติและการทดลอง LLM เพื่อพิสูจน์และตัวอย่างทฤษฎี ในสรุปส่วนร่วมหลักของเราคือดังต่อไปนี้:
-
Theoretical Framework: We establish the necessary and sufficient conditions for bias amplification (i.e. Theorem 1). The theorem aids in understanding the cause of bias amplification and in distinguishing between bias amplification and model collapse. We conduct statistical simulations using weighted maximum likelihood estimation to illustrate the theorem (see Section 3.2).
-
Benchmarking Tool: We trained a highly accurate classifier capable of detecting political leaning in long-text content. With this classifier, we offer a benchmark for evaluating political bias in LLMs through open-generation tasks, filling a gap not covered in current bias studies (see Sections 2 and 4.3).
-
Empirical Demonstration and Mitigation Strategies: We demonstrate bias amplification in terms of political bias in GPT-2 using our benchmarking tool: the model exhibits a right-leaning bias in sentence continuation tasks and becomes increasingly right-leaning over successive generations (see Section 5.1). Additionally, we conducted experiments with three potential mitigation strategies, i.e. Overfitting, Preservation, and Accumulation, comparing their effectiveness, and found that some are surprisingly effective (see Section 5.3).
-
Mechanistic Interpretation: Building on our framework, we propose an innovative mechanistic interpretation pipeline that identifies two distinct sets of neurons responsible for bias amplification and model collapse during iterative fine-tuning experiments with GPT-2. We found minimal overlap between these two sets, supporting our theorem that bias amplification can occur independently of model collapse (see Section 5.4).
ส่วนที่เหลือของบทความจะจัดขึ้นดังนี้: ก่อนอื่นเราจะหารือเกี่ยวกับงานที่เกี่ยวข้องในส่วนที่ 2 ในส่วนที่ 3 เรานําเสนอกรอบทฤษฎีของเราสําหรับการขยายตัวบิดเบี้ยนและดําเนินการจําลองทางสถิติ ในส่วนที่ 4 จะอธิบายการตั้งค่าการทดลองสําหรับการทดลอง LLM ของเรารวมถึงการเตรียมข้อมูลและการปรับแต่งแบบจําลอง ในส่วนที่ 5 เราจะนําเสนอการค้นพบทางประสบการณ์ของเราเกี่ยวกับการขยายตัวบิดเบี้ยนและความมีประสิทธิภาพของกลยุทธ์การลดเบี่ยงเบน สุดท้ายในส่วนที่ 6 เราจะหารือเกี่ยวกับผลกระทบของงานของเราและสรุปด้วยข้อ จํากัด ในส่วนที่ 7
กระดาษนี้สามารถใช้ได้ใน archiv ภายใต้ใบอนุญาต CC BY-NC-SA 4.0
กระดาษนี้เป็นสามารถใช้ได้ใน Archivesภายใต้ใบอนุญาต CC BY-NC-SA 4.0