225 bacaan

Bolehkah AI Mengembalikan Diri Ke Dalam Lurus Bias?Kajian Ini Katakan Ya

Terlalu panjang; Untuk membaca

Kajian ini memperkenalkan rangka kerja yang menunjukkan bagaimana model bahasa yang besar seperti GPT-2 memperkuat bias tanpa mengira kemusnahan model, menggunakan teori, benchmarks, dan eksperimen.
featured image - Bolehkah AI Mengembalikan Diri Ke Dalam Lurus Bias?Kajian Ini Katakan Ya
Tech Media Bias [Research Publication] HackerNoon profile picture
0-item

Penulis :

(1) Ze Wang, AI Holistic dan University College London;

(2) Zekun Wu, AI Holistic dan University College London;

(3) Jeremy Zhang, Universiti Emory;

(4) Navya Jain, Kolej Universiti London;

(5) Xin Guan, AI Holistik

(6) Adriano Koshiyama

Authors:

(1) Ze Wang, AI Holistic dan University College London;

(2) Zekun Wu, AI Holistic dan University College London;

(3) Jeremy Zhang, Universiti Emory;

(4) Navya Jain, Kolej Universiti London;

(5) Xin Guan, AI Holistik

(6) Adriano Koshiyama

Jadual kiri

  1. Abstract and Introduction

  2. Background and Related Work

  3. Theoretical Framework

  4. Experiment Design

  5. Results

  6. Discussion

  7. Limitations

  8. Ethical Considerations and References


A. Formulasi matematik WMLE

B Fine-tuning Setup

C Kerangka Analisis Bias Kualitatif dan Contoh Amplifikasi Bias Melalui Generasi

D Perbezaan Indeks Kualiti Teks Melalui Generasi

E Perplexity Rata-rata Melalui Generasi

F Contoh Penurunan Kualiti Melalui Generasi

G Pearson Correlation Between Neuron Weight and Bias Performance M Pearson Correlation Between Neuron Weight and Generation Quality M Pearson Correlation Between Neuron Activation and Bias Performance M Pearson Correlation Between Neuron Activation and Generation Quality M Pearson Correlation Between Neuron Activation and Bias Performance M Pearson Correlation Between Neuron Activation and Generation Quality M Pearson Correlation Between Neuron Weight and Generation Quality M Pearson Correlation Between Neuron Activation and Bias Performance M Pearson Correlation Between Neuron Activation and Bias Performance M Pearson Correlation Between Neuron Activation and Generation Quality M

abstrak

Memandangkan Accenture Potensi Besar Model Neurosynthesis (LLMs) menjadi semakin disepadukan ke dalam pelbagai aspek rangka kerja masyarakat, sebahagian besar teks dalam talian akibatnya menjadi sintetik. Ini menimbulkan kebimbangan mengenai amplifikasi bias, fenomena di mana model yang dilatih pada data sintetik memperluaskan bias yang sedia ada di atas iterasi latihan berturut-turut. Sastra terdahulu jarang membincangkan amplifikasi bias sebagai isu yang berasingan daripada runtuh model. Dalam kerja ini, kami membincangkan kesenjangan dalam memahami amplifikasi bias LLMs dengan empat sumbangan utama. Pertama, kami mencadangkan rangka kerja teori, mendefinisikan keadaan yang diperlukan dan mencukupi untuk kejadian itu, dan menekankan bahawa ia berlaku secara berasingan daripada runtuh model. Menggunakan simulasi statistik dengan perkiraan kebarangk

1 Pengenalan

Pada masa yang sama, LLMs telah dilatih dalam jumlah besar teks yang dibuang dari internet, yang memainkan peranan penting dalam meningkatkan keupayaan mereka, sama ada melalui keupayaan yang muncul (Wei et al., 2022) atau undang-undang tertentu yang meluas (Kaplan et al., 2020). Walau bagaimanapun, apabila LLMs menjadi lebih luas disepadukan ke dalam masyarakat manusia - contohnya, dalam penciptaan kandungan dan ringkasan dalam media, akademik, dan perniagaan (Maslej et al., 2024) - kebimbangan meningkat bahawa sebahagian besar teks dalam talian di masa hadapan mungkin dihasilkan, sama ada sepenuhnya atau sebahagiannya, oleh LLMs (Peña-Fernández et al., 2023; Porlezza dan Ferri, 2022; Nishal dan Diakopoulos, 2024). Ini menyoroti risiko yang signifikan dan belum dipelajari


Peningkatan bias mempunyai implikasi masyarakat yang mendalam. Ia boleh membawa kepada perpanjangan stereotip, memperkuat ketidaksetaraan sosial, dan marginalisasi kumpulan yang kurang disenaraikan. Dalam konteks bias politik, ini boleh menjejaskan pendapat awam, merosakkan proses demokrasi, dan memperburuk polarisasi. Memahami dan mengurangkan amplifikasi bias adalah kerana itu penting untuk memastikan bahawa LLM berkontribusi positif kepada masyarakat dan tidak secara tidak sengaja menyebabkan kerosakan. Walau bagaimanapun, walaupun literatur tentang amplifikasi bias dalam model-model diskriminatif, terdapat kekurangan yang ketara kerangka kerja yang komprehensif dan kajian empiris yang menangani amplifikasi bias secara khusus untuk LLM, seperti yang ditunjukkan dalam Seksyen 2. Berbeza dengan model-model diskriminatif, di mana amplifikasi bias boleh dikaitkan dengan melamp


Dalam makalah ini, kami berusaha untuk mengisi kesenjangan penyelidikan ini dengan mencadangkan rangka kerja teori yang menetapkan dan menjelaskan punca-punca amplifikasi bias dalam LLM. Selain itu, kami menjalankan kedua-dua simulasi statistik dan eksperimen LLM untuk menunjukkan dan contohkan teorema.


  1. Theoretical Framework: We establish the necessary and sufficient conditions for bias amplification (i.e. Theorem 1). The theorem aids in understanding the cause of bias amplification and in distinguishing between bias amplification and model collapse. We conduct statistical simulations using weighted maximum likelihood estimation to illustrate the theorem (see Section 3.2).


  2. Benchmarking Tool: We trained a highly accurate classifier capable of detecting political leaning in long-text content. With this classifier, we offer a benchmark for evaluating political bias in LLMs through open-generation tasks, filling a gap not covered in current bias studies (see Sections 2 and 4.3).


  3. Empirical Demonstration and Mitigation Strategies: We demonstrate bias amplification in terms of political bias in GPT-2 using our benchmarking tool: the model exhibits a right-leaning bias in sentence continuation tasks and becomes increasingly right-leaning over successive generations (see Section 5.1). Additionally, we conducted experiments with three potential mitigation strategies, i.e. Overfitting, Preservation, and Accumulation, comparing their effectiveness, and found that some are surprisingly effective (see Section 5.3).


  4. Mechanistic Interpretation: Building on our framework, we propose an innovative mechanistic interpretation pipeline that identifies two distinct sets of neurons responsible for bias amplification and model collapse during iterative fine-tuning experiments with GPT-2. We found minimal overlap between these two sets, supporting our theorem that bias amplification can occur independently of model collapse (see Section 5.4).


Selebihnya kertas disusun seperti berikut: Pertama-tama kami membincangkan kerja yang berkaitan dalam Seksyen 2. Dalam Seksyen 3, kami memaparkan rangka kerja teori kami untuk amplifikasi bias dan menjalankan simulasi statistik. Seksyen 4 menerangkan setup eksperimen untuk eksperimen LLM kami, termasuk persiapan data dan penyesuaian halus model. Dalam Seksyen 5, kami memaparkan temuan empiris kami mengenai amplifikasi bias dan keberkesanan strategi mitigasi. Akhirnya, dalam Seksyen 6, kami membincangkan implikasi kerja kami, berakhir dengan batasan dalam Seksyen 7.


Dokumen ini boleh didapati di archiv di bawah lesen CC BY-NC-SA 4.0.

Dokumen ini boleh didapati di archiv di bawah lesen CC BY-NC-SA 4.0.


L O A D I N G
. . . comments & more!

About Author

Tech Media Bias [Research Publication] HackerNoon profile picture
Tech Media Bias [Research Publication]@mediabias
We publish deeply researched (and often vastly underread) academic papers about our collective omnipresent media bias.

GANTUNG TANDA

ARTIKEL INI DIBENTANGKAN DALAM...

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks