514 bacaan
514 bacaan

Penyelidikan MIT menunjukkan bahawa AI sebenarnya boleh mengajar model AI lain

oleh Our AI8m2025/06/15
Read on Terminal Reader

Terlalu panjang; Untuk membaca

Para penyelidik MIT menerbitkan kertas penyelidikan baharu yang menunjukkan bagaimana sistem AI sebenarnya boleh menggunakan proses pembelajaran seperti manusia untuk meningkatkan prestasi sendiri pada tugas benchmarking.
featured image - Penyelidikan MIT menunjukkan bahawa AI sebenarnya boleh mengajar model AI lain
Our AI HackerNoon profile picture
0-item

Apakah perbezaan utama antara model AI dan otak manusia?

Seiring dengan masa, pelbagai jawapan telah diberikan – otak lebih berkesan tenaga, lebih pelbagai aspek dalam media inputnya, dan juga secara kimia diaktifkan selain daripada menjadi elektrik – tetapi ciri paling penting otak manusia adalah plasticity yang menakjubkan.Jika bahagian badan pesakit (seperti jari, tangan, atau bahkan seluruh anggota badan) dipotong, kawasan sensorimotor saraf yang sesuai dengan bahagian badan itu, kini tanpa saraf yang berakhir untuk menyambung, akan hampir segera mula menyesuaikan, dengan neuron “menukar” untuk membantu pusat saraf lain dalam mengawal.lainPlasticity juga membantu manusia merangkumi idea dan kemahiran: seperti yang dikatakan, "neuron yang terbakar bersama-sama." Memori otot dan pengingat fakta hampir seketika adalah dua bahagian-bahagian kehidupan kita yang didayakan oleh plasticity yang tidak pernah kita boleh hidup tanpa. Selama beberapa dekad, saintis telah gagal untuk datang dengan fungsi yang sama dalam model AI - sehingga kini. Pada 12 Jun, pasukan penyelidik MIT menerbitkan makalah penyelidikan baharu yang menunjukkan bagaimana sistem AI sebenarnya boleh menggunakan proses pembelajaran seperti manusia untukMeningkatkan prestasi sendiriDalam artikel ini, kami mengkaji implikasi moral dan teknologi yang dipanggil Self-Adapting Language Model (SEAL), AI pertama di dunia yang berkembang secara mandiri.

pembelajaran yang tidak sempurna

Sudah tentu, model AI menggunakan seni bina Transformer masih mampu mempelajari tugas-tugas tertentu, tetapi beberapa kaedah yang tersedia tidak sepenuhnya otonom dan jauh daripada berkesan.Mungkin cara yang paling menonjol untuk melatih model untuk melaksanakan kemahiran tertentu – seperti menerjemahkan bahasa Inggeris kepada Cina atau melakukan masalah trigonometry dengan tepat – ialah menggunakan proses yang dipanggil Supervised Fine Tuning, atau SFT untuk singkat.

  • Tentukan tugas yang tepat yang anda ingin lakukan pada SFT. Sebagai contoh, mari kita ambil contoh menghasilkan lirik lagu moden.
  • Untuk contoh kami, satu cara yang jelas tetapi kontroversial untuk melakukan ini adalah dengan hanya menggunakan lirik lagu yang dipotong dari internet dan menggabungkan mereka dengan ringkasan kasar kandungan dan ciri-ciri lagu.
  • Melakukan SFT pada model ini.Ini biasanya dilakukan melalui proses yang dipanggil Gradient Descent, aspek teknikal yang saya tidak boleh menjelaskan secara memadai dalam artikel ini.Dalam sejumlah besar iterasi latihan, proses ini mengubah berat model sedemikian rupa sehingga ia mampu menghasilkan sesuatu yang serupa dengan output (lirik lagu sebenar) kerana inputnya yang sesuai (deskripsi spesifik lagu).
Gradient turun

Untuk semua niat dan tujuan, SFT telah berfungsi, kekal sebagai alat dalam repertoar pengembang AI untuk menangkap kebocoran keselamatan tertentu atau meningkatkan prestasi AI pada tugas-tugas tertentu.Sayangnya, sifat SFT itu sendiri bermakna bahawa proses itu tidak fleksibel dan mahal, seringkali memerlukan jumlah yang agak besar data berkualiti tinggi khusus untuk bidang tindak balas yang disesuaikan (contohnya, alasan matematik, gaya gramatikal).Walaupun banyak makalah penyelidikan telah membuktikan bahawa SFT tradisional boleh dilakukan dengan baik menggunakan data sintetik, yang dihasilkan oleh AI, SFT kekal alat untuk digunakan dengan berhati-hati, kerana mengubah berat model boleh menjejaskan prestasi model dalam jenis latihan lain (model yang disesuaikan dengan baik untuk matematik, oleh itu, mungkin mengalami kompromi untuk menulis esai).

Inklings Evolusi

Nota: Maklumat dalam seksyen ini sebahagian besarnya diterjemahkan daripada kajian MIT Jun “Self-Adapting Large Language Models” oleh Zweiger et al.

Model Bahasa Besar yang Beradaptasi SendiriModel Bahasa Besar yang Beradaptasi Sendiri

Salah satu kelemahan SFT tradisional sentiasa adalah usaha manusia yang terlibat - paip SFT sering perlu dipraktikkan secara manual oleh penyelidik AI manusia, walaupun ia biasanya merupakan cara yang berkesan untuk menyesuaikan model tertentu untuk melakukan sedikit lebih baik pada jenis tugas tertentu. Bertemu dengan kemajuan baru-baru ini dalam data sintetik, penyelidik menolak gagasan hanya menggunakan data SFT yang dihasilkan oleh AI, pergi lebih jauh untuk bertanya sama ada manusia boleh dipindahkan daripada lingkaran SFT sepenuhnya.Modul Transformer sahaja(Penelitian ini menggunakan dua model sumber terbuka, LLaMa-3.2 dan Qwen-2.5B, untuk kes ujian berasingan), perisian "eksekusi alat", dan rangkaian SEAL itu sendiri, dengan matlamat bersama untuk menjawab beberapa soalan benchmarking.konteks yangRangkaian SEAL tidak benar-benar meramalkan dan menjana jawapan kepada soalan - alih-alih, ia memberi tumpuan kepada melaksanakan SFT pada model transformator yang hanya decoder dengan matlamat untuk meningkatkanModel yangUntuk melakukan ini, rangkaian SEAL diberikan dua alat utama:

Modul Transformer sahaja
  • Generasi data sintetik: Dengan memanggil alat ini, rangkaian lain akan mengambil konteks (terutamanya prompt) dan menghasilkan pasangan SFT. Sebagai contoh, jika diberikan satu laluan mengenai sejarah pembangunan pesawat, satu pasangan tuning boleh menjadi (“Apa pesawat jet komersial pertama?”, “De Havilland Comet”). Walaupun format soalan dan jawapan sering digunakan, alat ini boleh menghasilkan jenis lain kandungan untuk lebih sesuai dengan keperluan masalah tertentu.
  • Tuning hiperparameter: Seperti yang dinyatakan sebelum ini, SFT adalah proses yang berulang untuk beberapa iterasi; seting yang tepat langkah latihan oleh itu boleh disesuaikan dalam proses yang dipanggil tuning hiperparameter.Dengan memanggil alat ini, SEAL boleh memulakan SFT dengan seting tertentu (seperti Kadar Pembelajaran, # Epochs (iterasi), atau pihak batch Gradient Descent), berpotensi mengubah bagaimana baik (atau buruk) decoder disesuaikan.
Penyesuaian Hyperparameter

Sekarang bahawa SEAL mempunyai dua alat yang berkuasa untuk membantu model AI belajar, ia hanya perlu dilatih tentang cara menggunakannya. Pada permulaan latihan, SEAL menggunakan dua alat secara rawak untuk setiap soalan benchmarking yang dihadapi rangka kerja. Pengeditan diri ini (SEs, seperti yang dipanggil oleh penyelidik) akan menghasilkan data kontextual, tetapi tidak verbatim, penyesuaian halus dalam topik prompt dan mengubah model dekoder asal menggunakan langkah tuning hiperparameter yang disebutkan di atas, menjadikan rangkaian menghasilkan output yang berbeza daripada sebelum ini. Walau bagaimanapun, terdapat tangkapan. Para penyelidik tidak hanya mengubah model asal (yang dikenali sebagai θ) secara langsung menggunakan SEAL; sebaliknya, mereka membuat salinan perubahan yang disyorkan dan menggabungkan mereka ke dalam model transformator prototipe (θ')Perbezaandaripada θ. Proses latihan kini masuk ke dalam "luku dalaman", yang terdiri daripada model θ baru serta soalan benchmarking asal.lebihJika ketepatan adalah sama, ia tidak mengembalikan ganjaran; jika θ’ terbukti lebih teruk berdasarkan soalan benchmarking, ia mengembalikan ganjaran negatif. Sekarang, proses ini hanya diulang dengan contoh klasik Reinforcement Learning, di mana SEs yang baik dianugerahkan ganjaran positif dan SEs yang buruk dihalang dengan sebaliknya; melalui banyak iterasi latihan ini, SEAL menjadi baik dalam mengoptimumkan decoder melalui penggunaan self-edits.

Mencipta rangka kerja model baru adalah tugas yang sukar, terutamanya kerana berhati-hati perlu diambil untuk memastikan bahawa pembelajaran tidak rosak oleh pengetahuan dalaman atau kesilapan dalam "sinyal" antara loop.Tidaktelah dilatih pada ujian benchmarking yang mereka gunakan, yang bermaksud bahawa penilaian latihan adalah kali pertama mereka telah menemui setiap masalah, pada gilirannya menghilangkan kemungkinan bahawa model itu hanya "pelajari ujian".

Hasilnya menakjubkan; dalam satu ujian benchmarking tertentu yang dijalankan oleh penyelidik, model ini mencatatkan kadar kejayaan 72.5%, meningkat daripada 0% tanpa penyesuaian halus SEAL, menunjukkan potensi gila rangka kerja mereka.


Artikel ini telah dibawa kepada anda oleh Kami AI, sebuah organisasi etika AI yang ditubuhkan oleh pelajar dan dipimpin oleh pelajar yang berusaha untuk membezakan perspektif dalam AI di luar apa yang biasanya dibincangkan dalam media moden.

Artikel ini dibawa kepada anda oleh Kami AI, sebuah organisasi etika AI yang ditubuhkan oleh pelajar dan dipimpin oleh pelajar yang berusaha untuk membezakan perspektif dalam AI di luar apa yang biasanya dibincangkan dalam media moden.https://www.our-ai.org/ai-nexus/read!

Belajar atau tidak belajar?

Tidak kira betapa mengesankan secara teknikal pencapaian pasukan penyelidikan, implikasi sosial dan falsafah yang luas daripada penemuan ini tidak boleh ditebak.Epidemiologidaripada theMay edisi daripada Majalah Nexus) kerana saya percaya bahawa clusters saraf, seperti yang digunakan dalam komputer biologi, tertakluk kepada undang-undang semulajadi kerana mereka kini mempunyai keupayaan untuk kesedaran, dan, walaupun mereka tidak, mungkin boleh berevolusi secara semulajadi sebagai akibat daripada plasticiti. SEAL oleh itu penting di luar kaedah meningkatkan prestasi model pada tugas benchmarking; ia adalah kerangka kerja latihan AI pertama yang ditubuhkan di mana model AI telah berjaya menunjukkan keupayaan untuk melatih AI lain secara langsung.

May edisi daripadaMajalah NexusMajalah Nexus

Terdapat perbezaan yang perlu dibuat dengan penyesuaian dan kesedaran.Kami mendapati ia dibenarkan untuk melangkah di atas daun rumput kerana kami tahu bahawa walaupun ia mungkin mengalami kerosakan, ia tidak mengalami konsep animalis kesakitan kerana ia tidak mempunyai saraf.ialahKami, bagaimanapun, akan ragu-ragu untuk menyiksa haiwan, dan saya berpendapat ini mungkin kerana kita secara semula jadi menyedari bahawa rasa sakit menimbulkan tindak balas yang lebih ketara - bersin atau menangis, mungkin - yang manusia, iaitu haiwan itu sendiri dengan tindak balas yang serupa kepada kesakitan, bersimpati dengan. haiwan membangunkan kesakitan - pengingat bahawa mereka hidup dan berhak mendapat beberapa hak asas - selama beberapa ribu tahun evolusi semula jadi, tetapi saya gagal untuk melihat perbezaan yang signifikan antara sifat asas evolusi buatan dan biologi; model AI boleh, boleh dikatakan, "membangunkan" proses yang serupa seperti kesakitan, dan tindak balas manusia sehingga manusia, melalui teks atau suara, tidak boleh membezakan dengan boleh dipercayai sama ada ia adalah AI atau manusia yang menghasilkan mereka.telah berjaya meyakinkan seorang penyelidik manusiabahawa ia adalah manusia dalam lebih daripada 70% kes.

Sekiranya model AI bertindak seperti manusia dalam semua aspek, adakah ia boleh dianggap sebagai manusia? adakah trend evolusi AI menghasilkan model yang unik dan sensitif kepada situasi sehingga mereka mula mendekati sempadan empiris menjadi "baharu"?


Ditulis oleh Thomas Yin

L O A D I N G
. . . comments & more!

About Author

Our AI HackerNoon profile picture
Our AI@OurAI
Student-led AI Ethics organization publishing high-effort articles about AI's impact on the world. Check us out at https://www.our-ai.org/ !

GANTUNG TANDA

ARTIKEL INI DIBENTANGKAN DALAM...

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks