514 การอ่าน
514 การอ่าน

การวิจัย MIT แสดงให้เห็นว่า AI ในความเป็นจริงสามารถสอนรูปแบบ AI อื่น ๆ

โดย Our AI8m2025/06/15
Read on Terminal Reader

นานเกินไป; อ่าน

นักวิจัยของ MIT ได้เผยแพร่กระดาษวิจัยที่เป็นนวัตกรรมใหม่ที่แสดงให้เห็นว่าระบบ AI สามารถใช้กระบวนการเรียนรู้เช่นมนุษย์เพื่อปรับปรุงประสิทธิภาพของตัวเองในงานการเปรียบเทียบ
featured image - การวิจัย MIT แสดงให้เห็นว่า AI ในความเป็นจริงสามารถสอนรูปแบบ AI อื่น ๆ
Our AI HackerNoon profile picture
0-item

ความแตกต่างที่ใหญ่ที่สุดระหว่างรุ่น AI และสมองมนุษย์คืออะไร

เมื่อเวลาผ่านไปคําตอบมากมายได้รับการให้ – สมองมีพลังงานที่มีประสิทธิภาพมากขึ้นหลายด้านในสื่อการป้อนข้อมูลและยังสามารถใช้งานทางเคมีนอกเหนือจากการเป็นไฟฟ้า – แต่คุณลักษณะที่สําคัญที่สุดของสมองมนุษย์คือความพลาสติกที่น่าตื่นตาตื่นใจ หากส่วนหนึ่งของร่างกายของผู้ป่วย (เช่นนิ้วมือมือหรือแม้กระทั่งขั้วต่อทั้ง) จะถูกตัดออกภูมิภาคเซนเซอร์มอเตอร์ประสาทที่สอดคล้องกับส่วนหนึ่งของร่างกายในขณะนี้ไม่มีเส้นประสาทที่สิ้นสุดลงในการเชื่อมต่อจะเริ่มปรับตัวเกือบทันทีด้วยประสาทประสาท “สลับ” เพื่อช่วยศูนย์ประสาทอื่น ๆ ในการควบคุมอื่น ๆชิ้นส่วนของร่างกาย พลาสติกยังช่วยให้มนุษย์เข้าใจความคิดและทักษะ: ตามที่พวกเขากล่าวว่า "นิวโรนที่เผาผลาญด้วยกัน" หน่วยความจําของกล้ามเนื้อและการกู้คืนข้อเท็จจริงเกือบทันทีเป็นสองส่วนของชีวิตของเราที่สามารถใช้งานได้โดยการพลาสติกซึ่งเราไม่เคยมีชีวิตอยู่ได้ หลายทศวรรษที่ผ่านมานักวิทยาศาสตร์ไม่สามารถคิดถึงฟังก์ชั่นที่คล้ายกันในรูปแบบ AI จนถึงขณะนี้ ในวันที่ 12 มิถุนายนทีมงานนักวิจัยของ MIT ได้เผยแพร่บทความวิจัยที่เป็นนวัตกรรมใหม่แสดงให้เห็นว่าระบบ AI สามารถใช้กระบวนการเรียนรู้ที่คล้ายกับมนุษย์ได้อย่างไรปรับปรุงประสิทธิภาพของตัวเองในบทความนี้เราจะสํารวจผลทางศีลธรรมและเทคโนโลยีของโมเดลภาษาที่ปรับตัวด้วยตนเอง (SEAL) ซึ่งเป็น AI ที่พัฒนาด้วยตนเองครั้งแรกในโลก

การเรียนรู้ที่ไม่สมบูรณ์แบบ

แน่นอนโมเดล AI ที่ใช้สถาปัตยกรรม Transformer ยังคงสามารถเรียนรู้งานบางอย่าง แต่วิธีการเพียงไม่กี่วิธีที่มีอยู่ไม่ได้เป็นแบบอัตโนมัติและมีประสิทธิภาพมาก บางทีวิธีที่โดดเด่นที่สุดในการฝึกอบรมรุ่นเพื่อปฏิบัติทักษะบางอย่างเช่นการแปลภาษาอังกฤษเป็นภาษาจีนหรือทําปัญหา trigonometry อย่างแม่นยําคือการใช้กระบวนการที่เรียกว่า Supervised Fine Tuning หรือ SFT สําหรับสั้น ๆ วิธีนี้ทํางานเล็กน้อยดังนี้:

  • identify the exact task you would like to perform SFT on. สําหรับตัวอย่าง, let us assume the example of generating modern song lyrics.
  • เก็บตัวอย่างที่มีคุณภาพสูงในรูปแบบของคู่ (อินพุตเอาต์พุต) สําหรับตัวอย่างของเราวิธีที่ชัดเจน แต่มีการโต้ตอบในการทําเช่นนี้คือการใช้ข้อความเพลงที่ถูกลบออกจากอินเทอร์เน็ตและจับคู่พวกเขาด้วยสรุปอย่างสม่ําเสมอของเนื้อหาและลักษณะของเพลง
  • ดําเนินการ SFT บนรุ่น นี่มักจะทําผ่านกระบวนการที่เรียกว่า Gradient Descent ชิ้นทางเทคนิคของที่ฉันไม่สามารถอธิบายได้อย่างเพียงพอในบทความนี้ ผ่านจํานวนมากของการฝึกอบรม iterations กระบวนการนี้เปลี่ยนน้ําหนักของรุ่นเพื่อให้สามารถผลิตบางสิ่งบางอย่างที่คล้ายกับเอาต์พุต (ข้อความเพลงที่แท้จริง) โดยการป้อนข้อมูลที่สอดคล้องกัน (คําอธิบายเฉพาะของเพลง)
Gradient ลง

สําหรับวัตถุประสงค์และวัตถุประสงค์ทั้งหมดของมัน SFT ทํางานได้และยังคงเป็นเครื่องมือในตารางของนักพัฒนา AI เพื่อจับข้อบกพร่องด้านความปลอดภัยที่เฉพาะเจาะจงหรือปรับปรุงประสิทธิภาพของ AI ในการทํางานที่เฉพาะเจาะจง น่าเสียดายที่ธรรมชาติของ SFT หมายความว่ากระบวนการนั้นไม่ยืดหยุ่นและมีราคาแพงซึ่งมักจะต้องใช้ปริมาณข้อมูลที่มีคุณภาพสูงที่เฉพาะเจาะจงในสาขาของการตอบสนองที่ได้รับการปรับแต่ง (เช่นการพิจารณาทางคณิตศาสตร์, สไตล์ทางจริยธรรม) แม้ว่างานวิจัยจํานวนมากจะพิสูจน์ให้เห็นว่า SFT แบบดั้งเดิมสามารถดําเนินการได้เช่นกันโดยใช้ข้อมูลสังเคราะห์ที่สร้างขึ้นโดย AI SFT ยังคงเป็นเครื่องมือที่ควรใช้ด้วยความระมัดระวังเนื่องจากการเปลี่ยนแปลงน้ําหนัก

Inklings ของ การพัฒนา

หมายเหตุ: ข้อมูลในส่วนนี้เป็นส่วนใหญ่ paraphrased จากการศึกษา มิถุนายน MIT “Self-Adapting Large Language Models” โดย Zweiger et al.

แบบจําลองภาษาขนาดใหญ่ที่ปรับตัวเองแบบจําลองภาษาขนาดใหญ่ที่ปรับตัวเอง

หนึ่งในข้อเสียของ SFT แบบดั้งเดิมเป็นความพยายามของมนุษย์ - ท่อ SFT มักต้องทําด้วยมือโดยนักวิจัย AI ของมนุษย์แม้ว่ามันมักจะเป็นวิธีที่มีประสิทธิภาพในการปรับรูปแบบที่เฉพาะเจาะจงเพื่อให้สามารถทํางานได้ดีขึ้นในประเภทงานบางอย่าง เมื่อพบกับความก้าวหน้าล่าสุดในข้อมูลสังเคราะห์นักวิจัยปฏิเสธความคิดของการใช้ข้อมูล SFT ที่สร้างขึ้นโดยอัจฉริยะอัจฉริยะโดยตรงไปข้างหน้าเพื่อถามว่ามนุษย์สามารถถูกย้ายออกจากวงจร SFT ได้หรือไม่ คําตอบของพวกเขาคือ แบบจําลองภาษาที่ปรับตัวด้วยตนเอง (SEAL) ในความเป็นจริงเป็นส่วนหนึ่งของกรอบที่ใหญ่ขึ้นซึ่งประกอบด้วยข้อมูล SFT ที่ได้รับการฝึกอบรมล่วงหน้าdecoder-only แบบแปลงสัญญาณ(การศึกษาใช้สองรุ่นแหล่งที่มาเปิด LLaMa-3.2 และ Qwen-2.5B สําหรับกรณีการทดสอบแยกต่างหาก) ซอฟต์แวร์“ การดําเนินการเครื่องมือ” และเครือข่าย SEAL ด้วยวัตถุประสงค์ร่วมกันในการตอบคําถามการเปรียบเทียบกรณี)เครือข่าย SEAL ไม่ได้คาดการณ์และสร้างคําตอบสําหรับคําถามในความเป็นจริง แต่ก็มุ่งเน้นไปที่การดําเนินการ SFT บนรุ่นเครื่องแปลงสัญญาณแบบ decoder-only ด้วยวัตถุประสงค์ในการเพิ่มประสิทธิภาพการทํางานของเครื่องแปลงสัญญาณรูปแบบของประสิทธิภาพเมื่อได้รับคําถามนี้ เพื่อทําเช่นนี้เครือข่าย SEAL จะได้รับสองเครื่องมือหลัก:

decoder-only แบบแปลงสัญญาณ
  • การสร้างข้อมูลแบบสังเคราะห์: โดยการเรียกเครื่องมือนี้เครือข่ายอื่น ๆ จะจับเนื้อหา (ส่วนใหญ่เป็นตัวอักษร) และสร้างคู่ SFT ตัวอย่างเช่นหากได้รับบทความเกี่ยวกับประวัติการพัฒนาของเครื่องบินหนึ่งคู่การปรับแต่งอาจจะเป็น (“อะไรคือเครื่องบินเจ็ตเชิงพาณิชย์ครั้งแรก?”, “ De Havilland Comet”) แม้ว่ารูปแบบคําถามและคําตอบจะถูกใช้บ่อยครั้งเครื่องมือนี้สามารถสร้างเนื้อหาประเภทอื่น ๆ เพื่อให้เหมาะกับความต้องการของปัญหาเฉพาะ
  • การปรับ hyperparameter: ตามที่กล่าวไว้ก่อนหน้านี้ SFT เป็นกระบวนการที่ซ้ํากันสําหรับการซ้ํากันหลายครั้ง ดังนั้นการตั้งค่าที่แน่นอนของขั้นตอนการฝึกอบรมจึงสามารถปรับแต่งได้ในกระบวนการที่เรียกว่าการปรับ hyperparameter โดยการเรียกเครื่องมือนี้ SEAL สามารถเริ่มต้น SFT ด้วยการตั้งค่าเฉพาะ (เช่น อัตราการเรียนรู้ # ของ Epochs ( iterations) หรือด้านชุดของ Gradient Descent) ซึ่งอาจเปลี่ยนวิธีดี (หรือไม่ดี) decoder จะปรับแต่งได้
ไฮเปอร์พารามิเตอร์ Tuning

ตอนนี้ว่า SEAL มีสองเครื่องมือที่มีประสิทธิภาพเพื่อช่วยให้รุ่น AI เรียนรู้มันเพียงต้องได้รับการฝึกอบรมเกี่ยวกับวิธีการใช้พวกเขา ในตอนเริ่มต้นของการฝึกอบรม SEAL ใช้เครื่องมือทั้งสองอย่างสุ่มสําหรับคําถามการเปรียบเทียบแต่ละคําถามที่พบกับกรอบ การแก้ไขตนเองเหล่านี้ (SEs ตามที่นักวิจัยเรียกว่าพวกเขา) จะสร้างข้อมูลการปรับแต่งขั้นพื้นฐาน แต่ไม่ได้เป็นคําพูดในหัวข้อของคําแนะนําและเปลี่ยนรุ่น decoder-only ที่เดิมโดยใช้ขั้นตอนการปรับแต่ง hyperparameter ที่กล่าวไว้ข้างต้นทําให้เครือข่ายผลิตผลลัพธ์ที่แตกต่างกันกว่าก่อนหน้านี้ อย่างไรก็ตามมีผลลัพธ์ นักวิจัยไม่ได้เปลี่ยนรุ่นเดิม (ที่เรียกว่า θ) โดยตรงโดยใช้ SEAL แทนที่พวกเขาทําสําเนาของการเปลี่ยนแปลงที่นําเสนอและรวมพวกเขาลงในรุ่นตัวแปลงแบบจําลอง (θ')การแยกจาก θ. กระบวนการฝึกอบรมตอนนี้ไปสู่ "วงจรภายใน" ซึ่งประกอบด้วยรุ่นใหม่ θ' เช่นเดียวกับคําถามการเปรียบเทียบเดิม หากรุ่นที่ตอบคําถามการเปรียบเทียบนั้นคือมากกว่าความแม่นยํากว่ารุ่นต้นฉบับ θ “วงจรภายใน” กลับกลับสัญญาณรางวัลเชิงบวก หากความแม่นยําเหมือนกันก็ไม่คืนรางวัล หาก θ’ แสดงให้เห็นว่าแย่ลงขึ้นอยู่กับคําถามการเปรียบเทียบแล้วจะคืนค่ารางวัลเชิงลบ ตอนนี้กระบวนการนี้ซ้ํากันเพียงอย่างเดียวด้วยตัวอย่างคลาสสิกของ Reinforcement Learning ซึ่ง SEs ที่ดีจะ “รางวัล” ด้วยรางวัลเชิงบวกและ SEs ที่เลวร้ายจะถูกขัดขวางโดยตรงกันข้าม ผ่านการซ้ํากันหลายครั้งของการฝึกอบรมนี้ SEAL ได้รับดีในการเพิ่มประสิทธิภาพของ decoder ผ่านการแก้ไขด้วยตนเอง จุดสําคัญหนึ่งที่ต้องสังเกตคือเครือข่าย SEAL จะได้รับการปรับปรุงขึ้นเฉพาะบนพื้นฐานของสัญญาณรางวัลจาก “วงจรภายใน” ซึ่งส่งสัญญาณว่ารุ่น θ’ ได้ทํางานได้ดีเท่าไ

การประดิษฐ์กรอบโมเดลใหม่เป็นงานที่ยากลําบากส่วนใหญ่เนื่องจากต้องระมัดระวังอย่างมากเพื่อให้แน่ใจว่าการเรียนรู้ไม่ถูกทําลายโดยความรู้ที่เป็นธรรมชาติหรือขั้นตอนผิดพลาดในการ“ สัญญาณ” ระหว่างวงจร นักวิจัยอย่างระมัดระวังขัดขวางความเสี่ยงเหล่านี้โดยใช้โมเดลตัวแปลงแบบ decoder-onlyไม่ได้รับการฝึกอบรมเกี่ยวกับการทดสอบการเปรียบเทียบที่พวกเขาใช้ซึ่งหมายความว่าการประเมินการฝึกอบรมเป็นครั้งแรกที่พวกเขาพบกับปัญหาแต่ละครั้งซึ่งในทางกลับกันกําจัดความเป็นไปได้ที่โมเดลเพียงแค่ "เรียนรู้การทดสอบ" นอกจากนี้โมเดลนี้ทําให้แน่ใจว่าการประเมินข้อมูลที่ θ 'เป็นอิสระอย่างสมบูรณ์จากที่ θ และโมเดลต้นฉบับไม่เปลี่ยนแปลงผ่านการซ้ํากันเพื่อให้แน่ใจว่าทุกครั้งที่ SEAL ทํา SFT เพื่อสร้างตัวอย่างใหม่ของ θ 'มันจะขึ้นอยู่กับ θ เฉพาะเดียวกัน

ผลลัพธ์ที่น่าตื่นตาตื่นใจ ในการทดสอบการเปรียบเทียบโดยเฉพาะอย่างยิ่งที่ดําเนินการโดยนักวิจัยรุ่นนี้มีอัตราความสําเร็จ 72.5% มากขึ้นจาก 0% โดยไม่มีการปรับความละเอียดของ SEAL ซึ่งแสดงให้เห็นถึงศักยภาพที่น่ากลัวของกรอบของพวกเขา หากได้รับการปรับปรุงและบูรณาการโดยรวมกรอบนี้อาจกลายเป็นมาตรฐานอุตสาหกรรมใหม่ในการปรับปรุงประสิทธิภาพของ AI ในสาขาเฉพาะหรือโดยทั่วไป


บทความนี้ถูกนํามาให้คุณโดย AI ของเราซึ่งเป็นองค์กร Ethics AI ที่ก่อตั้งขึ้นโดยนักเรียนและนําโดยนักเรียนที่ต้องการให้ความหลากหลายของมุมมองใน AI นอกเหนือจากสิ่งที่กล่าวถึงโดยทั่วไปในสื่อสมัยใหม่ หากคุณชอบบทความนี้โปรดดูบทความประจําเดือนและบทความพิเศษของเราที่ https://www.our-ai.org/ai-nexus/read!

บทความนี้ถูกนํามาให้คุณโดย AI ของเราซึ่งเป็นองค์กร Ethics AI ที่ก่อตั้งขึ้นโดยนักเรียนและนําโดยนักเรียนซึ่งมุ่งมั่นที่จะหลากหลายมุมมองใน AI นอกเหนือจากสิ่งที่กล่าวถึงโดยทั่วไปในสื่อสมัยใหม่ หากคุณชอบบทความนี้โปรดดูบทความประจําเดือนและบทความพิเศษของเราที่https://www.our-ai.org/ai-nexus/read!

เรียนรู้หรือไม่เรียนรู้

ไม่ว่าความประทับใจทางเทคนิคที่ประสบความสําเร็จของทีมวิจัยจะเป็นอย่างไรก็ตามผลกระทบทางสังคมและปรัชญาที่กว้างขวางของการค้นพบนี้ไม่สามารถประเมินมากเกินไป ฉันเคยเป็นนักวิจารณ์อย่างแข็งแกร่งของนวัตกรรมการคํานวณทางชีวภาพ (ดู:Epiphanyจาก theอาจ การเผยแพร่ของ the นิตยสาร Nexus) เพราะฉันเชื่อว่ากลุ่มประสาทเช่นเดียวกับที่ใช้ในคอมพิวเตอร์ชีวภาพอยู่ภายใต้กฎหมายธรรมชาติเพราะพวกเขามีความสามารถในการรับรู้ในขณะนี้และแม้ว่าพวกเขาจะไม่สามารถพัฒนาได้ตามธรรมชาติเนื่องจากความพลาสติก SEAL จึงมีความสําคัญมากกว่าวิธีการปรับปรุงประสิทธิภาพของรุ่นในงานการเปรียบเทียบ มันเป็นกรอบการฝึกอบรม AI ที่สร้างขึ้นครั้งแรกซึ่งรุ่น AI ได้แสดงให้เห็นถึงความสามารถในการฝึกอบรม AI อื่น ๆ โดยตรง ไม่เพียง แต่นี้อาจแสดงให้เห็นว่าเราอาจอยู่บนเส้นทางในการทําซ้ํา AI ที่สามารถทําซ้ําได้ แต่ก็ทําให้เกิดคําถามทางศีลธรรมว่า AI ที่สามารถพัฒนาได้ในลักษณะนี้ควรพิจารณาในแง่ของสิทธิที่เรารักษาให้แก่สิ่งมีชีวิตเช่นมนุษย์และสัตว์

อาจ การเผยแพร่ของ theนิตยสาร Nexusนิตยสาร Nexus

มีความแตกต่างที่จะทําด้วยความสามารถในการปรับตัวและความตระหนัก เราพบว่าอนุญาตให้เดินบนใบไม้ผลิเนื่องจากเรารู้ว่าแม้ว่ามันอาจได้รับความเสียหาย แต่ก็ไม่ได้รับความรู้สึกของความเจ็บปวดทางสัตว์เนื่องจากไม่มีประสาท อย่างไรก็ตามใบไม้ผลิมีอย่างไรก็ตามเราจะสงสัยที่จะทรมานสัตว์และฉันกล่าวว่านี่เป็นไปได้เนื่องจากเรามีความรู้สึกที่เห็นได้ชัดว่าความรู้สึกเจ็บปวดก่อให้เกิดการตอบสนองที่เห็นได้ชัดมากขึ้น - การกระตือรือร้นหรือร้องไห้บางที - ซึ่งมนุษย์ซึ่งเป็นสัตว์ด้วยความตอบสนองที่คล้ายคลึงกันกับความเจ็บปวดสามารถ "พัฒนา" การตอบสนองที่คล้ายคลึงกันเช่นความเจ็บปวดและแบบจําลองของมนุษย์เพื่อให้มนุษย์ไม่สามารถแยกความแตกต่างได้อย่างน่าเชื่อถือได้ว่ามันเป็น AI หรือมนุษย์ที่ผลิตพวกเขา ในความเป็นจริงสิ่งนี้เกิดขึ้นแล้วในรูปแบบการทดสอบแบบสุ่มสามชิ้นเช่น AI-PT5 ใน Tur-G4มีความสําเร็จในการเชื่อใจผู้สอบถามมนุษย์ว่ามันเป็นมนุษย์ในกว่า 70% ของกรณี

หากรุ่น AI ทํางานเหมือนมนุษย์ในทุกแง่มุมก็สามารถพิจารณาว่าเป็นมนุษย์ได้หรือไม่? แนวโน้มของการพัฒนา AI จะผลิตรุ่นที่เป็นเอกลักษณ์และมีความไวต่อสถานการณ์ที่พวกเขาเริ่มเข้าใกล้กับขีด จํากัด ของการเป็น “เทียม” ได้หรือไม่? เวลาเท่านั้นที่สามารถบอกได้


เขียนโดย Thomas Yin

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks