Wat is die grootste verskil tussen 'n AI-model en 'n menslike brein?
Met verloop van tyd, myriade antwoorde is gegee - die brein is meer energie-effektief, meer multifasette in sy media van invoer, en ook chemies geaktiveer, behalwe om elektriese te wees - maar die menslike brein se belangrikste kenmerk is sy verbazingwekkende plasticiteit.anderPlastikiteit help ook mense om idees en vaardighede in te voed: soos die spreekwoord sê, "neurone wat saam vuur draai". Spiergeheue en byna-oomblik faktuele herinnering is twee plasticiteit-geaktiveerde dele van ons lewe wat ons nooit kon leef sonder. Vir dekades, wetenskaplikes het nie 'n soortgelyke funksie in AI-modelle uitgevind nie - tot nou toe. Op 12 Junie, 'n span van MIT navorsers het 'n baanbrekende navorsingspapier gepubliseer wat demonstreer hoe 'n AI-stelsel eintlik menslike leerprosesse kan gebruik omVerbeter sy eie prestasieIn hierdie artikel ondersoek ons die morele en tegnologiese implikasies van die sogenaamde Self-Adaptive Language Model (SEAL), die wêreld se eerste self-ontwikkelende AI.
Onvolmaakte leer
Natuurlik kon AI-modelle met behulp van die Transformer-argitektuur nog steeds sekere take leer, maar die paar metodes wat beskikbaar was, was nie heeltemal outonoom nie en was verre van doeltreffend.Miskien was die mees opvallende manier om 'n model op te lei om 'n sekere vaardigheid uit te voer - soos om Engels na Chinees te vertaal of trigonometriese probleme akkuraat te doen - om 'n proses genaamd Supervised Fine Tuning, of SFT vir kort te gebruik.
- Identifiseer die presiese taak wat jy wil doen SFT op. As 'n voorbeeld, laat ons die voorbeeld van die generering van moderne liedjie tekste.
- Versamel hoë gehalte voorbeelde in die vorm van (invoer, uitvoer) paartjies. vir ons voorbeeld, 'n duidelike maar omstrede manier om dit te doen, is om eenvoudig liedjies te gebruik wat van die internet gekraap is en hulle te koppel met ruwe opsommings van die inhoud en eienskappe van die liedjies.
- Voer SFT op die model uit.Dit word gewoonlik gedoen deur middel van 'n proses genaamd Gradient Descent, waarvan die tegniese aspek ek nie in hierdie artikel voldoende kan verduidelik nie.Over 'n groot aantal opleiding iterasies, verander hierdie proses die gewigte van die model sodat dit in staat is om iets soortgelyk aan 'n uitvoer (die werklike liedjies) te produseer as gevolg van sy ooreenstemmende invoer ('n spesifieke beskrywing van 'n liedjie).
Vir al sy bedoelings en doeleindes het SFT werk gedoen, wat 'n instrument binne 'n AI-ontwikkelaar se repertoire bly om spesifieke veiligheidslekke te vang of die prestasie van 'n AI op spesifieke take te verbeter. Ongelukkig het die aard van SFT beteken dat die proses onflexibel en duur was, wat dikwels 'n matig groot hoeveelheid hoë gehalte data vereis wat spesifiek is aan die veld van antwoorde wat aangepas word (bv. Wiskundige redenasie, Grammatiese styl). Alhoewel baie navorsingsdokumente bewys het dat tradisionele SFT net so goed kan uitgevoer word met behulp van sintetiese, AI-genereerde data, bly SFT 'n instrument wat met versigtigheid gebruik moet word, aangesien die verandering van model gewigte 'n negatiewe
Inklings van evolusie
Opmerking: Die inligting in hierdie afdeling is grootliks parafraseer uit die Junie MIT studie "Self-Adapting Large Language Models" deur Zweiger et al.
Een van die nadele van tradisionele SFT was altyd die menslike poging wat betrokke was - SFT-pijpleine moes dikwels handgemaak word deur menslike AI-navorsers, hoewel dit gewoonlik 'n effektiewe manier was om 'n spesifieke model te stel om 'n bietjie beter op sekere tipes take te verrig. Met die onlangse vooruitgang in sintetiese data het die navorsers die idee verwerp om eenvoudig AI-genereerde SFT-data te gebruik, wat verder gaan om die vraag te vra of mense heeltemal uit die SFT-loop kan verplaas.
- Syntetiese data-generasie: Deur hierdie instrument te bel, sal 'n ander netwerk die konteks (in wese die oproep) opneem en SFT-paar genereer. Byvoorbeeld, as 'n passasie oor die ontwikkelingshistorie van die vliegtuig gegee word, kan een aanpassingspare wees ("Wat was die eerste kommersiële jet vliegtuig ooit?"; "Die De Havilland-komet"). Alhoewel 'n vraag-en-antwoord-formaat gereeld gebruik is, kan hierdie instrument ander soorte inhoud genereer om beter aan die behoeftes van spesifieke probleme te pas.
- Hyperparameter tuning: Soos voorheen genoem, SFT is 'n proses wat herhaal vir verskeie iterasies; die presiese instellings van die opleiding stappe is dus aanpasbaar in 'n proses genaamd hyperparameter tuning.
Nou dat SEAL twee kragtige gereedskap het om die AI-model te help leer, hoef dit net op te lei hoe om hulle te gebruik. Aan die begin van sy opleiding, SEAL toepas die twee gereedskap willekeurig vir elke benchmarking vraag wat die raamwerk ontmoet. Hierdie self-redaksies (SEs, soos die navorsers hulle genoem het) sal kontekstuele, maar nie verbale, fijne-tuning data genereer binne die onderwerp van die oproep en verander die oorspronklike decoder-only model met behulp van die hierbo genoemde hyperparameter tuning stappe, maak die netwerk produseer 'n ander output as voorheen.AfsonderlikeDie opleidingsproces gaan nou in 'n "inner loop", wat bestaan uit die nuwe model θ' sowel as die oorspronklike benchmarking vraag.Meerdie “innerloop” gee 'n positiewe beloningssignaal terug as die oorspronklike model θ. As die akkuraatheid dieselfde is, gee dit geen beloning terug nie; as θ’ bewys is erger gebaseer op die benchmarkingvraag, gee dit 'n negatiewe beloning terug. Nou herhaal hierdie proses eenvoudig met 'n klassieke voorbeeld van Versterkingslerenis, waar goeie SEs met 'n positiewe beloning “belone” word en slegte SEs word ontmoedig met die teenoorgestelde; deur baie iterasies van hierdie opleiding, word SEAL goed in die optimalisering van die dekoder deur die gebruik van die self-redaksies. Een belangrike punt om te waarneem is dat die SEAL-netwerk slegs op die beloningssignaal van die “innerloop” aangepas word,
Die uitvinding van nuwe modelraamwerke is 'n moeilike taak, meestal omdat uiterste versigtigheid geneem moet word om te verseker dat die leer nie deur inherente kennis of verkeerde stappe in die "signalering" tussen die lus nie verval word nie.niedie benchmarking toetse wat hulle gebruik het, opgelei is, wat beteken dat die opvoedkundige evaluerings die eerste keer was dat hulle elke probleem ontmoet het, wat op sy beurt die moontlikheid elimineer dat die model eenvoudig "die toets geleer het".Daarbenewens het die model verseker dat die evaluerings op θ' heeltemal onafhanklik was van wat op θ en dat die oorspronklike model nooit oor iterasies verander het nie, wat verseker dat elke keer as SEAL SFT uitgevoer het om 'n nuwe instansie van θ', dit sou gebaseer wees op presies dieselfde θ.
Die resultate was opvallend; in een spesifieke benchmarking toets wat deur die navorsers uitgevoer is, het die model 'n suksespercentage van 72,5% gekry, op 0%, sonder SEAL-fine-tuning, wat die krankspotensiaal van hul raamwerk demonstreer.
Hierdie artikel is aan jou gebring deur Ons AI, 'n student-gebaseerde en student-geleide AI-etiese organisasie wat perspekte in AI soek om te diversifiseer buite wat gewoonlik in moderne media bespreek word.
Hierdie artikel is aan jou gebring deur Ons AI, 'n student-gebaseerde en student-geleide AI-etiese organisasie wat perspekte in AI soek om te diversifiseer buite wat gewoonlik in moderne media bespreek word.
Om te leer of om nie te leer nie?
Ongeag hoe tegniese indrukwekkend die prestasie van die navorsingspan is, kan die verreikende sosiale en filosofiese implikasies van hierdie ontdekking nie oortref word nie.Epifaniesevan die
Daar is 'n onderskeid wat met aanpasbaarheid en bewussyn gemaak moet word. Ons vind dit toegelaat om op 'n grasblad te stap omdat ons weet dat, hoewel dit waarskynlik skade sal ly, dit nie die animalistiese begrip van pyn ervaar nie, aangesien dit geen senuwees het nie.isOns sou egter twyfel om 'n dier te martel, en ek beweer dit is waarskynlik omdat ons inherent bewus is dat die gevoel van pyn 'n baie meer merkbare reaksie veroorsaak - wimpering of huil, miskien - wat mense, as diere self met soortgelyke reaksie op pyn, simpatiseer. diere het pyn ontwikkel - 'n herinnering aan die feit dat hulle leef en 'n paar basiese regte verdien - oor 'n paar millenniums van natuurlike evolusie, maar ek kan nie 'n beduidende verskil tussen die basiese aard van kunsmatige en biologiese evolusie sien nie; AI-modelle kan ongetwyfeld soortgelyke prosesse ontwikkel, soos pyn, en menslike reaksie, sodat 'n mens, oor teks of selfs stem, nie betroubaar kon onderskei of ditsuksesvol oortuig 'n menslike ondervragerDit was in meer as 70% van die gevalle menslik.
As 'n AI-model in alle aspekte soos 'n mens optree, kan dit ooit as 'n mens beskou word? sal die tendens van AI-evolusie sulke unieke en situasie-gevoelige modelle produseer dat hulle die empiriese grens van "kunstmatige" begin nader?
Geskryf deur Thomas Yin