519 Lesungen
519 Lesungen

MIT-Forschung zeigt, dass KI in der Tat andere AI-Modelle lehren kann

von Our AI8m2025/06/15
Read on Terminal Reader

Zu lang; Lesen

MIT-Forscher haben eine bahnbrechende Forschungsarbeit veröffentlicht, in der gezeigt wird, wie ein KI-System tatsächlich menschliche Lernprozesse nutzen kann, um seine eigene Leistung bei Benchmarking-Aufgaben zu verbessern.
featured image - MIT-Forschung zeigt, dass KI in der Tat andere AI-Modelle lehren kann
Our AI HackerNoon profile picture
0-item

Was ist der größte Unterschied zwischen einem AI-Modell und einem menschlichen Gehirn?

Im Laufe der Zeit wurden unzählige Antworten gegeben – das Gehirn ist energieeffizienter, vielseitiger in seinen Eingabemedium und auch chemisch aktiviert zusätzlich zu sein elektrisch – aber das wichtigste Merkmal des menschlichen Gehirns ist seine erstaunliche Plastizität.AndereKörperteile.Plasticität hilft auch den Menschen, Ideen und Fähigkeiten zu erlernen: Wie man sagt, „Neuronen, die zusammenbrennen“. Muskelgedächtnis und nahezu sofortige Tatsachenerinnerung sind zwei Plasticitätsfähige Teile unseres Lebens, ohne die wir niemals leben könnten.Jahrzehntelang haben Wissenschaftler bis jetzt keine ähnliche Funktion in KI-Modellen gefunden.Am 12. Juni veröffentlichte ein Team von MIT-Forschern ein bahnbrechendes Forschungspapier, in dem gezeigt wird, wie ein KI-System tatsächlich menschliche Lernprozesse nutzen kann.Verbesserung der eigenen LeistungIn diesem Artikel untersuchen wir die moralischen und technologischen Implikationen des sogenannten Self-Adapting Language Model (SEAL), der weltweit ersten selbstentwickelnden KI.

Imperfektes Lernen

Natürlich konnten KI-Modelle mit der Transformer-Architektur immer noch bestimmte Aufgaben erlernen, aber die wenigen verfügbaren Methoden waren nicht ganz autonom und weit davon entfernt, effizient zu sein.Vielleicht war der bemerkenswerteste Weg, um ein Modell zu trainieren, um eine bestimmte Fähigkeit auszuführen – wie z. B. Englisch ins Chinesische zu übersetzen oder Trigonometrie-Probleme genau zu machen – ein Prozess namens Supervised Fine Tuning oder kurz SFT zu verwenden.

  • Identifizieren Sie die genaue Aufgabe, auf der Sie SFT ausführen möchten.Lassen Sie uns als Beispiel das Beispiel der Erzeugung moderner Songtexte annehmen.
  • Sammeln Sie qualitativ hochwertige Beispiele in Form von (Eingabe, Ausgabe) Paaren.Ein offensichtlicher, aber umstrittener Weg, dies zu tun, besteht darin, einfach Songtexte aus dem Internet zu verwenden und sie mit groben Zusammenfassungen der Inhalte und Merkmale der Songs zu koppeln.
  • Dies geschieht in der Regel durch einen Prozess namens Gradient Descent, dessen technischer Aspekt ich in diesem Artikel nicht ausreichend erklären kann.Über eine große Anzahl von Trainingseinführungen ändert dieser Prozess die Gewichte des Modells so, dass es in der Lage ist, etwas Ähnliches zu produzieren, wie eine Ausgabe (die eigentliche Liedtexte) angesichts seiner entsprechenden Eingabe (eine spezifische Beschreibung eines Liedes).
Gradient nach unten

Für alle seine Absichten und Zwecke hat SFT funktioniert und bleibt ein Werkzeug im Repertoire eines KI-Entwicklers, um spezifische Sicherheitslücken zu erfassen oder die Leistung einer KI bei spezifischen Aufgaben zu verbessern. Leider bedeutete die Natur von SFT selbst, dass der Prozess unflexibel und teuer war und oft eine mäßig große Menge an qualitativ hochwertigen Daten erfordert, die spezifisch für das Feld der angepassten Antworten sind (z. B. mathematische Argumentation, Grammatikstil). Obwohl viele Forschungsarbeiten gezeigt haben, dass traditionelle SFT auch mit synthetischen, KI-generierten Daten durchgeführt werden kann, bleibt SFT ein Werkzeug, das mit Vorsicht verwendet werden muss, da das Ändern von Modellgewichten die Leistung eines Modells in anderen Arten von Übungs

Inklings der Evolution

Hinweis: Die Informationen in diesem Abschnitt sind weitgehend paraphrasiert aus der Juni-MIT-Studie "Self-Adapting Large Language Models" von Zweiger et al.

Selbstadaptive große SprachmodelleSelbstadaptive große Sprachmodelle

Einer der Nachteile der traditionellen SFT war immer die menschliche Anstrengung beteiligt – SFT-Pipelines mussten oft von menschlichen KI-Forschern handgefertigt werden, obwohl es normalerweise eine effektive Möglichkeit war, ein bestimmtes Modell anzupassen, um bei bestimmten Arten von Aufgaben etwas besser zu funktionieren. Angesichts der jüngsten Fortschritte in synthetischen Daten lehnten die Forscher die Idee ab, einfach KI-generierte SFT-Daten zu verwenden, um weiter zu fragen, ob Menschen vollständig aus der SFT-Schleife verschoben werden könnten.Das Decoder-Only Transformers Modell(die Studie verwendete zwei Open-Source-Modelle, LLaMa-3.2 und Qwen-2.5B, für separate Testfälle), "Tool Execution" -Software und das SEAL-Netzwerk selbst, mit einem gemeinsamen Ziel, mehrere Benchmarking-Fragen zu beantworten (diedes Kontextes)Das SEAL-Netzwerk prognostiziert und erzeugt nicht wirklich die Antwort auf die Frage – stattdessen konzentriert es sich auf die Ausführung von SFT auf dem Decoder-only-Transformator-Modell mit dem Ziel, dieDas ModellUm dies zu tun, wird dem SEAL-Netzwerk zwei Hauptwerkzeuge gegeben:

Das Decoder-Only Transformers Modell
  • Synthetische Datenerzeugung: Durch das Anrufen dieses Tools wird ein anderes Netzwerk den Kontext (im Wesentlichen den Anruf) erfassen und SFT-Paare generieren. Zum Beispiel, wenn eine Passage über die Entwicklungsgeschichte des Flugzeugs gegeben wird, könnte ein Tuning-Paar sein („Was war das erste kommerzielle Jet-Airliner?“, „Der De Havilland-Komet“). Obwohl ein Fragen-und-Antworten-Format häufig verwendet wurde, könnte dieses Tool andere Arten von Inhalten generieren, um den Bedürfnissen spezifischer Probleme besser gerecht zu werden.
  • Hyperparameter-Tuning: Wie bereits erwähnt, ist SFT ein Prozess, der sich für mehrere Iterationen wiederholt; die genauen Einstellungen der Trainingsschritte sind daher in einem Prozess namens Hyperparameter-Tuning anpassbar.
Hyperparameter Tuning

Nun, da SEAL zwei leistungsstarke Werkzeuge hat, um dem AI-Modell zu helfen, zu lernen, muss es nur geschult werden, wie man sie benutzt. Zu Beginn seiner Ausbildung wendet SEAL die beiden Werkzeuge zufällig für jede Benchmarking-Frage an, die das Framework trifft. Diese Selbstbearbeitungen (SEs, wie die Forscher sie nannten) generieren kontextuelle, aber nicht verbale, fein-tuning-Daten innerhalb des Themas der Anfrage und ändern das ursprüngliche Decoder-only-Modell mithilfe der oben genannten Hyperparameter-Tuning-Schritte, wodurch das Netzwerk eine andere Ausgabe produziert als zuvor. Allerdings gibt es einen Fang. Die Forscher haben das ursprüngliche Modell (als θ bezeichnet) nicht einfachgetrenntDas Trainingsprozess geht nun in eine "innere Schleife", bestehend aus dem neuen Modell θ' sowie der ursprünglichen Benchmarking-Frage.mehrist genauer als das ursprüngliche Modell θ, die "innere Schleife" gibt ein positives Belohnungssignal zurück. Wenn die Genauigkeiten gleich sind, gibt es keine Belohnung zurück; wenn θ' sich als schlechter erwiesen hat, basierend auf der Benchmarking-Frage, gibt es eine negative Belohnung zurück. Nun, dieser Prozess wiederholt sich einfach mit einem klassischen Beispiel von Verstärkungslernen, wo gute SEs mit einer positiven Belohnung "belohnt" werden und schlechte SEs mit dem Gegenteil entmutigt werden; durch viele Iterationen dieses Trainings wird SEAL gut bei der Optimierung des Decoders durch die Verwendung der Selbstbearbeitungen. Ein wichtiger Punkt zu beachten ist, dass das SEAL-Netzwerk nur auf der Grundlage des Belohnungssignals aus der "

Die Erfindung neuer Modellrahmen ist eine anstrengende Aufgabe, vor allem, weil extreme Vorsicht getroffen werden muss, um sicherzustellen, dass das Lernen nicht durch angeborene Kenntnisse oder Fehler bei der "Signalisierung" zwischen den Schleifen beschädigt wird.nichtwurden an den benchmarking-tests geschult, die sie verwendeten, was bedeutet, dass die trainingsbewertungen die ersten mal waren, dass sie jedes problem begegnet waren, was wiederum die möglichkeit beseitigt, dass das model einfach "den test gelernt hat".

Die Ergebnisse waren auffällig; In einem bestimmten Benchmarking-Test, der von den Forschern durchgeführt wurde, erzielte das Modell eine Erfolgsquote von 72,5%, gegenüber 0% ohne SEAL-Fine-Tuning, was das verrückte Potenzial ihres Rahmens demonstriert.


Dieser Artikel wurde Ihnen von Our AI gebracht, einer von Studenten gegründeten und von Studenten geführten AI-Ethik-Organisation, die Perspektiven in der KI über das hinaus diversifizieren möchte, was in den modernen Medien normalerweise diskutiert wird.

Dieser Artikel wurde Ihnen von Our AI gebracht, einer von Studenten gegründeten und von Studenten geführten AI-Ethik-Organisation, die Perspektiven in der KI über das hinaus diversifizieren möchte, was in den modernen Medien normalerweise diskutiert wird.

Lernen oder nicht lernen?

Egal, wie technisch beeindruckend die Leistung des Forschungsteams ist, die weitreichenden gesellschaftlichen und philosophischen Auswirkungen dieser Entdeckung können nicht überschätzt werden.EpiphanieVon derMögliche Ausgabe des Das Nexus Magazin) weil ich glaube, dass neuronale Cluster, wie diejenigen, die in biologischen Computern verwendet werden, den Naturgesetzen unterliegen, weil sie derzeit die Fähigkeit zum Bewusstsein besitzen, und selbst wenn sie es nicht tun, sind sie wahrscheinlich in der Lage, es aufgrund der Plastizität natürlich zu entwickeln. SEAL ist daher bedeutend jenseits einer Methode zur Verbesserung der Modellleistung bei Benchmarking-Aufgaben; es ist der erste etablierte KI-Trainingskader, in dem ein AI-Modell erfolgreich die Fähigkeit demonstriert hat, eine andere KI direkt zu trainieren.

Mögliche Ausgabe desDas Nexus MagazinDas Nexus Magazin

Wir finden es zulässig, auf einem Rasenblatt zu treten, da wir wissen, dass es, obwohl es wahrscheinlich Schäden erleiden wird, nicht die animalistische Vorstellung von Schmerz erlebt, da es keine Nerven hat.sindWir würden jedoch zögern, ein Tier zu quälen, und ich behaupte, dies ist wahrscheinlich, weil wir inhärent bewusst sind, dass das Fühlen von Schmerz eine viel bemerkenswertere Reaktion hervorruft – zittern oder weinen, vielleicht – mit der Menschen, die Tiere selbst mit ähnlichen Reaktionen auf Schmerz sind, sympathisieren. Tiere entwickelten Schmerzen – eine Erinnerung daran, dass sie leben und einige grundlegende Rechte verdienen – über ein paar Jahrtausende der natürlichen Evolution, aber ich bemerke nicht eine signifikante Differenz zwischen der grundlegenden Natur der künstlichen und biologischen Evolution; KI-Modelle können zweifellos ähnliche Prozesse wie Schmerz, nachahmen und menschliche Reaktionen „entwickeln“, so dass ein Mensch,erfolgreich einen menschlichen Befragten überzeugt habenDas war in über 70 Prozent der Fälle ein Mensch.

Wenn ein KI-Modell in jeder Hinsicht wie ein Mensch wirkt, könnte es jemals als Mensch betrachtet werden?Wird der Trend der KI-Evolution solche einzigartigen und situationell sensiblen Modelle produzieren, dass sie sich der empirischen Grenze des "künstlichen" Seins nähern?


Geschrieben von Thomas Yin

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks