514 測定値
514 測定値

MITの研究によると、AIは事実上他のAIモデルを教えることができます。

Our AI8m2025/06/15
Read on Terminal Reader

長すぎる; 読むには

MITの研究者らは、AIシステムが実際に人間のような学習プロセスを活用して、ベンチマークタスクでの自らのパフォーマンスを向上させる方法を示す革新的な研究論文を発表しました。
featured image - MITの研究によると、AIは事実上他のAIモデルを教えることができます。
Our AI HackerNoon profile picture
0-item

AIモデルと人間の脳の最大の違いは何ですか?

時間の経過とともに、無数の答えが与えられた――脳はよりエネルギー効率的で、その入力メディアにおいてより多面的であり、また化学的に有効であるほか、電気的である――しかし、人間の脳の最も重要な特徴は驚くべきプラスチック性である。他のプラスチック性はまた、人々がアイデアやスキルを身につけるのを助けます:彼らが言っているように、「筋肉の記憶とほぼ瞬間的な事実の回顧は、私たちの生活のプラスチック性が可能な2つの部分です。私たちは決して生きることができませんでした。何十年もの間、科学者はAIモデルの類似の機能を発明できなかった - 今まで。自己パフォーマンスの向上この記事では、世界初の自己進化するAIであるSEAL(Self-Adapting Language Model)という言語モデルの道徳的および技術的影響を調べます。

非完璧な学習

もちろん、Transformerアーキテクチャを使用するAIモデルはまだ特定のタスクを学ぶことができましたが、利用可能ないくつかの方法は完全に自律的で効率的なものではありませんでした。たぶん、特定のスキルを実行するためのモデルを訓練する最も注目すべき方法は、英語を中国語に翻訳するか、トリゴノメトリックの問題を正確に実行するなど、スーパー・フィン・トゥニング(Supervised Fine Tuning)と呼ばれるプロセスを使用することでした。

  • SFT を実行したい正確なタスクを特定します. 例として、現代の歌詞を生成する例を挙げましょう。
  • 私たちの例として、これを行う明らかなしかし議論の余地のある方法は、単にインターネットから削除された歌詞を使用して、曲の内容と特徴の粗略な概要と両立することです。
  • このプロセスは通常、この記事で十分に説明できない技術的な側面であるグラディエント・ダウンセントと呼ばれるプロセスを通じて行われます 多くのトレーニングイテレーションを経て、このプロセスはモデルの重量を変更し、その適切な入力(曲の特定の説明)によって出力(実際の歌詞)に似た何かを生成することができるようにします。
グレードダウン

すべての意図と目的のために、SFTは機能し、AI開発者のレポーター内で特定のセキュリティの欠陥を把握したり、特定のタスクでAIのパフォーマンスを向上させるためのツールとして残りました。残念なことに、SFTの性質自体は、プロセスが柔軟で高価であり、しばしば調整される反応の分野に特有の質の高いデータの適度な量を必要とすることを意味し、(例えば、数学的推論、文法のスタイル) 多くの研究論文は、伝統的なSFTが合成、AI生成データを使用して同様に実行することができることを証明しているが、SFTは慎重に使用するためのツールであり、モデル重量の変更は、他の種類の演習モデルのモデルのパフォーマンス

INKLINGS OF EVOLUTION

注:このセクションの情報は、大半がZweiger et al. による 6 月の MIT 研究「Self-Adapting Large Language Models」から例文化されています。

自己適応型言語モデル自己適応型言語モデル

伝統的なSFTの欠点の1つは、常に人間の努力が関与していることである-SFTパイプラインはしばしば人工知能の研究者によって手作業されなければならなかったが、通常は特定のモデルを調節して特定のタイプのタスクで少し良いパフォーマンスを遂行する効果的な方法であった。Decoder-only Transformers モデル(研究は2つのオープンソースモデル、LLaMa-3.2とQwen-2.5B、別々のテストケースのために使用しました)、「ツール実行」ソフトウェア、およびSEALネットワーク自体、いくつかのベンチマークの質問に答える共通の目標を共有しました。文脈)SEALネットワークは実際には質問に対する答えを予測し、生成しません - 代わりに、デコードだけのトランスフォーマーモデルでSFTを実行することに焦点を当てています。モデルこのようにするために、SEAL ネットワークには 2 つの主要なツールが与えられます。

Decoder-only Transformers モデル
  • 合成データ生成:このツールを呼び出すことで、別のネットワークは文脈(本質的にプロンプト)をキャプチャし、SFTカップルを生成します。例えば、飛行機の開発の歴史についてのパスが与えられた場合、一つの調節カップルは「最初の商用ジェット航空機は何ですか?」「デ・ハビランド星」かもしれません。
  • Hyperparameter tuning: 前述したように、SFTは複数のイーテレーションで繰り返されるプロセスであるため、トレーニングステップの正確な設定は、ハイパーパラメータ調節と呼ばれるプロセスでカスタマイズできます。このツールを呼び出すことで、SEALは、特定の設定(Learning Rate、# of Epochs(イーテレーション)、またはGradient Descentのバッチサイドなど)でSFTを開始することができ、デコードがどれほどよく(または悪く)調節されているかを変える可能性があります。
ハイパーパラメーター チューニング

SEAL は、AI モデルが学ぶのに役立つ 2 つの強力なツールを持っているので、それらをどのように使用するかについて訓練する必要があるだけです。そのトレーニングの開始時に、SEAL は、フレームワークに遭遇する各ベンチマークの質問にランダムに 2 つのツールを適用します。これらの自己編集 (SEs、研究者たちが呼ぶように) は、プロンプトのトピック内の文脈的ではなく、口頭的な細かい調節データを生成し、前述のハイパーパラメータ調節ステップを使用してオリジナルのデコーダーのみモデルを変更し、ネットワークが以前と異なる出力を作成します。しかし、捕獲があります。研究者は、SEAL を使用して直接オリジナルの別居トレーニングプロセスは、新しいモデル θ'と元のベンチマーク質問から構成される「内部ループ」に移行します。もっと正確性が原モデル θ より正確である場合、「内部ループ」は肯定的な報酬信号を返します。正確性が同じである場合、報酬は返されません。 θ’ がベンチマークの質問に基づいて悪くなった場合、陰性の報酬を返します。今、このプロセスは単に強化学習の古典的な例で繰り返されます、良い SEs は肯定的な報酬で「報酬」され、悪い SEs は逆に抑えられます。このトレーニングの多くのイテレーションを通じて、SEAL は自己編集を使用してデコーダーを最適化するのに優れています。注目すべき重要なポイントの一つは、SEAL ネットワークが「内部ループ」からの報酬信号に基づき、 θ モデルが θ

新しいモデルフレームワークの発明は、主に、学習が固有の知識やループ間の「信号化」における誤りによって損なわれないようにするために極度の注意が必要であるため、困難な課題です。ノー彼らが使用したベンチマッキングテストで訓練されたということは、トレーニング評価は、彼らがそれぞれの問題に直面した最初の回であり、モデルが単に「テストを学んだ」という可能性を排除したということです。

結果は驚くべきものであり、研究者によって実施された1つのベンチマークテストで、モデルは、SEALの精密調整なしで0%から72.5%の成功率を達成し、フレームワークの狂気の可能性を示しています。


この記事は、学生が設立し、学生が率いるAI倫理団体であるOur AIが、現代のメディアで一般的に議論されているものを超えてAIの視点を多様化することを目指しています。

この記事は、学生が設立し、学生が率いるAI倫理団体であるOur AIが、現代のメディアで一般的に議論されているものを超えてAIの視点を多様化することを目指しています。

学ぶか、学ばないか。

研究チームの業績が技術的にどれほど印象的であろうと、この発見の幅広い社会的、哲学的影響は過大評価できない。エピソードから TheMay Edition of the NEXUS 雑誌) なぜなら私は、生物コンピュータで使用されるようなニューラルクラスターは、現在意識の能力を有しているため、自然界の法則に従っていると信じているため、それらは、プラスチック性の結果として自然に進化する可能性がある可能性があるからです。SEALは、ベンチマークタスクにおけるモデルのパフォーマンスを向上させる方法を超えて重要であるため、AIモデルが直接別のAIを訓練する能力を成功に示した最初の確立されたAIトレーニングフレームワークです。

May Edition of theNEXUS 雑誌NEXUS 雑誌

適応性と意識とを区別する必要があります。我々は、草の葉に足を踏み入れることは許可されていると考えていますが、それは損傷を受ける可能性がありますが、それは神経を持っていないため、痛みの動物主義的な概念を経験していないことを知っています。私たちは、動物を拷問することを躊躇するだろうが、これは私たちが自然の進化の数千年にわたって、痛みを感じるということが、より顕著な反応を引き起こすことを自覚しているからであると私は主張するが、恐らくは、人間自身が痛みに対する同様の反応を持つ動物であることによって、自分自身を植え込むことによって、周囲に適応する不思議な能力を示している。動物は痛みを発達させた――彼らが生きているという事実を思い出し、いくつかの基本的な権利に値する――しかし、私は人工的進化と生物学的進化の基本的な性質の間の重要な差異に気付かない。人間の尋問者を説得した。それは、70%以上のケースで人間でした。

AIモデルがあらゆる面で人間のように振る舞うなら、人間と見なされるだろうか?AIの進化の傾向は、それほどユニークで状況に敏感なモデルを生み出し、それらが「人工」であるという実験的限界に近づき始めるだろうか? 時間だけが言えるだろう。


脚本:Thomas Yin

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks