335 測定値
335 測定値

このAIはテキストと画像の間の境界線を見ない

長すぎる; 読むには

Chameleonは、トークンベースの早期合併アプローチを使用して画像とテキスト処理を統一する最先端のAIであり、視覚的およびテキストの推論における新しい基準を設定し、画像タイトリングにおける主要なモデルを上回り、混合型生産のための人間の評価におけるGPT-4VおよびGemini-Proのライバルです。
featured image - このAIはテキストと画像の間の境界線を見ない
Regularization Technology HackerNoon profile picture
0-item

著者:

(1) Chameleon Team, FAIR at Meta。

Author:

(1) Chameleon Team, FAIR at Meta。

左のテーブル

抽象と1 Introduction

2 トレーニング前

2.1 トークン化

2.2 トレーニング前データ

2.3 安定性

2.4 結論

3 調節と 3.1 データ

4.2 Fine-Tuning 戦略

4 人間の評価と安全性の試験、および 4.1 評価の前提

4.2 基準と評価

4.3 アンノテータ間協定

4.4 安全性テスト

4.5 議論

5 ベンチマーク評価と 5.1 テキスト

5.2 画像・テキスト

6 関連事業

7 結論、認定、貢献者、参照

Appendix

A.サンプル

B.人間の評価に関する追加情報


Chameleon は、初期合併トークンベースの混合モダルモデルの家族で、あらゆる任意の順序で画像とテキストを理解し生成することができます。我々は、初期合併のための安定したトレーニングアプローチ、調節レシピ、および建築パラメータ化を概説します。モデルは、視覚的な質問の回答、画像の書き込み、テキストの生成、画像の生成、および長い形状の混合モダル生成などの幅広い範囲のタスクで評価されています。 Chameleon は、画像の書き出し作業における最先端のパフォーマンスを含む幅広いおよび一般的な能力を示しています、テキストのみのタスクで Llama-2 を上回り、

1 導入

最近の多様な基礎モデルは非常に広く採用されていますが、多くの場合、モダル特有のエンコーダーやデコーダーを使用して、別々に異なる形態をモデル化しています。これは、モダルを越えて情報を統合し、画像とテキストの任意の順序を含むことができる多様な文書を生成する能力を制限することができます。この論文では、Chameleonを紹介し、画像生成、画像の理解と推論、およびテキストのみのLLMsを生成し、起源から混合モデルと推論する能力を持つ混合型基礎モデルの家族です(図2〜4)。これは、すべての形態、すなわち、画像、テキスト、コードの混合式で、端から端に仕様に訓練されたアーキテクチャ


私たちの統一的なアプローチは、画像とテキストの両方の形態のための完全にトークンベースの表示を用いる(図1)。画像をテキスト内の単語と同様に分離されたトークンに量子化することで、画像とテキストの両方のトークンのシーケンスに同じトランスフォーマーアーキテクチャを適用することができます(Alayrac et al., 2022; Liu et al., 2023b; Laurençon et al., 2023)またはドメイン特有のデコダクター(Ramesh et al., 2022; Jin et al., 2023; Betker et al., 2023)。この早期合併アプローチは、すべての形態が最初から共通の代表的な空間にプロジェクトされることなく、モダリティの間でシームレスな推論


我々は、クエリキーの標準化やレイヤー規範の修正などのトランスフォーマーアーキテクチャに新たな変更を導入し、これらは、混合モダル環境における安定したトレーニングにとって極めて重要であると考えている(セクション2.3)である。我々はまた、テキストのみLLMに使用される監督されたフィナントニングアプローチを混合モダル環境に適応させる方法を示し、規模で強力な調和を可能にする(セクション3)。これらの技術を使用して、我々は成功してLlama-2のようなトークンの5倍の数でChameleon-34Bをトレーニングします。


Figure 1 Chameleon represents all modalities — images, text, and code, as discrete tokens and uses a uniform transformer-based architecture that is trained from scratch in an end-to-end fashion on ∼10T tokens of interleaved mixed-modal data. As a result, Chameleon can both reason over, as well as generate, arbitrary mixed-modal documents. Text tokens are represented in green and image tokens are represented in blue.


Chameleon-34Bは、ビジュアル質問回答と画像タイトリングのベンチマークで、Flamingo、IDEFICS、Llava-1.5などのモデルを上回る最先端のパフォーマンスを達成しています(第5.2節)。同時に、Mixtral 8x7BやGemini-Proのようなモデルに合致し、常識的な推理や読書理解のタスク(第5.1節)に合致します。


モデルのパフォーマンスを評価するために静的で公的な基準だけを使用する場合が限られているため(Schaeffer、2023)、我々はまた、オープンエンドのプロンプトに対する混合型長形態の反応の品質を測定することによって、慎重に設計された人間評価実験を実施する。


概要として、以下の貢献を紹介します。


•Chameleonは、早期合併トークンベースの混合モダルモデルのファミリーであり、論理を推論し、交差した画像テキストドキュメントを生成し、オープンな多形基盤モデルのための新しいバーを設定します。


• 初期合併トークンベースのモデルの安定かつスケーラブルなトレーニングを可能にする建築革新とトレーニング技術を導入し、混合モダル学習における主要な課題に対処します。


• 幅広い評価を通じて、ビジョン言語ベンチマークの多様なセットで最先端のパフォーマンスを示し、テキストのみのタスクで競争力のあるパフォーマンスと、同一モデルで高品質な画像生成を維持します。


• 私たちは、オープンエンドの混合モダル推論と生成に関する最初の大規模な人間評価を実施し、この新しい環境におけるカメレオンのユニークな能力を示しています。


Chameleonは、柔軟に推論し、多様なコンテンツを生成するための統一された基礎モデルのビジョンの実現に向けた重要な一歩を示しています。


Figure 2 Sample interleaved image and text generation from Chameleon. The corresponding images are generated in locations marked by.


この論文は CC BY 4.0 DEED ライセンスの下で archiv で利用できます。

この論文は CC BY 4.0 DEED ライセンスの下で archiv で利用できます。

ARCHIV で利用可能


Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks