著者:
(1) Chameleon Team, FAIR at Meta。
Author:
(1) Chameleon Team, FAIR at Meta。
左のテーブル
Appendix
Chameleon は、初期合併トークンベースの混合モダルモデルの家族で、あらゆる任意の順序で画像とテキストを理解し生成することができます。我々は、初期合併のための安定したトレーニングアプローチ、調節レシピ、および建築パラメータ化を概説します。モデルは、視覚的な質問の回答、画像の書き込み、テキストの生成、画像の生成、および長い形状の混合モダル生成などの幅広い範囲のタスクで評価されています。 Chameleon は、画像の書き出し作業における最先端のパフォーマンスを含む幅広いおよび一般的な能力を示しています、テキストのみのタスクで Llama-2 を上回り、
1 導入
最近の多様な基礎モデルは非常に広く採用されていますが、多くの場合、モダル特有のエンコーダーやデコーダーを使用して、別々に異なる形態をモデル化しています。これは、モダルを越えて情報を統合し、画像とテキストの任意の順序を含むことができる多様な文書を生成する能力を制限することができます。この論文では、Chameleonを紹介し、画像生成、画像の理解と推論、およびテキストのみのLLMsを生成し、起源から混合モデルと推論する能力を持つ混合型基礎モデルの家族です(図2〜4)。これは、すべての形態、すなわち、画像、テキスト、コードの混合式で、端から端に仕様に訓練されたアーキテクチャ
私たちの統一的なアプローチは、画像とテキストの両方の形態のための完全にトークンベースの表示を用いる(図1)。画像をテキスト内の単語と同様に分離されたトークンに量子化することで、画像とテキストの両方のトークンのシーケンスに同じトランスフォーマーアーキテクチャを適用することができます(Alayrac et al., 2022; Liu et al., 2023b; Laurençon et al., 2023)またはドメイン特有のデコダクター(Ramesh et al., 2022; Jin et al., 2023; Betker et al., 2023)。この早期合併アプローチは、すべての形態が最初から共通の代表的な空間にプロジェクトされることなく、モダリティの間でシームレスな推論
我々は、クエリキーの標準化やレイヤー規範の修正などのトランスフォーマーアーキテクチャに新たな変更を導入し、これらは、混合モダル環境における安定したトレーニングにとって極めて重要であると考えている(セクション2.3)である。我々はまた、テキストのみLLMに使用される監督されたフィナントニングアプローチを混合モダル環境に適応させる方法を示し、規模で強力な調和を可能にする(セクション3)。これらの技術を使用して、我々は成功してLlama-2のようなトークンの5倍の数でChameleon-34Bをトレーニングします。
Chameleon-34Bは、ビジュアル質問回答と画像タイトリングのベンチマークで、Flamingo、IDEFICS、Llava-1.5などのモデルを上回る最先端のパフォーマンスを達成しています(第5.2節)。同時に、Mixtral 8x7BやGemini-Proのようなモデルに合致し、常識的な推理や読書理解のタスク(第5.1節)に合致します。
モデルのパフォーマンスを評価するために静的で公的な基準だけを使用する場合が限られているため(Schaeffer、2023)、我々はまた、オープンエンドのプロンプトに対する混合型長形態の反応の品質を測定することによって、慎重に設計された人間評価実験を実施する。
概要として、以下の貢献を紹介します。
•Chameleonは、早期合併トークンベースの混合モダルモデルのファミリーであり、論理を推論し、交差した画像テキストドキュメントを生成し、オープンな多形基盤モデルのための新しいバーを設定します。
• 初期合併トークンベースのモデルの安定かつスケーラブルなトレーニングを可能にする建築革新とトレーニング技術を導入し、混合モダル学習における主要な課題に対処します。
• 幅広い評価を通じて、ビジョン言語ベンチマークの多様なセットで最先端のパフォーマンスを示し、テキストのみのタスクで競争力のあるパフォーマンスと、同一モデルで高品質な画像生成を維持します。
• 私たちは、オープンエンドの混合モダル推論と生成に関する最初の大規模な人間評価を実施し、この新しい環境におけるカメレオンのユニークな能力を示しています。
Chameleonは、柔軟に推論し、多様なコンテンツを生成するための統一された基礎モデルのビジョンの実現に向けた重要な一歩を示しています。
この論文は CC BY 4.0 DEED ライセンスの下で archiv で利用できます。
この論文は CC BY 4.0 DEED ライセンスの下で archiv で利用できます。
ARCHIV で利用可能