335 lectures
335 lectures

Cette IA ne voit pas la ligne entre le texte et les images

Trop long; Pour lire

Chameleon est une AI de pointe qui unifie le traitement d'image et de texte à l'aide d'une approche de fusion précoce basée sur des jetons.Il établit de nouveaux critères de référence dans le raisonnement visuel et texte, dépasse les principaux modèles en sous-titration d'image et rivalise avec GPT-4V et Gemini-Pro dans les évaluations humaines pour la génération mixte-modale.
featured image - Cette IA ne voit pas la ligne entre le texte et les images
Regularization Technology HackerNoon profile picture
0-item

auteur :

(1) Team Chameleon, FAIR à Meta.

Author:

(1) Team Chameleon, FAIR à Meta.

Table de gauche

Abstraction et 1 Introduction

2 Pré-entraînement

2.1 Tokenisation

2.2 Données de pré-entraînement

2.3 Stabilité

2.4 Définition

3 Alignement et 3.1 Données

3.2 Stratégie de finition

4 Évaluations humaines et tests de sécurité, et 4.1 Prompts pour l'évaluation

4.2 Bases et évaluations

4.3 Accord interannotateur

4.4 Tests de sécurité

4.5 Débat

5 Évaluations de référence et 5.1 Texte

5.2 Images en texte

6 Travaux connexes

7 Conclusion, reconnaissances, contributeurs et références

Appendix

A. Les échantillons

B. Informations complémentaires sur les évaluations humaines


Nous présentons Chameleon, une famille de modèles mixtes basés sur des jetons de fusion précoce capables de comprendre et de générer des images et du texte dans n'importe quelle séquence arbitraire. Nous décrétons une approche de formation stable dès le début, une recette d'alignement et une paramétrification architecturale adaptée aux tâches de fusion précoce, basées sur des jetons, des modèles mixtes. Les modèles sont évalués sur une gamme complète de tâches uniquement en texte, y compris la réponse visuelle aux questions, la génération de sous-titres d'image, la génération d'images et la génération de modèles mixtes longues. Chameleon démontre des capacités générales et générales, y compris

1 Introduction

Les modèles de fondation multimodaux récents sont très largement adoptés, mais encore modélisent différentes modalités séparément, souvent en utilisant des encodeurs ou décodeurs spécifiques à la modalité. Cela peut limiter leur capacité à intégrer des informations à travers les modalités et à générer des documents multimodaux pouvant contenir des séquences arbitraires d'images et de texte. Dans ce document, nous présentons Chameleon, une famille de modèles de fondation mixtes-modales capables de générer et de raisonner avec des séquences mixtes de contenu textuel et d'image arbitrairement liés (Fig. 2-4). Cela permet une modélisation de document multimodal complète, qui est une généralisation directe des tâches multimodales standard telles que la génération d'images


Notre approche unifiée utilise des représentations entièrement basées sur des jetons pour les modalités d’image et de texte (figure 1). En quantifiant les images en jetons distincts, analogues aux mots dans le texte, nous pouvons appliquer la même architecture de transformateur aux séquences des jetons d’image et de texte, sans avoir besoin d’encodeurs d’image/texte séparés (Alayrac et al., 2022; Liu et al., 2023b; Laurençon et al., 2023) ou de décodeurs spécifiques au domaine (Ramesh et al., 2022; Jin et al., 2023; Betker et al., 2023). Cette approche de fusion précoce, où toutes les modalités sont projetées dans un espace de représentation partagé dès le départ, permet un raisonnement et une


Nous abordons ces défis à travers une combinaison d'innovations architecturales et de techniques de formation. Nous introduisons de nouvelles modifications à l'architecture de transformateur, telles que la normalisation de la clé de requête et le placement révisé des normes de couche, que nous trouvons cruciales pour une formation stable dans le cadre mixte-modal (section 2.3). Nous montrons en outre comment adapter les approches de finition supervisées utilisées pour les LLM uniquement texte à l'environnement mixte-modal, permettant une forte alignement à l'échelle (section 3). En utilisant ces techniques, nous formons avec succès Chameleon-34B sur 5x le nombre de jetons comme Llama-2 - permettant de nouvelles applications mixte-modales tout en correspondant ou même


Figure 1 Chameleon represents all modalities — images, text, and code, as discrete tokens and uses a uniform transformer-based architecture that is trained from scratch in an end-to-end fashion on ∼10T tokens of interleaved mixed-modal data. As a result, Chameleon can both reason over, as well as generate, arbitrary mixed-modal documents. Text tokens are represented in green and image tokens are represented in blue.


Des évaluations approfondies montrent que Chameleon est un modèle largement capable sur un ensemble diversifié de tâches. Sur les critères de réponse aux questions visuelles et d'image, Chameleon-34B atteint des performances de pointe, dépassant les modèles comme Flamingo, IDEFICS et Llava-1.5 (Section 5.2). Dans le même temps, il maintient des performances compétitives sur les critères uniquement texte, correspondant à des modèles comme Mixtral 8x7B et Gemini-Pro sur les raisonnements de bon sens et les tâches de compréhension de la lecture (Section 5.1).


Comme l’utilisation de critères de référence uniquement statiques et publics pour évaluer les performances des modèles pourrait être limitée (Schaeffer, 2023), nous menons également une expérience d’évaluation humaine soigneusement conçue en mesurant la qualité des réponses à longues formes mixtes aux prompts ouverts.Chameleon-34B dépasse considérablement les bases solides telles que Gemini-Pro et GPT-4V (Section 4), atteignant un taux de préférence de 60,4% par rapport à Gemini-Pro et un taux de préférence de 51,6% par rapport à GPT-4V dans les comparaisons à paire.


En résumé, nous présentons les contributions suivantes :


• Nous présentons Chameleon, une famille de modèles modulaires mixtes basés sur des jetons de fusion précoce capables de réfléchir et de générer des documents image-texte interliés, établissant une nouvelle barre pour les modèles de fondation multimodales ouverts.


• Nous introduisons des innovations architecturales et des techniques de formation qui permettent la formation stable et évolutive des modèles basés sur les jetons de fusion précoce, répondant aux défis clés de l’apprentissage mixte.


• Grâce à des évaluations approfondies, nous démontrons des performances de pointe à travers un ensemble diversifié de critères de référence en langue de vision, tout en maintenant des performances compétitives sur les tâches uniquement en texte et en générant des images de haute qualité, le tout dans le même modèle.


• Nous menons la première évaluation humaine à grande échelle sur le raisonnement et la génération de modes mixtes ouverts, démontrant les capacités uniques du Chamélène dans ce nouveau cadre.


Chameleon représente une étape significative vers la réalisation de la vision de modèles de fondation unifiés capables de raisonner de manière flexible et de générer du contenu multimodal.


Figure 2 Sample interleaved image and text generation from Chameleon. The corresponding images are generated in locations marked by.


Ce document est disponible sous la licence CC BY 4.0 DEED.

Ce document est disponible sous la licence CC BY 4.0 DEED.

Disponible dans les archives


Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks