auteur :
(1) Team Chameleon, FAIR à Meta.
Author:
(1) Team Chameleon, FAIR à Meta.
Table de gauche
2.2 Données de pré-entraînement
4 Évaluations humaines et tests de sécurité, et 4.1 Prompts pour l'évaluation
5 Évaluations de référence et 5.1 Texte
7 Conclusion, reconnaissances, contributeurs et références
Appendix
B. Informations complémentaires sur les évaluations humaines
Nous présentons Chameleon, une famille de modèles mixtes basés sur des jetons de fusion précoce capables de comprendre et de générer des images et du texte dans n'importe quelle séquence arbitraire. Nous décrétons une approche de formation stable dès le début, une recette d'alignement et une paramétrification architecturale adaptée aux tâches de fusion précoce, basées sur des jetons, des modèles mixtes. Les modèles sont évalués sur une gamme complète de tâches uniquement en texte, y compris la réponse visuelle aux questions, la génération de sous-titres d'image, la génération d'images et la génération de modèles mixtes longues. Chameleon démontre des capacités générales et générales, y compris
1 Introduction
Les modèles de fondation multimodaux récents sont très largement adoptés, mais encore modélisent différentes modalités séparément, souvent en utilisant des encodeurs ou décodeurs spécifiques à la modalité. Cela peut limiter leur capacité à intégrer des informations à travers les modalités et à générer des documents multimodaux pouvant contenir des séquences arbitraires d'images et de texte. Dans ce document, nous présentons Chameleon, une famille de modèles de fondation mixtes-modales capables de générer et de raisonner avec des séquences mixtes de contenu textuel et d'image arbitrairement liés (Fig. 2-4). Cela permet une modélisation de document multimodal complète, qui est une généralisation directe des tâches multimodales standard telles que la génération d'images
Notre approche unifiée utilise des représentations entièrement basées sur des jetons pour les modalités d’image et de texte (figure 1). En quantifiant les images en jetons distincts, analogues aux mots dans le texte, nous pouvons appliquer la même architecture de transformateur aux séquences des jetons d’image et de texte, sans avoir besoin d’encodeurs d’image/texte séparés (Alayrac et al., 2022; Liu et al., 2023b; Laurençon et al., 2023) ou de décodeurs spécifiques au domaine (Ramesh et al., 2022; Jin et al., 2023; Betker et al., 2023). Cette approche de fusion précoce, où toutes les modalités sont projetées dans un espace de représentation partagé dès le départ, permet un raisonnement et une
Nous abordons ces défis à travers une combinaison d'innovations architecturales et de techniques de formation. Nous introduisons de nouvelles modifications à l'architecture de transformateur, telles que la normalisation de la clé de requête et le placement révisé des normes de couche, que nous trouvons cruciales pour une formation stable dans le cadre mixte-modal (section 2.3). Nous montrons en outre comment adapter les approches de finition supervisées utilisées pour les LLM uniquement texte à l'environnement mixte-modal, permettant une forte alignement à l'échelle (section 3). En utilisant ces techniques, nous formons avec succès Chameleon-34B sur 5x le nombre de jetons comme Llama-2 - permettant de nouvelles applications mixte-modales tout en correspondant ou même
Des évaluations approfondies montrent que Chameleon est un modèle largement capable sur un ensemble diversifié de tâches. Sur les critères de réponse aux questions visuelles et d'image, Chameleon-34B atteint des performances de pointe, dépassant les modèles comme Flamingo, IDEFICS et Llava-1.5 (Section 5.2). Dans le même temps, il maintient des performances compétitives sur les critères uniquement texte, correspondant à des modèles comme Mixtral 8x7B et Gemini-Pro sur les raisonnements de bon sens et les tâches de compréhension de la lecture (Section 5.1).
Comme l’utilisation de critères de référence uniquement statiques et publics pour évaluer les performances des modèles pourrait être limitée (Schaeffer, 2023), nous menons également une expérience d’évaluation humaine soigneusement conçue en mesurant la qualité des réponses à longues formes mixtes aux prompts ouverts.Chameleon-34B dépasse considérablement les bases solides telles que Gemini-Pro et GPT-4V (Section 4), atteignant un taux de préférence de 60,4% par rapport à Gemini-Pro et un taux de préférence de 51,6% par rapport à GPT-4V dans les comparaisons à paire.
En résumé, nous présentons les contributions suivantes :
• Nous présentons Chameleon, une famille de modèles modulaires mixtes basés sur des jetons de fusion précoce capables de réfléchir et de générer des documents image-texte interliés, établissant une nouvelle barre pour les modèles de fondation multimodales ouverts.
• Nous introduisons des innovations architecturales et des techniques de formation qui permettent la formation stable et évolutive des modèles basés sur les jetons de fusion précoce, répondant aux défis clés de l’apprentissage mixte.
• Grâce à des évaluations approfondies, nous démontrons des performances de pointe à travers un ensemble diversifié de critères de référence en langue de vision, tout en maintenant des performances compétitives sur les tâches uniquement en texte et en générant des images de haute qualité, le tout dans le même modèle.
• Nous menons la première évaluation humaine à grande échelle sur le raisonnement et la génération de modes mixtes ouverts, démontrant les capacités uniques du Chamélène dans ce nouveau cadre.
Chameleon représente une étape significative vers la réalisation de la vision de modèles de fondation unifiés capables de raisonner de manière flexible et de générer du contenu multimodal.
Ce document est disponible sous la licence CC BY 4.0 DEED.
Ce document est disponible sous la licence CC BY 4.0 DEED.
Disponible dans les archives