De auteur:
(1) Chameleon Team, FAIR bij Meta.
Author:
(1) Chameleon Team, FAIR bij Meta.
Tafel links
4 Menselijke evaluaties en veiligheidstests, en 4.1 Prompts voor evaluatie
4.3 Inter-annotatieovereenkomst
5 Benchmark Evaluaties en 5.1 Tekst
7 Conclusie, erkenningen, bijdragen en referenties
Appendix
B. Aanvullende informatie over menselijke evaluaties
We presenteren Chameleon, een familie van gemengde modellen op basis van token van vroege fusie die in staat zijn om afbeeldingen en tekst in elke willekeurige volgorde te begrijpen en te genereren. We schetsen een stabiele trainingsaanpak vanaf het begin, een aanpassingsrecept en een architecturale parameterisatie afgestemd op de vroege fusie, op token gebaseerde, gemengde modale setting. De modellen worden beoordeeld op een uitgebreid scala aan taken, waaronder visuele vragen beantwoorden, afbeelding ondertekenen, tekstgeneratie, afbeeldinggeneratie en langvormige gemengde modale generatie. Chameleon toont brede en algemene mogelijkheden, waaronder state-of-the-art prestaties bij afbeeldingstaken, overtreft Llama-2
1 Inleiding
Recente multimodale basismodellen worden zeer veel geadopteerd, maar nog steeds modellen verschillende modaliteiten afzonderlijk, vaak met behulp van modaliteit-specifieke coders of decoders. Dit kan hun vermogen om informatie te integreren over modaliteiten te beperken en te genereren multimodale documenten die willekeurige sequenties van afbeeldingen en tekst kunnen bevatten. In dit document, presenteren we Chameleon, een familie van gemengde-modale basismodellen in staat om te genereren en redeneren met gemengde sequenties van willekeurig interleaved tekst en beeld inhoud (figuur 2-4). Dit maakt volledige multimodale document modellering, dat is een directe generalisatie van standaard multimodale taken zoals beeldgeneratie, begrip en redeneren over afbeeldingen, en tekst-only LLMs
Door afbeeldingen te kwantificeren tot discrete tokens, analoog aan woorden in tekst, kunnen we dezelfde transformatorarchitectuur toepassen op sequenties van zowel beeld- als teksttokens, zonder dat er behoefte is aan afzonderlijke beeld/tekstcoders (Alayrac et al., 2022; Liu et al., 2023b; Laurençon et al., 2023) of domeinspecifieke decoders (Ramesh et al., 2022; Jin et al., 2023; Betker et al., 2023). Deze vroege fusie-benadering, waarbij alle modaliteiten vanaf het begin worden geprojecteerd in een gedeelde representatieve ruimte, maakt naadloos redeneren en genereren over modaliteiten mogelijk.
We introduceren nieuwe wijzigingen in de transformatorarchitectuur, zoals query-key normalisatie en herziene plaatsing van laagnormen, die we van cruciaal belang vinden voor stabiele training in de mixed-modal setting (Section 2.3). We laten verder zien hoe we de supervised finetuning benaderingen die worden gebruikt voor tekst-only LLM's kunnen aanpassen aan de mixed-modal setting, waardoor een sterke afstemming op schaal mogelijk is (Section 3). Met behulp van deze technieken trainen we met succes Chameleon-34B op 5x het aantal tokens zoals Llama-2 - waardoor nieuwe mixed-modal toepassingen kunnen worden toegepast, terwijl we bestaande LLM's op unimodale benchmarks blijven matchen of zelfs overtreffen.
Chameleon-34B bereikt state-of-the-art prestaties, overtreft modellen zoals Flamingo, IDEFICS en Llava-1.5 (Section 5.2). Tegelijkertijd behoudt het concurrerende prestaties op tekst-only benchmarks, matching modellen zoals Mixtral 8x7B en Gemini-Pro op gezond verstand redeneren en lezen begrip taken (Section 5.1). Maar misschien wel het meest indrukwekkend, Chameleon ontgrendelt volledig nieuwe mogelijkheden in termen van gemengde modale redenering en generatie.
Aangezien het gebruik van alleen statische, publieke benchmarks om de modelprestaties te evalueren beperkt kan zijn (Schaeffer, 2023), voeren we ook een zorgvuldig ontworpen menselijk evaluatie-experiment door de kwaliteit van gemengde-modale langvormige reacties op open-end prompts te meten. Chameleon-34B overtreft aanzienlijk sterke baseline's zoals Gemini-Pro en GPT-4V (Section 4), het bereiken van een voorkeurspercentage van 60,4% ten opzichte van Gemini-Pro en een voorkeurspercentage van 51,6% ten opzichte van GPT-4V in koppelmatige vergelijkingen.
Samenvattend presenteren wij de volgende bijdragen:
• We presenteren Chameleon, een familie van gemengde-modale modellen op basis van tokens van vroege fusie die in staat zijn om te redeneren en te genereren interleaved beeld-tekstdocumenten, het instellen van een nieuwe bar voor open multimodale basismodellen.
• We introduceren architecturale innovaties en trainingstechnieken die de stabiele en schaalbare training van early-fusion-token-gebaseerde modellen mogelijk maken, om de belangrijkste uitdagingen in gemengd-modal leren aan te pakken.
• Via uitgebreide evaluaties demonstreren we state-of-the-art prestaties in een gevarieerde reeks visie-taal benchmarks, terwijl we concurrerende prestaties behouden op tekst-only taken en hoogwaardige beeldgeneratie, allemaal in hetzelfde model.
• We voeren de eerste grootschalige menselijke evaluatie uit op open-end gemengd-modale redenering en generatie, die de unieke mogelijkheden van Chameleon in deze nieuwe setting demonstreert.
Chameleon vertegenwoordigt een belangrijke stap in de richting van het realiseren van de visie van een eenvormige basismodellen die in staat zijn om flexibel te redeneren en multimodale inhoud te genereren.
Dit document is verkrijgbaar onder de CC BY 4.0 DEED licentie.
Dit papier is