335 lezingen
335 lezingen

Deze AI ziet de lijn tussen tekst en afbeeldingen niet

Te lang; Lezen

Chameleon is een geavanceerde AI die beeld- en tekstverwerking unifieert met behulp van een token-gebaseerde, vroege fusie-benadering.Het stelt nieuwe benchmarks in visuele en tekstargumentatie, overtreft toonaangevende modellen in afbeelding ondertiteling, en concurreert met GPT-4V en Gemini-Pro in menselijke evaluaties voor gemengde-modale generatie.
featured image - Deze AI ziet de lijn tussen tekst en afbeeldingen niet
Regularization Technology HackerNoon profile picture
0-item

De auteur:

(1) Chameleon Team, FAIR bij Meta.

Author:

(1) Chameleon Team, FAIR bij Meta.

Tafel links

Abstract en 1 inleiding

2 Voorafgaande training

2.1 Tokenisatie

2.2 Pre-training gegevens

2.3 Stabiliteit

2.4 Inferentie

3 Alignment en 3.1 gegevens

3.2 Fine-tuning strategieën

4 Menselijke evaluaties en veiligheidstests, en 4.1 Prompts voor evaluatie

4.2 Baseline en evaluaties

4.3 Inter-annotatieovereenkomst

4.4 Veiligheidstests

4.5 Discussies

5 Benchmark Evaluaties en 5.1 Tekst

5.2 Afbeelding tot tekst

6 Gerelateerde werkzaamheden

7 Conclusie, erkenningen, bijdragen en referenties

Appendix

A. Samples

B. Aanvullende informatie over menselijke evaluaties


We presenteren Chameleon, een familie van gemengde modellen op basis van token van vroege fusie die in staat zijn om afbeeldingen en tekst in elke willekeurige volgorde te begrijpen en te genereren. We schetsen een stabiele trainingsaanpak vanaf het begin, een aanpassingsrecept en een architecturale parameterisatie afgestemd op de vroege fusie, op token gebaseerde, gemengde modale setting. De modellen worden beoordeeld op een uitgebreid scala aan taken, waaronder visuele vragen beantwoorden, afbeelding ondertekenen, tekstgeneratie, afbeeldinggeneratie en langvormige gemengde modale generatie. Chameleon toont brede en algemene mogelijkheden, waaronder state-of-the-art prestaties bij afbeeldingstaken, overtreft Llama-2

1 Inleiding

Recente multimodale basismodellen worden zeer veel geadopteerd, maar nog steeds modellen verschillende modaliteiten afzonderlijk, vaak met behulp van modaliteit-specifieke coders of decoders. Dit kan hun vermogen om informatie te integreren over modaliteiten te beperken en te genereren multimodale documenten die willekeurige sequenties van afbeeldingen en tekst kunnen bevatten. In dit document, presenteren we Chameleon, een familie van gemengde-modale basismodellen in staat om te genereren en redeneren met gemengde sequenties van willekeurig interleaved tekst en beeld inhoud (figuur 2-4). Dit maakt volledige multimodale document modellering, dat is een directe generalisatie van standaard multimodale taken zoals beeldgeneratie, begrip en redeneren over afbeeldingen, en tekst-only LLMs


Door afbeeldingen te kwantificeren tot discrete tokens, analoog aan woorden in tekst, kunnen we dezelfde transformatorarchitectuur toepassen op sequenties van zowel beeld- als teksttokens, zonder dat er behoefte is aan afzonderlijke beeld/tekstcoders (Alayrac et al., 2022; Liu et al., 2023b; Laurençon et al., 2023) of domeinspecifieke decoders (Ramesh et al., 2022; Jin et al., 2023; Betker et al., 2023). Deze vroege fusie-benadering, waarbij alle modaliteiten vanaf het begin worden geprojecteerd in een gedeelde representatieve ruimte, maakt naadloos redeneren en genereren over modaliteiten mogelijk.


We introduceren nieuwe wijzigingen in de transformatorarchitectuur, zoals query-key normalisatie en herziene plaatsing van laagnormen, die we van cruciaal belang vinden voor stabiele training in de mixed-modal setting (Section 2.3). We laten verder zien hoe we de supervised finetuning benaderingen die worden gebruikt voor tekst-only LLM's kunnen aanpassen aan de mixed-modal setting, waardoor een sterke afstemming op schaal mogelijk is (Section 3). Met behulp van deze technieken trainen we met succes Chameleon-34B op 5x het aantal tokens zoals Llama-2 - waardoor nieuwe mixed-modal toepassingen kunnen worden toegepast, terwijl we bestaande LLM's op unimodale benchmarks blijven matchen of zelfs overtreffen.


Figure 1 Chameleon represents all modalities — images, text, and code, as discrete tokens and uses a uniform transformer-based architecture that is trained from scratch in an end-to-end fashion on ∼10T tokens of interleaved mixed-modal data. As a result, Chameleon can both reason over, as well as generate, arbitrary mixed-modal documents. Text tokens are represented in green and image tokens are represented in blue.


Chameleon-34B bereikt state-of-the-art prestaties, overtreft modellen zoals Flamingo, IDEFICS en Llava-1.5 (Section 5.2). Tegelijkertijd behoudt het concurrerende prestaties op tekst-only benchmarks, matching modellen zoals Mixtral 8x7B en Gemini-Pro op gezond verstand redeneren en lezen begrip taken (Section 5.1). Maar misschien wel het meest indrukwekkend, Chameleon ontgrendelt volledig nieuwe mogelijkheden in termen van gemengde modale redenering en generatie.


Aangezien het gebruik van alleen statische, publieke benchmarks om de modelprestaties te evalueren beperkt kan zijn (Schaeffer, 2023), voeren we ook een zorgvuldig ontworpen menselijk evaluatie-experiment door de kwaliteit van gemengde-modale langvormige reacties op open-end prompts te meten. Chameleon-34B overtreft aanzienlijk sterke baseline's zoals Gemini-Pro en GPT-4V (Section 4), het bereiken van een voorkeurspercentage van 60,4% ten opzichte van Gemini-Pro en een voorkeurspercentage van 51,6% ten opzichte van GPT-4V in koppelmatige vergelijkingen.


Samenvattend presenteren wij de volgende bijdragen:


• We presenteren Chameleon, een familie van gemengde-modale modellen op basis van tokens van vroege fusie die in staat zijn om te redeneren en te genereren interleaved beeld-tekstdocumenten, het instellen van een nieuwe bar voor open multimodale basismodellen.


• We introduceren architecturale innovaties en trainingstechnieken die de stabiele en schaalbare training van early-fusion-token-gebaseerde modellen mogelijk maken, om de belangrijkste uitdagingen in gemengd-modal leren aan te pakken.


• Via uitgebreide evaluaties demonstreren we state-of-the-art prestaties in een gevarieerde reeks visie-taal benchmarks, terwijl we concurrerende prestaties behouden op tekst-only taken en hoogwaardige beeldgeneratie, allemaal in hetzelfde model.


• We voeren de eerste grootschalige menselijke evaluatie uit op open-end gemengd-modale redenering en generatie, die de unieke mogelijkheden van Chameleon in deze nieuwe setting demonstreert.


Chameleon vertegenwoordigt een belangrijke stap in de richting van het realiseren van de visie van een eenvormige basismodellen die in staat zijn om flexibel te redeneren en multimodale inhoud te genereren.


Figure 2 Sample interleaved image and text generation from Chameleon. The corresponding images are generated in locations marked by.


Dit document is verkrijgbaar onder de CC BY 4.0 DEED licentie.

Dit papier isBeschikbaar in het archiefOnder de CC BY 4.0 DEED licentie.

Beschikbaar in het archief


Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks