335 letture
335 letture

L’intelligenza artificiale non vede la linea tra testo e immagini

Troppo lungo; Leggere

Chameleon è un'intelligenza artificiale all'avanguardia che unifica l'elaborazione dell'immagine e del testo utilizzando un approccio di fusione precoce basato su token, stabilisce nuovi benchmarks nel ragionamento visivo e testo, supera i modelli leader nel sottotitolare delle immagini e rivale a GPT-4V e Gemini-Pro nelle valutazioni umane per la generazione mista-modale.
featured image - L’intelligenza artificiale non vede la linea tra testo e immagini
Regularization Technology HackerNoon profile picture
0-item

Autore di:

(1) Chameleon Team, FAIR a Meta.

Author:

(1) Chameleon Team, FAIR a Meta.

tavolo di sinistra

Abstract e 1 Introduzione

2 Pre-allenamento

2.1 Tokenizzazione

2.2 Dati pre-allenamento

2.3 Stabilità

2.4 Inferenze

3 Allineamento e 3.1 Dati

3.2 Strategia di fine-tuning

4 Valutazioni umane e test di sicurezza, e 4.1 Prompts per la valutazione

4.2 Basilicate e valutazioni

4.3 Accordo interannotatore

4.4 Test di sicurezza

4.5 Discussione

5 Valutazioni di benchmark e 5.1 testo

5.2 Immagini per testo

6 Lavori correlati

7 Conclusioni, riconoscimenti, contribuenti e riferimenti

Appendix

A. I campioni

B. Informazioni aggiuntive sulle valutazioni umane


Vi presentiamo Chameleon, una famiglia di modelli misti-modali basati su token di fusione precoce in grado di comprendere e generare immagini e testo in qualsiasi sequenza arbitraria. Descriviamo un approccio di formazione stabile sin dall'inizio, una ricetta di allineamento e una parametrizzazione architettonica su misura per le attività di fusione precoce, token-based, mixed-modal setting. I modelli sono valutati su una vasta gamma di compiti, tra cui la risposta a domande visive, la generazione di immagini, la generazione di immagini, e la generazione di modali misti a forma lunga. Chameleon dimostra capacità ampie e generali, tra cui le prestazioni state-of-the-art in compilazione di immagini, supera Llama-2 in compiti di testo solo

1 Introduzione

I recenti modelli di fondazione multimodali sono molto ampiamente adottati, ma ancora modellano diverse modalità separatamente, spesso utilizzando codificatori o decodificatori specifici di modalità. Questo può limitare la loro capacità di integrare le informazioni tra le modalità e generare documenti multimodali che possono contenere sequenze arbitrarie di immagini e testo. In questo documento, presentiamo Chameleon, una famiglia di modelli di fondazione mista-modale in grado di generare e ragionare con sequenze miste di contenuti di testo e immagini arbitrariamente interleaved (Figura 2-4). Questo consente la modellazione completa di documenti multimodali, che è una generalizzazione diretta di compiti multimodali standard come la generazione di immagini, la comprensione e il ragionamento sulle immagini, e i LLM di testo solo. Ch


Il nostro approccio unificato utilizza rappresentazioni completamente basate su token per le modalità di immagine e di testo (Figura 1). Quantificando le immagini in token discreti, analoghi alle parole in testo, possiamo applicare la stessa architettura del trasformatore alle sequenze di entrambi i token di immagine e di testo, senza la necessità di codificatori di immagine/testo separati (Alayrac et al., 2022; Liu et al., 2023b; Laurençon et al., 2023) o decoder specifici per il dominio (Ramesh et al., 2022; Jin et al., 2023; Betker et al., 2023). Questo approccio di fusione precoce, in cui tutte le modalità sono proiettate in uno spazio rappresentativo condiviso sin dall'inizio, consente un ragionamento e una generazione uniformi


Abbiamo affrontato queste sfide attraverso una combinazione di innovazioni architettoniche e tecniche di formazione. Introduciamo nuove modifiche all'architettura del trasformatore, come la normalizzazione della chiave di query e il posizionamento rivisto delle norme dei livelli, che riteniamo cruciali per la formazione stabile nell'ambiente misto-modale (sezione 2.3). Mostriamo ulteriormente come adattare gli approcci di finetuning supervisionati utilizzati per i LLM solo di testo alla configurazione mista-modale, consentendo un forte allineamento su scala (sezione 3). Utilizzando queste tecniche, addestramo con successo Chameleon-34B su 5x il numero di token come Llama-2 - consentendo nuove applicazioni miste-modali mentre ancora corrispondono o persino superano i LLM esist


Figure 1 Chameleon represents all modalities — images, text, and code, as discrete tokens and uses a uniform transformer-based architecture that is trained from scratch in an end-to-end fashion on ∼10T tokens of interleaved mixed-modal data. As a result, Chameleon can both reason over, as well as generate, arbitrary mixed-modal documents. Text tokens are represented in green and image tokens are represented in blue.


Le valutazioni estese dimostrano che Chameleon è un modello ampiamente capace su una varietà di compiti. sui parametri di riferimento per la risposta alle domande visive e la sottotitolazione delle immagini, Chameleon-34B raggiunge prestazioni all'avanguardia, superando modelli come Flamingo, IDEFICS e Llava-1.5 (sezione 5.2). Allo stesso tempo, mantiene le prestazioni competitive sui parametri di riferimento solo per testo, corrispondendo a modelli come Mixtral 8x7B e Gemini-Pro sui ragionamenti di senso comune e sui compiti di comprensione della lettura (sezione 5.1). Ma forse più impressionante, Chameleon sblocca completamente nuove capacità in termini di ragionamento e generazione misto-modale.


Poiché l'utilizzo solo di valori di riferimento statici e pubblici per valutare le prestazioni dei modelli potrebbe essere limitato (Schaeffer, 2023), condottiamo anche un esperimento di valutazione umana attentamente progettato misurando la qualità delle risposte a forme lunghe miste a forme aperte. Chameleon-34B supera sostanzialmente le forti linee di base come Gemini-Pro e GPT-4V (Sezione 4), raggiungendo un tasso di preferenza del 60,4% rispetto a Gemini-Pro e un tasso di preferenza del 51,6% rispetto a GPT-4V nei confronti di coppia.


In sintesi, presentiamo i seguenti contributi:


• Presentiamo Chameleon, una famiglia di modelli misti-modali basati su token di fusione precoce in grado di ragionare e generare documenti di immagine-testo interleaved, impostando una nuova barra per i modelli di fondazione multimodali aperti.


• Introduciamo innovazioni architettoniche e tecniche di formazione che consentono la formazione stabile e scalabile di modelli basati su token di fusione precoce, affrontando le sfide chiave nell'apprendimento misto-modale.


• Attraverso ampie valutazioni, dimostriamo le prestazioni all'avanguardia in un insieme diversificato di benchmarks visivo-linguistico, mantenendo le prestazioni competitive sui compiti solo di testo e la generazione di immagini di alta qualità, tutto nello stesso modello.


• Conduciamo la prima valutazione umana su larga scala sul ragionamento e la generazione mista-modale aperta, dimostrando le capacità uniche di Chameleon in questo nuovo ambiente.


Chameleon rappresenta un passo significativo verso la realizzazione della visione di modelli di fondazione unificati in grado di ragionare in modo flessibile e generare contenuti multimodali.


Figure 2 Sample interleaved image and text generation from Chameleon. The corresponding images are generated in locations marked by.


Questo documento è disponibile su archiv sotto la licenza CC BY 4.0 DEED.

Questo documento è disponibile su archiv sotto la licenza CC BY 4.0 DEED.

Disponibile in archivio


Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks