335 skaitymai
335 skaitymai

Šis AI nemato linijos tarp teksto ir vaizdų

pateikė Regularization Technology4m2025/05/18
Read on Terminal Reader

Per ilgai; Skaityti

Chameleon yra pažangiausias AI, kuris suvienija vaizdo ir teksto apdorojimą, naudojant žetonų pagrindu pagrįstą, ankstyvos sintezės metodą.Jis nustato naujus vizualinių ir tekstinių argumentų kriterijus, pranoksta pirmaujančius vaizdo parašymo modelius ir konkuruoja su GPT-4V ir Gemini-Pro žmogaus vertinimuose mišriosios modalinės kartos.
featured image - Šis AI nemato linijos tarp teksto ir vaizdų
Regularization Technology HackerNoon profile picture
0-item

Autorių :

(1) „Chameleon Team“, „Fair at Meta“

Author:

(1) „Chameleon Team“, „Fair at Meta“

Stalas kairėje

Abstrakcija ir 1 įvadas

2 Priešmokyklinis mokymas

2.1 Tokenizacija

2.2 Priešmokyklinio mokymo duomenys

2.3 Stabilumas

2.4 Išvada

3 Išlyginimas ir 3.1 duomenys

4.2 Fine-Tuning strategijos

4 Žmogiškieji vertinimai ir saugos bandymai ir 4.1 vertinimo pavyzdžiai

4.2 Pagrindiniai rodikliai ir vertinimai

4.3 Tarpininkavimo sutartis

4.4 Saugumo testas

4.5 Diskusijos

5 Referenciniai vertinimai ir 5.1 Tekstas

5.2 Vaizdo į tekstą

6 Susiję darbai

7 Išvada, pripažinimai, indėlininkai ir nuorodos

Appendix

A. Pavyzdžiai

B. Papildoma informacija apie žmogaus vertinimus


Mes pristatome Chameleon, ankstyvojo sintezės žetonų pagrįstų mišriųjų modelių šeimą, galinčią suprasti ir generuoti vaizdus ir tekstą bet kokioje savavališkoje sekoje. Mes išdėstome stabilų mokymo metodą nuo pat pradžių, suderinimo receptą ir architektūrinį parameterizavimą, pritaikytą ankstyvojo sintezės, žetonų pagrįstų mišriųjų modelių nustatymams. Modeliai vertinami visapusiškai užduotims, įskaitant vizualinį klausimų atsakymą, vaizdo parašymą, teksto generavimą, vaizdo generavimą ir ilgos formos mišriųjų modelių generavimą. Chameleon demonstruoja plačias ir bendras galimybes, įskaitant pažangiausius vaizdų

1 Įvadas

Naujausi daugiarūšiai pamatiniai modeliai yra labai plačiai priimami, tačiau vis dar modeliuojami skirtingi modeliai atskirai, dažnai naudojant tam tikrus koderius ar dekoderius. Tai gali apriboti jų gebėjimą integruoti informaciją tarp modelių ir generuoti daugiarūšius dokumentus, kurie gali turėti savavališkas vaizdų ir teksto sekas. Šiame dokumente mes pristatome Chameleon, mišrių modelių pamatinių modelių šeimą, galinčią generuoti ir motyvuoti mišriomis tekstinio ir vaizdo turinio sekomis (Fig. 2-4). Tai leidžia visiškai daugiarūšį dokumentų modeliavimą, kuris yra tiesioginis standartinių daugiarūšių užduočių, tokių kaip vaizdų generavimas, supratimas ir motyvavimas, vaizdų ir tik teksto


Mūsų vieningas požiūris naudoja visiškai žetonų pagrįstus vaizdų ir tekstinių modelių atstovavimus (1 pav.). Kvantizuodami vaizdus į atskirus žetonus, panašius į tekstinius žodžius, galime taikyti tą pačią transformatorių architektūrą tiek vaizdo, tiek tekstinių žetonų sekoms, nereikalaujant atskirų vaizdo / teksto kodų (Alayrac et al., 2022; Liu et al., 2023b; Laurençon et al., 2023) arba domeno specifinių dekoderių (Ramesh et al., 2022; Jin et al., 2023; Betker et al., 2023). Šis ankstyvas susijungimo metodas, kuriame visos modalybės nuo pat pradžių projektuojamos į bendrą atstovavimo erdvę, leidžia sklandžiai pagrįsti ir generuoti įvairias modalybes.


Mes sprendžiame šiuos iššūkius derinant architektūrines naujoves ir mokymo metodus. Mes pristatome naujus transformatorių architektūros pakeitimus, pvz., užklausos raktų normalizavimą ir peržiūrėtą sluoksnio normų išdėstymą, kurie, mūsų nuomone, yra labai svarbūs stabiliam mokymui mišriųjų modelių aplinkoje (2.3 skirsnis). Mes toliau parodome, kaip pritaikyti prižiūrimus apdailos metodus, naudojamus tik tekstinėms LLM, mišriųjų modelių aplinkoje, leidžiant stiprią išlygą mastu (3. skirsnis). Naudojant šiuos metodus, mes sėkmingai mokome Chameleon-34B 5x žetonų skaičių, pvz., Llama-2 – leidžiant naujoms miš


Figure 1 Chameleon represents all modalities — images, text, and code, as discrete tokens and uses a uniform transformer-based architecture that is trained from scratch in an end-to-end fashion on ∼10T tokens of interleaved mixed-modal data. As a result, Chameleon can both reason over, as well as generate, arbitrary mixed-modal documents. Text tokens are represented in green and image tokens are represented in blue.


Išsamūs vertinimai rodo, kad Chameleon yra plačiai pajėgus modelis įvairių užduočių rinkinyje. Dėl vaizdo klausimų atsakymo ir vaizdo parašymo lyginamųjų rodiklių, Chameleon-34B pasiekia pažangiausius rezultatus, pralenkiant tokius modelius kaip Flamingo, IDEFICS ir Llava-1.5 (5.2 skirsnis). Tuo pačiu metu jis išlaiko konkurencingą rezultatą tik teksto lyginamųjų rodiklių atžvilgiu, atitinkančius tokius modelius kaip Mixtral 8x7B ir Gemini-Pro dėl bendro proto mąstymo ir skaitymo supratimo užduočių (5.1 skirsnis).


Kadangi naudojant tik statinius, viešus lyginamuosius standartus, kad būtų galima įvertinti modelio našumą, gali būti ribotas (Schaeffer, 2023), mes taip pat atliekame kruopščiai suprojektuotą žmogaus vertinimo eksperimentą, matuojant mišrios-modalinės ilgos formos atsakymų į atvirus kvietimus kokybę. Chameleon-34B žymiai viršija stiprius bazinius standartus, tokius kaip Gemini-Pro ir GPT-4V (4 skirsnis), pasiekdamas 60,4% pirmenybės lygį Gemini-Pro ir 51,6% pirmenybės lygį prieš GPT-4V porų palyginimuose.


Apibendrinant pateikiame šiuos įnašus:


• Mes pristatome Chameleon, ankstyvosios sintezės žetonų pagrįstų mišriųjų modelių modelių šeimą, galinčią mąstyti ir generuoti tarpusavyje išdėstytus vaizdo-teksto dokumentus, nustatydama naują atvirų multimodalinių pamatų modelių juostą.


• Mes pristatome architektūrines naujoves ir mokymo metodus, kurie leidžia stabilią ir skalbiamą ankstyvosios sintezės žetonų modelių mokymą, sprendžiant pagrindinius mišraus mokymosi iššūkius.


• Atliekant išsamius vertinimus, mes demonstruojame pažangiausius rezultatus įvairiuose vizijos kalbos lyginamuosiuose rodikliuose, išlaikydami konkurencingus rezultatus tik tekstinėse užduotims ir aukštos kokybės vaizdų generavimui viename modelyje.


• Mes atliekame pirmąjį didelio masto žmogaus vertinimą dėl atviro mišraus-modalinio mąstymo ir kartos, demonstruojant unikalius Chameleon gebėjimus šioje naujoje aplinkoje.


„Chameleon“ yra svarbus žingsnis siekiant įgyvendinti vieningų pamatinių modelių, galinčių lanksčiai mąstyti ir kurti daugiarūšį turinį, viziją.


Figure 2 Sample interleaved image and text generation from Chameleon. The corresponding images are generated in locations marked by.


Šis dokumentas yra prieinamas archive pagal CC BY 4.0 DEED licenciją.

Šis dokumentas yra prieinamas archive pagal CC BY 4.0 DEED licenciją.

Prieinama archyve


L O A D I N G
. . . comments & more!

About Author

Regularization Technology HackerNoon profile picture
Regularization Technology@regularization
Prevent overfitting and improve model generalization. Helps to simplify the model and reduce its capacity.

PABAIGTI ŽYMES

ŠIS STRAIPSNIS BUVO PRISTATYMAS...

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks