Autorių :
(1) „Chameleon Team“, „Fair at Meta“
Author:
(1) „Chameleon Team“, „Fair at Meta“
Stalas kairėje
2.2 Priešmokyklinio mokymo duomenys
4 Žmogiškieji vertinimai ir saugos bandymai ir 4.1 vertinimo pavyzdžiai
4.2 Pagrindiniai rodikliai ir vertinimai
5 Referenciniai vertinimai ir 5.1 Tekstas
7 Išvada, pripažinimai, indėlininkai ir nuorodos
Appendix
B. Papildoma informacija apie žmogaus vertinimus
Mes pristatome Chameleon, ankstyvojo sintezės žetonų pagrįstų mišriųjų modelių šeimą, galinčią suprasti ir generuoti vaizdus ir tekstą bet kokioje savavališkoje sekoje. Mes išdėstome stabilų mokymo metodą nuo pat pradžių, suderinimo receptą ir architektūrinį parameterizavimą, pritaikytą ankstyvojo sintezės, žetonų pagrįstų mišriųjų modelių nustatymams. Modeliai vertinami visapusiškai užduotims, įskaitant vizualinį klausimų atsakymą, vaizdo parašymą, teksto generavimą, vaizdo generavimą ir ilgos formos mišriųjų modelių generavimą. Chameleon demonstruoja plačias ir bendras galimybes, įskaitant pažangiausius vaizdų
1 Įvadas
Naujausi daugiarūšiai pamatiniai modeliai yra labai plačiai priimami, tačiau vis dar modeliuojami skirtingi modeliai atskirai, dažnai naudojant tam tikrus koderius ar dekoderius. Tai gali apriboti jų gebėjimą integruoti informaciją tarp modelių ir generuoti daugiarūšius dokumentus, kurie gali turėti savavališkas vaizdų ir teksto sekas. Šiame dokumente mes pristatome Chameleon, mišrių modelių pamatinių modelių šeimą, galinčią generuoti ir motyvuoti mišriomis tekstinio ir vaizdo turinio sekomis (Fig. 2-4). Tai leidžia visiškai daugiarūšį dokumentų modeliavimą, kuris yra tiesioginis standartinių daugiarūšių užduočių, tokių kaip vaizdų generavimas, supratimas ir motyvavimas, vaizdų ir tik teksto
Mūsų vieningas požiūris naudoja visiškai žetonų pagrįstus vaizdų ir tekstinių modelių atstovavimus (1 pav.). Kvantizuodami vaizdus į atskirus žetonus, panašius į tekstinius žodžius, galime taikyti tą pačią transformatorių architektūrą tiek vaizdo, tiek tekstinių žetonų sekoms, nereikalaujant atskirų vaizdo / teksto kodų (Alayrac et al., 2022; Liu et al., 2023b; Laurençon et al., 2023) arba domeno specifinių dekoderių (Ramesh et al., 2022; Jin et al., 2023; Betker et al., 2023). Šis ankstyvas susijungimo metodas, kuriame visos modalybės nuo pat pradžių projektuojamos į bendrą atstovavimo erdvę, leidžia sklandžiai pagrįsti ir generuoti įvairias modalybes.
Mes sprendžiame šiuos iššūkius derinant architektūrines naujoves ir mokymo metodus. Mes pristatome naujus transformatorių architektūros pakeitimus, pvz., užklausos raktų normalizavimą ir peržiūrėtą sluoksnio normų išdėstymą, kurie, mūsų nuomone, yra labai svarbūs stabiliam mokymui mišriųjų modelių aplinkoje (2.3 skirsnis). Mes toliau parodome, kaip pritaikyti prižiūrimus apdailos metodus, naudojamus tik tekstinėms LLM, mišriųjų modelių aplinkoje, leidžiant stiprią išlygą mastu (3. skirsnis). Naudojant šiuos metodus, mes sėkmingai mokome Chameleon-34B 5x žetonų skaičių, pvz., Llama-2 – leidžiant naujoms miš
Išsamūs vertinimai rodo, kad Chameleon yra plačiai pajėgus modelis įvairių užduočių rinkinyje. Dėl vaizdo klausimų atsakymo ir vaizdo parašymo lyginamųjų rodiklių, Chameleon-34B pasiekia pažangiausius rezultatus, pralenkiant tokius modelius kaip Flamingo, IDEFICS ir Llava-1.5 (5.2 skirsnis). Tuo pačiu metu jis išlaiko konkurencingą rezultatą tik teksto lyginamųjų rodiklių atžvilgiu, atitinkančius tokius modelius kaip Mixtral 8x7B ir Gemini-Pro dėl bendro proto mąstymo ir skaitymo supratimo užduočių (5.1 skirsnis).
Kadangi naudojant tik statinius, viešus lyginamuosius standartus, kad būtų galima įvertinti modelio našumą, gali būti ribotas (Schaeffer, 2023), mes taip pat atliekame kruopščiai suprojektuotą žmogaus vertinimo eksperimentą, matuojant mišrios-modalinės ilgos formos atsakymų į atvirus kvietimus kokybę. Chameleon-34B žymiai viršija stiprius bazinius standartus, tokius kaip Gemini-Pro ir GPT-4V (4 skirsnis), pasiekdamas 60,4% pirmenybės lygį Gemini-Pro ir 51,6% pirmenybės lygį prieš GPT-4V porų palyginimuose.
Apibendrinant pateikiame šiuos įnašus:
• Mes pristatome Chameleon, ankstyvosios sintezės žetonų pagrįstų mišriųjų modelių modelių šeimą, galinčią mąstyti ir generuoti tarpusavyje išdėstytus vaizdo-teksto dokumentus, nustatydama naują atvirų multimodalinių pamatų modelių juostą.
• Mes pristatome architektūrines naujoves ir mokymo metodus, kurie leidžia stabilią ir skalbiamą ankstyvosios sintezės žetonų modelių mokymą, sprendžiant pagrindinius mišraus mokymosi iššūkius.
• Atliekant išsamius vertinimus, mes demonstruojame pažangiausius rezultatus įvairiuose vizijos kalbos lyginamuosiuose rodikliuose, išlaikydami konkurencingus rezultatus tik tekstinėse užduotims ir aukštos kokybės vaizdų generavimui viename modelyje.
• Mes atliekame pirmąjį didelio masto žmogaus vertinimą dėl atviro mišraus-modalinio mąstymo ir kartos, demonstruojant unikalius Chameleon gebėjimus šioje naujoje aplinkoje.
„Chameleon“ yra svarbus žingsnis siekiant įgyvendinti vieningų pamatinių modelių, galinčių lanksčiai mąstyti ir kurti daugiarūšį turinį, viziją.
Šis dokumentas yra prieinamas archive pagal CC BY 4.0 DEED licenciją.
Šis dokumentas yra prieinamas archive pagal CC BY 4.0 DEED licenciją.
Prieinama archyve