Autors :
(1) Chameleon Team, FAIR pie Meta.
Author:
(1) Chameleon Team, FAIR pie Meta.
Kreisā galda
2.2 Iepriekšējās apmācības dati
4 Cilvēku novērtējumi un drošības pārbaudes un 4.1 Prompts novērtēšanai
4.2 Pamatnostādnes un novērtējumi
5 Benchmark novērtējumi un 5.1 Teksts
7 Secinājumi, atzinības, ieguldītāji un atsauces
Appendix
B. Papildu informācija par cilvēka novērtējumiem
Mēs iepazīstinām ar Chameleon, agrīnās saplūšanas tokenus balstītu jauktu-modālu modeļu ģimeni, kas spēj izprast un ģenerēt attēlus un tekstu jebkurā patvaļīgā secībā. Mēs izklāstām stabilu apmācības pieeju no paša sākuma, pielāgošanas recepti un arhitektūras parameterizāciju, kas pielāgota agrīnās saplūšanas, tokenu bāzes, jauktu-modālu iestatījumiem. Modeļi tiek novērtēti visaptverošā uzdevumu klāstā, tostarp vizuālās atbildes uz jautājumiem, attēla aizzīmogošana, teksta ģenerācija, attēla ģenerācija un garas formas jaukta modāla ģenerācija. Chameleon demonstrē plašas un vispārējas spējas, ieskaitot
1 Ievads
Jaunākie multimodālie pamatmodeli ir ļoti plaši pieņemti, bet joprojām modelē dažādus modeļus atsevišķi, bieži izmantojot modalitātes specifiskos kodētājus vai dekodētājus. Tas var ierobežot viņu spēju integrēt informāciju starp modalitātēm un ģenerēt multimodālos dokumentus, kas var saturēt patvaļīgas attēlu un teksta secības. Šajā rakstā mēs iepazīstinām ar Chameleon, jauktu-modālo pamatmodelu modeli, kas spēj ģenerēt un domāt ar jauktu secību patvaļīgi savstarpēji savstarpēji savstarpēji savstarpēji savstarpēji savstarpēji savstarpēji savstarpēji savstarpēji savstarpēji savstarpēji savstarpēji savstarpēji savstarpēji savstarpēji
Mūsu vienotā pieeja izmanto pilnībā uz žetoniem balstītas pārstāvības gan attēla, gan teksta modalitātēm (1. attēls). Kvantējot attēlus diskretos žetonos, kas ir analogi vārdiem tekstā, mēs varam piemērot to pašu transformatora arhitektūru gan attēla, gan teksta žetonu secībām, bez nepieciešamības izmantot atsevišķus attēla/teksta kodētājus (Alayrac et al., 2022; Liu et al., 2023b; Laurençon et al., 2023) vai domēna specifiskus dekodētājus (Ramesh et al., 2022; Jin et al., 2023; Betker et al., 2023). Šī agrīnās apvienošanās pieeja, kurā visas modalitātes no paša sākuma tiek projektētas kopīgā pārstāvības telpā, ļauj nevainoj
Mēs risinām šos izaicinājumus, apvienojot arhitektūras jauninājumus un apmācības metodes. Mēs ieviešam jaunus transformatoru arhitektūras grozījumus, piemēram, vaicājumu atslēgu normalizāciju un pārskatītu slāņu normu izvietošanu, kas mums šķiet būtiski svarīgi stabilai apmācībai jauktajos modeļos (2.3. iedaļa). Mēs vēl vairāk parādām, kā pielāgot uzraudzītās finetuning pieejas, ko izmanto tikai teksta LLM, jauktajos modeļos, ļaujot spēcīgi saskaņot mērogu (3. iedaļa). Izmantojot šīs metodes, mēs veiksmīgi apmācām Chameleon-34B pie 5x tokenu skaita, piemēram, Llama-2 – ļaujot jaunām jauktajos modeļos
Visaptveroši novērtējumi liecina, ka Chameleon ir plaši spējīgs modelis daudzveidīgā uzdevumu kopumā. Attiecībā uz vizuālo jautājumu atbildes un attēlu apzīmējumu kritērijiem, Chameleon-34B sasniedz modernāko veiktspēju, pārsniedzot tādus modeļus kā Flamingo, IDEFICS un Llava-1.5 (5.2. iedaļa). Tajā pašā laikā tas saglabā konkurētspējīgu veiktspēju tikai uz teksta kritērijiem, kas atbilst tādiem modeļiem kā Mixtral 8x7B un Gemini-Pro par saprātīgu domāšanu un lasīšanas izpratnes uzdevumiem (5.1. iedaļa).
Tā kā tikai statisku, publisku kritēriju izmantošana, lai novērtētu modeļa veiktspēju, varētu būt ierobežota (Schaeffer, 2023), mēs arī veicam rūpīgi izstrādātu cilvēka novērtēšanas eksperimentu, izmērot jaukto-modālo garo formu atbildes kvalitāti uz atvērtiem uzaicinājumiem. Chameleon-34B ievērojami pārsniedz spēcīgus bāzes līmeņus, piemēram, Gemini-Pro un GPT-4V (4. iedaļa), sasniedzot 60.4% preferences likmi pret Gemini-Pro un 51.6% preferences likmi pret GPT-4V pāriem.
Apkopojot, mēs piedāvājam šādus ieguldījumus:
• Mēs iepazīstinām ar Chameleon, agrīnās saplūšanas žetonu pamatotu jauktu-modālu modeļu ģimeni, kas spēj domāt un ģenerēt savstarpēji savienotus attēlu-teksta dokumentus, nosakot jaunu joslu atvērtiem multimodāliem pamatnes modeļiem.
• Mēs ieviešam arhitektūras jauninājumus un apmācības paņēmienus, kas ļauj stabilu un mērogojamu apmācību agrīnās saplūšanas token-based modeļiem, risinot galvenos izaicinājumus jauktas-modālās mācīšanās.
• Izmantojot plašus novērtējumus, mēs demonstrējam modernu sniegumu dažādos redzes valodas kritērijos, vienlaikus saglabājot konkurētspējīgu sniegumu tikai teksta uzdevumos un augstas kvalitātes attēlu ģenerēšanu vienā modelī.
• Mēs veicam pirmo liela mēroga cilvēka novērtējumu par atvērtu jauktu-modālu pamatojumu un ģenerāciju, demonstrējot Chameleon unikālās spējas šajā jaunajā vidē.
Chameleon ir nozīmīgs solis ceļā uz vienotu pamatmodelu redzējumu, kas spēj elastīgi domāt un radīt multimodālu saturu.
Šis dokuments ir pieejams arhivā ar CC BY 4.0 DEED licenci.
Šis dokuments ir pieejams arhivā ar CC BY 4.0 DEED licenci.
Pieejams arhīvā