335 lasījumi
335 lasījumi

Šis AI neredz robežu starp tekstu un attēliem

autors Regularization Technology4m2025/05/18
Read on Terminal Reader

Pārāk ilgi; Lasīt

Chameleon ir vadošais AI, kas apvieno attēla un teksta apstrādi, izmantojot uz tokenu balstītu, agrīnas saplūšanas pieeju. tas nosaka jaunus kritērijus vizuālajā un teksta pamatojumā, pārspēj vadošos modeļus attēla apzīmējumos un konkurē ar GPT-4V un Gemini-Pro cilvēka novērtējumos jauktai modālajai ģenerācijai.
featured image - Šis AI neredz robežu starp tekstu un attēliem
Regularization Technology HackerNoon profile picture
0-item

Autors :

(1) Chameleon Team, FAIR pie Meta.

Author:

(1) Chameleon Team, FAIR pie Meta.

Kreisā galda

Abstrakts un 1 ievads

2 Priekšapmācība

2.1 Tokenizācija

2.2 Iepriekšējās apmācības dati

2.3 Stabilitāte

2.4 Apgalvojumi

3 Saskaņošana un 3.1 dati

3.2 Fine-tuning stratēģija

4 Cilvēku novērtējumi un drošības pārbaudes un 4.1 Prompts novērtēšanai

4.2 Pamatnostādnes un novērtējumi

4.3 Starpnozaru nolīgums

4.4 Drošības pārbaude

4.5 Diskusija

5 Benchmark novērtējumi un 5.1 Teksts

5.2 Attēlu teksts

6 Saistītie darbi

7 Secinājumi, atzinības, ieguldītāji un atsauces

Appendix

A. Paraugu ņemšana

B. Papildu informācija par cilvēka novērtējumiem


Mēs iepazīstinām ar Chameleon, agrīnās saplūšanas tokenus balstītu jauktu-modālu modeļu ģimeni, kas spēj izprast un ģenerēt attēlus un tekstu jebkurā patvaļīgā secībā. Mēs izklāstām stabilu apmācības pieeju no paša sākuma, pielāgošanas recepti un arhitektūras parameterizāciju, kas pielāgota agrīnās saplūšanas, tokenu bāzes, jauktu-modālu iestatījumiem. Modeļi tiek novērtēti visaptverošā uzdevumu klāstā, tostarp vizuālās atbildes uz jautājumiem, attēla aizzīmogošana, teksta ģenerācija, attēla ģenerācija un garas formas jaukta modāla ģenerācija. Chameleon demonstrē plašas un vispārējas spējas, ieskaitot

1 Ievads

Jaunākie multimodālie pamatmodeli ir ļoti plaši pieņemti, bet joprojām modelē dažādus modeļus atsevišķi, bieži izmantojot modalitātes specifiskos kodētājus vai dekodētājus. Tas var ierobežot viņu spēju integrēt informāciju starp modalitātēm un ģenerēt multimodālos dokumentus, kas var saturēt patvaļīgas attēlu un teksta secības. Šajā rakstā mēs iepazīstinām ar Chameleon, jauktu-modālo pamatmodelu modeli, kas spēj ģenerēt un domāt ar jauktu secību patvaļīgi savstarpēji savstarpēji savstarpēji savstarpēji savstarpēji savstarpēji savstarpēji savstarpēji savstarpēji savstarpēji savstarpēji savstarpēji savstarpēji savstarpēji savstarpēji


Mūsu vienotā pieeja izmanto pilnībā uz žetoniem balstītas pārstāvības gan attēla, gan teksta modalitātēm (1. attēls). Kvantējot attēlus diskretos žetonos, kas ir analogi vārdiem tekstā, mēs varam piemērot to pašu transformatora arhitektūru gan attēla, gan teksta žetonu secībām, bez nepieciešamības izmantot atsevišķus attēla/teksta kodētājus (Alayrac et al., 2022; Liu et al., 2023b; Laurençon et al., 2023) vai domēna specifiskus dekodētājus (Ramesh et al., 2022; Jin et al., 2023; Betker et al., 2023). Šī agrīnās apvienošanās pieeja, kurā visas modalitātes no paša sākuma tiek projektētas kopīgā pārstāvības telpā, ļauj nevainoj


Mēs risinām šos izaicinājumus, apvienojot arhitektūras jauninājumus un apmācības metodes. Mēs ieviešam jaunus transformatoru arhitektūras grozījumus, piemēram, vaicājumu atslēgu normalizāciju un pārskatītu slāņu normu izvietošanu, kas mums šķiet būtiski svarīgi stabilai apmācībai jauktajos modeļos (2.3. iedaļa). Mēs vēl vairāk parādām, kā pielāgot uzraudzītās finetuning pieejas, ko izmanto tikai teksta LLM, jauktajos modeļos, ļaujot spēcīgi saskaņot mērogu (3. iedaļa). Izmantojot šīs metodes, mēs veiksmīgi apmācām Chameleon-34B pie 5x tokenu skaita, piemēram, Llama-2 – ļaujot jaunām jauktajos modeļos


Figure 1 Chameleon represents all modalities — images, text, and code, as discrete tokens and uses a uniform transformer-based architecture that is trained from scratch in an end-to-end fashion on ∼10T tokens of interleaved mixed-modal data. As a result, Chameleon can both reason over, as well as generate, arbitrary mixed-modal documents. Text tokens are represented in green and image tokens are represented in blue.


Visaptveroši novērtējumi liecina, ka Chameleon ir plaši spējīgs modelis daudzveidīgā uzdevumu kopumā. Attiecībā uz vizuālo jautājumu atbildes un attēlu apzīmējumu kritērijiem, Chameleon-34B sasniedz modernāko veiktspēju, pārsniedzot tādus modeļus kā Flamingo, IDEFICS un Llava-1.5 (5.2. iedaļa). Tajā pašā laikā tas saglabā konkurētspējīgu veiktspēju tikai uz teksta kritērijiem, kas atbilst tādiem modeļiem kā Mixtral 8x7B un Gemini-Pro par saprātīgu domāšanu un lasīšanas izpratnes uzdevumiem (5.1. iedaļa).


Tā kā tikai statisku, publisku kritēriju izmantošana, lai novērtētu modeļa veiktspēju, varētu būt ierobežota (Schaeffer, 2023), mēs arī veicam rūpīgi izstrādātu cilvēka novērtēšanas eksperimentu, izmērot jaukto-modālo garo formu atbildes kvalitāti uz atvērtiem uzaicinājumiem. Chameleon-34B ievērojami pārsniedz spēcīgus bāzes līmeņus, piemēram, Gemini-Pro un GPT-4V (4. iedaļa), sasniedzot 60.4% preferences likmi pret Gemini-Pro un 51.6% preferences likmi pret GPT-4V pāriem.


Apkopojot, mēs piedāvājam šādus ieguldījumus:


• Mēs iepazīstinām ar Chameleon, agrīnās saplūšanas žetonu pamatotu jauktu-modālu modeļu ģimeni, kas spēj domāt un ģenerēt savstarpēji savienotus attēlu-teksta dokumentus, nosakot jaunu joslu atvērtiem multimodāliem pamatnes modeļiem.


• Mēs ieviešam arhitektūras jauninājumus un apmācības paņēmienus, kas ļauj stabilu un mērogojamu apmācību agrīnās saplūšanas token-based modeļiem, risinot galvenos izaicinājumus jauktas-modālās mācīšanās.


• Izmantojot plašus novērtējumus, mēs demonstrējam modernu sniegumu dažādos redzes valodas kritērijos, vienlaikus saglabājot konkurētspējīgu sniegumu tikai teksta uzdevumos un augstas kvalitātes attēlu ģenerēšanu vienā modelī.


• Mēs veicam pirmo liela mēroga cilvēka novērtējumu par atvērtu jauktu-modālu pamatojumu un ģenerāciju, demonstrējot Chameleon unikālās spējas šajā jaunajā vidē.


Chameleon ir nozīmīgs solis ceļā uz vienotu pamatmodelu redzējumu, kas spēj elastīgi domāt un radīt multimodālu saturu.


Figure 2 Sample interleaved image and text generation from Chameleon. The corresponding images are generated in locations marked by.


Šis dokuments ir pieejams arhivā ar CC BY 4.0 DEED licenci.

Šis dokuments ir pieejams arhivā ar CC BY 4.0 DEED licenci.

Pieejams arhīvā


L O A D I N G
. . . comments & more!

About Author

Regularization Technology HackerNoon profile picture
Regularization Technology@regularization
Prevent overfitting and improve model generalization. Helps to simplify the model and reduce its capacity.

PAKARINĀT TAGUS

ŠIS RAKSTS TIKS PĀRSTRĀDĀTS...

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks