ang author:
(1) Ang Chameleon Team, FAIR sa Meta.
Author:
(1) Ang Chameleon Team, FAIR sa Meta.
Table ng mga Links
4.2 Mga Strategiya ng Fine-Tuning
4 Human Evaluations at Safety Testing, at 4.1 Prompts para sa Evaluation
4.3 Ang Inter-Annotator Agreement ay
5 Benchmark Evaluations at 5.1 Text
7 Konklusyon, mga pagkilos, mga kontributor, at mga reference
Appendix
B. Supplementary Information sa Human Evaluations
Ipinapakita namin ang Chameleon, isang pamilya ng mga mixed-modal na modelo na may base sa token na nakaraang-fusion na may kakayahan sa pagkuha at paggawa ng mga imahe at teksto sa anumang arbitrary sequence. Ipinapakita namin ang isang stable training approach mula sa inisiasyon, isang alignment recipe, at isang architectural parameterization na matutunan para sa early-fusion, token-based, mixed-modal setting. Ang mga modelo ay inilathala sa isang komprehensibong pakikipagsapalaran, kabilang ang visual question answering, image captioning, text generation, image generation, at long-form mixed modal generation. Chameleon ay nagpapakita ng karagdagang at pangkalahatang kapangyarihan, kabilang ang state-of-the-art
1 Mga Introduction
Ang mga nakaraang mga modelo ng multimodal foundation ay napaka-adopted ngunit pa rin ang mga modelo ng iba't-ibang mga modalities separado, karaniwang gumagamit ng modality-specific encoders o decoders. Ito ay maaaring i-limit ang kanilang kakayahan sa pag-integrate ng impormasyon sa buong modalities at lumikha ng mga multimodal na dokumento na maaaring magkaroon ng arbitrary sequences ng mga imahe at teksto. Sa artikulong ito, inihahanda namin ang Chameleon, isang pamilya ng mga modelo ng mixed-modal foundation na maaaring lumikha at pag-argument sa mixed sequences ng arbitrarily interleaved textual at image contents (Figure 2-4). Ito ay nagbibigay ng kumpletong multimodal na dokumento modeling, na kung saan
Ang aming unified approach ay gumagamit ng ganap na token-based representations para sa parehong imahe at textual modalities (Figure 1). Sa pamamagitan ng quantizing mga imahe sa diskrete tokens, tulad ng mga salita sa teksto, maaari naming i-apply ang parehong transformator architecture sa mga sequence ng parehong imahe at textual tokens, nang walang kinakailangan para sa parehong imahe / textual encoders (Alayrac et al., 2022; Liu et al., 2023b; Laurençon et al., 2023) o domain-specific decoders (Ramesh et al., 2022; Jin et al., 2023; Betker et al., 2023). Ang sinusuportahan ng early-fusion, kung saan ang lahat ng modalities ay proyektado sa isang kopya na representational na lugar mula sa
Ipinapakita namin ang mga bagong pagbabago sa transformer architecture, tulad ng normalization ng query-key at revisioned placement ng layer norms, na tinanggap namin na mahalaga para sa stable training sa mixed-modal setting (Section 2.3). Ipinapakita namin din kung paano i-adjust ang mga supervised finetuning approaches na ginagamit para sa text-only LLMs sa mixed-modal setting, na nagbibigay ng malakas na alignment sa skala (Section 3). Paggamit ng mga teknolohiya na ito, lumabas namin ang Chameleon-34B sa 5x ang bilang ng tokens tulad ng Llama-2 - na nagbibigay-daan ng mga bagong mixed-modal application habang patuloy na matugunan o kahit na lumabas ang mga existing LLMs sa unimod
Ang Chameleon-34B ay lumikha ng state-of-the-art na pagganap, na lumikha ng mga modelo tulad ng Flamingo, IDEFICS at Llava-1.5 (Section 5.2). Sa parehong oras, itinatag ang competitive na pagganap sa mga benchmarks na lamang sa teksto, matugunan ang mga modelo tulad ng Mixtral 8x7B at Gemini-Pro sa common sense reasoning at reading comprehension tasks (Section 5.1).
Dahil ang paggamit lamang ng static, public benchmarks upang i-evaluate ang pagganap ng modelo ay maaaring limitasyon (Schaeffer, 2023), kami ay magdiriwang din ng isang sobrang-disenyo na eksperimento sa pag-evaluation ng tao sa pamamagitan ng pag-uugali ng kalidad ng mixed-modal long form responses sa open-end prompts. Chameleon-34B substantially outperforms strong baselines tulad ng Gemini-Pro at GPT-4V (Section 4), pagkuha ng isang 60.4% preference rate laban sa Gemini-Pro at isang 51.6% preference rate laban sa GPT-4V sa pare-side comparisons.
Samakatuwid, ibinibigay kami ng mga sumusunod na kontribusyon:
• Ipinapakita namin ang Chameleon, isang pamilya ng token-based mixed-modal na mga modelo na matatagpuan sa pag-argument at generate interleaved image-text documents, na magsagawa ng isang bagong bar para sa mga multimodal na mga modelo ng foundation.
• I-introduce ang mga architectural innovations at training techniques na nagbibigay-daan para sa stable at scalable training ng early-fusion token-based models, na tumutulong sa mga pangunahing mga problema sa mixed-modal learning.
• Sa pamamagitan ng mga extensive evaluations, i-demonstrate ang state-of-the-art na pagganap sa isang diversified set ng vision-language benchmarks, habang matatagpuan ang competitive pagganap sa teksto-only tasks, at mataas na kalidad ng imahe, lahat sa parehong modelo.
• Ipinakilala namin ang unang malaking human evaluation sa open-end mixed-modal reasoning at generation, na nagpapakita ng mga katangian ng Chameleon sa bagong setting na ito.
Ang Chameleon ay isang pangunahing hakbang sa pananampalataya ng visyon ng unified foundation models na maaaring flexibly mag-argument sa at generate multimodal content.
Ang dokumento na ito ay magagamit sa archiv sa ilalim ng CC BY 4.0 DEED license.
Ang dokumento na ito ay magagamit sa archiv sa ilalim ng CC BY 4.0 DEED license.
Available sa archive