335 mga pagbabasa
335 mga pagbabasa

Ang AI na ito ay hindi makikita ang batas sa pagitan ng teksto at mga imahe

sa pamamagitan ng Regularization Technology4m2025/05/18
Read on Terminal Reader

Masyadong mahaba; Upang basahin

Ang Chameleon ay isang pandaigdigang AI na unifies ang pagproseso ng imahe at teksto gamit ang isang token-based, early-fusion approach. Ito ay lumikha ng mga bagong benchmarks sa visual at text reasoning, lumikha ng mga nangungunang mga modelo sa image captioning, at ang mga rival GPT-4V at Gemini-Pro sa human evaluations para sa mixed-modal generation.
featured image - Ang AI na ito ay hindi makikita ang batas sa pagitan ng teksto at mga imahe
Regularization Technology HackerNoon profile picture
0-item

ang author:

(1) Ang Chameleon Team, FAIR sa Meta.

Author:

(1) Ang Chameleon Team, FAIR sa Meta.

Table ng mga Links

Abstract at 1 Introduction

2 Mga pagsasanay

2.1 Mga Tokenization

2.2 Pre-training mga data

2.2 Stabilidad

2.4 Ang mga sumusunod

3 Alignment at 3.1 mga data

4.2 Mga Strategiya ng Fine-Tuning

4 Human Evaluations at Safety Testing, at 4.1 Prompts para sa Evaluation

4.2 Baseline at mga pagsusuri

4.3 Ang Inter-Annotator Agreement ay

4.4 Mga pagsubok sa seguridad

5.3 Diskusiya

5 Benchmark Evaluations at 5.1 Text

5.2 Mga teksto

6 Mga trabaho

7 Konklusyon, mga pagkilos, mga kontributor, at mga reference

Appendix

A. Mga sample

B. Supplementary Information sa Human Evaluations


Ipinapakita namin ang Chameleon, isang pamilya ng mga mixed-modal na modelo na may base sa token na nakaraang-fusion na may kakayahan sa pagkuha at paggawa ng mga imahe at teksto sa anumang arbitrary sequence. Ipinapakita namin ang isang stable training approach mula sa inisiasyon, isang alignment recipe, at isang architectural parameterization na matutunan para sa early-fusion, token-based, mixed-modal setting. Ang mga modelo ay inilathala sa isang komprehensibong pakikipagsapalaran, kabilang ang visual question answering, image captioning, text generation, image generation, at long-form mixed modal generation. Chameleon ay nagpapakita ng karagdagang at pangkalahatang kapangyarihan, kabilang ang state-of-the-art

1 Mga Introduction

Ang mga nakaraang mga modelo ng multimodal foundation ay napaka-adopted ngunit pa rin ang mga modelo ng iba't-ibang mga modalities separado, karaniwang gumagamit ng modality-specific encoders o decoders. Ito ay maaaring i-limit ang kanilang kakayahan sa pag-integrate ng impormasyon sa buong modalities at lumikha ng mga multimodal na dokumento na maaaring magkaroon ng arbitrary sequences ng mga imahe at teksto. Sa artikulong ito, inihahanda namin ang Chameleon, isang pamilya ng mga modelo ng mixed-modal foundation na maaaring lumikha at pag-argument sa mixed sequences ng arbitrarily interleaved textual at image contents (Figure 2-4). Ito ay nagbibigay ng kumpletong multimodal na dokumento modeling, na kung saan


Ang aming unified approach ay gumagamit ng ganap na token-based representations para sa parehong imahe at textual modalities (Figure 1). Sa pamamagitan ng quantizing mga imahe sa diskrete tokens, tulad ng mga salita sa teksto, maaari naming i-apply ang parehong transformator architecture sa mga sequence ng parehong imahe at textual tokens, nang walang kinakailangan para sa parehong imahe / textual encoders (Alayrac et al., 2022; Liu et al., 2023b; Laurençon et al., 2023) o domain-specific decoders (Ramesh et al., 2022; Jin et al., 2023; Betker et al., 2023). Ang sinusuportahan ng early-fusion, kung saan ang lahat ng modalities ay proyektado sa isang kopya na representational na lugar mula sa


Ipinapakita namin ang mga bagong pagbabago sa transformer architecture, tulad ng normalization ng query-key at revisioned placement ng layer norms, na tinanggap namin na mahalaga para sa stable training sa mixed-modal setting (Section 2.3). Ipinapakita namin din kung paano i-adjust ang mga supervised finetuning approaches na ginagamit para sa text-only LLMs sa mixed-modal setting, na nagbibigay ng malakas na alignment sa skala (Section 3). Paggamit ng mga teknolohiya na ito, lumabas namin ang Chameleon-34B sa 5x ang bilang ng tokens tulad ng Llama-2 - na nagbibigay-daan ng mga bagong mixed-modal application habang patuloy na matugunan o kahit na lumabas ang mga existing LLMs sa unimod


Figure 1 Chameleon represents all modalities — images, text, and code, as discrete tokens and uses a uniform transformer-based architecture that is trained from scratch in an end-to-end fashion on ∼10T tokens of interleaved mixed-modal data. As a result, Chameleon can both reason over, as well as generate, arbitrary mixed-modal documents. Text tokens are represented in green and image tokens are represented in blue.


Ang Chameleon-34B ay lumikha ng state-of-the-art na pagganap, na lumikha ng mga modelo tulad ng Flamingo, IDEFICS at Llava-1.5 (Section 5.2). Sa parehong oras, itinatag ang competitive na pagganap sa mga benchmarks na lamang sa teksto, matugunan ang mga modelo tulad ng Mixtral 8x7B at Gemini-Pro sa common sense reasoning at reading comprehension tasks (Section 5.1).


Dahil ang paggamit lamang ng static, public benchmarks upang i-evaluate ang pagganap ng modelo ay maaaring limitasyon (Schaeffer, 2023), kami ay magdiriwang din ng isang sobrang-disenyo na eksperimento sa pag-evaluation ng tao sa pamamagitan ng pag-uugali ng kalidad ng mixed-modal long form responses sa open-end prompts. Chameleon-34B substantially outperforms strong baselines tulad ng Gemini-Pro at GPT-4V (Section 4), pagkuha ng isang 60.4% preference rate laban sa Gemini-Pro at isang 51.6% preference rate laban sa GPT-4V sa pare-side comparisons.


Samakatuwid, ibinibigay kami ng mga sumusunod na kontribusyon:


• Ipinapakita namin ang Chameleon, isang pamilya ng token-based mixed-modal na mga modelo na matatagpuan sa pag-argument at generate interleaved image-text documents, na magsagawa ng isang bagong bar para sa mga multimodal na mga modelo ng foundation.


• I-introduce ang mga architectural innovations at training techniques na nagbibigay-daan para sa stable at scalable training ng early-fusion token-based models, na tumutulong sa mga pangunahing mga problema sa mixed-modal learning.


• Sa pamamagitan ng mga extensive evaluations, i-demonstrate ang state-of-the-art na pagganap sa isang diversified set ng vision-language benchmarks, habang matatagpuan ang competitive pagganap sa teksto-only tasks, at mataas na kalidad ng imahe, lahat sa parehong modelo.


• Ipinakilala namin ang unang malaking human evaluation sa open-end mixed-modal reasoning at generation, na nagpapakita ng mga katangian ng Chameleon sa bagong setting na ito.


Ang Chameleon ay isang pangunahing hakbang sa pananampalataya ng visyon ng unified foundation models na maaaring flexibly mag-argument sa at generate multimodal content.


Figure 2 Sample interleaved image and text generation from Chameleon. The corresponding images are generated in locations marked by.


Ang dokumento na ito ay magagamit sa archiv sa ilalim ng CC BY 4.0 DEED license.

Ang dokumento na ito ay magagamit sa archiv sa ilalim ng CC BY 4.0 DEED license.

Available sa archive


Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks