335 читања
335 читања

АИ не ја гледа границата помеѓу текстот и сликите

од страна на Regularization Technology4m2025/05/18
Read on Terminal Reader

Премногу долго; Да чита

Chameleon е најсовремена АИ која ги обединува обработката на сликата и текстот користејќи пристап базиран на токени, рано спојување.Тој поставува нови критериуми во визуелното и текстуалното размислување, ги надминува водечките модели во имиџот и ги надминува GPT-4V и Gemini-Pro во човечките евалуации за мешано-модална генерација.
featured image - АИ не ја гледа границата помеѓу текстот и сликите
Regularization Technology HackerNoon profile picture
0-item

Автор на:

(1) Шамелеон Тим, ФАИР во Мета.

Author:

(1) Шамелеон Тим, ФАИР во Мета.

Табела на левицата

Апстракт и 1 вовед

2 Пред-тренинг

2.1 Токенизација

2.2 Пред-тренинг податоци

2.3 Стабилност

2.4 Заклучоци

3 Усогласување и 3.1 податоци

3.2 Стратегија за фино прилагодување

4 Евалуација на човекот и тестирање на безбедноста, и 4.1 Предлози за евалуација

4.2 Базални линии и проценки

4.3 Меѓу-аннотаторски договор

4.4 Тестирање на безбедноста

4.5 Дискусија

5 Бенчмарк проценки и 5.1 Текст

5.2 Слики во текст

6 Поврзани работи

7 Заклучок, признанија, придонеси и референци

Appendix

А. примероци

Дополнителни информации за човечките проценки


Презентираме Chameleon, семејство на мешани модални модели базирани на токени за рано спојување, способни да разберат и генерираат слики и текст во било која произволна секвенца. Ние нацртаме стабилен пристап за обука од самиот почеток, рецепт за усогласување и архитектонска параметеризација прилагодена за рано спојување, базирани на токен, мешани модални поставувања. Моделите се оценуваат на сеопфатен спектар на задачи, вклучувајќи визуелно одговарање на прашања, подредување на слики, генерација на текст, генерација на слики и генерација на мешани модални долги форми. Chameleon демонстрира широки и општи способности, вклучувајќи ги и најновите перформанси

1 Вовед

Неодамнешните мултимодални основни модели се многу широко прифатени, но сепак моделираат различни модалитети одделно, често користејќи модул специфични енкодери или декодери. Ова може да ја ограничи нивната способност да интегрираат информации преку модалитети и да генерираат мултимодални документи кои можат да содржат произволни секвенци на слики и текст. Во овој документ, ние го претставуваме Chameleon, семејство на смесени-модални основни модели способни да генерираат и да размислуваат со мешани секвенци на произволно меѓусебно текстуални и слични содржини (Слика 2-4). Ова овозможува целосно мултимодално моделирање на документи, што е директна генерализација на стандардни мултимодални задачи како што се генерирање


Со квантизирање на сликите во дискретни токени, аналогни на зборовите во текстот, можеме да ја примениме истата трансформаторска архитектура на секвенците на двете слики и текстуални токени, без потреба од посебни кодирачи на слика/текст (Alayrac et al., 2022; Liu et al., 2023b; Laurençon et al., 2023) или домен-специфични декодери (Ramesh et al., 2022; Jin et al., 2023; Betker et al., 2023). Овој пристап на рано спојување, каде што сите модалитети се проектираат во заеднички претставнички простор од самиот почеток, овозможува беспрекорно размислување и генерирање низ модалитети.


Ние ги решаваме овие предизвици преку комбинација на архитектонски иновации и техники за обука. Ние воведуваме нови модификации на трансформаторската архитектура, како што се нормализација со клуч за прашање и ревидирано поставување на нормите на слоевите, кои сметаме дека се од суштинско значење за стабилна обука во смесено-модалната средина (секција 2.3). Понатаму покажуваме како да ги прилагодиме надгледуваните пристапи за финализирање кои се користат за LLMs со само текст на смесено-модалната средина, овозможувајќи силно усогласување на скалата (секција 3). Користејќи ги овие техники, успешно го обучуваме Chameleon-34B на 5x бројот на токени како Llama-2 – овозмо


Figure 1 Chameleon represents all modalities — images, text, and code, as discrete tokens and uses a uniform transformer-based architecture that is trained from scratch in an end-to-end fashion on ∼10T tokens of interleaved mixed-modal data. As a result, Chameleon can both reason over, as well as generate, arbitrary mixed-modal documents. Text tokens are represented in green and image tokens are represented in blue.


Огромни проценки покажуваат дека Chameleon е широко способен модел за разновиден сет задачи. Во однос на визуелното одговарање на прашања и референтните показатели за сликање, Chameleon-34B постигнува state-of-the-art перформанси, надминувајќи модели како што се Flamingo, IDEFICS и Llava-1.5 (секција 5.2). Во исто време, тој одржува конкурентни перформанси на референтните показатели само со текст, одговарајќи на модели како Mixtral 8x7B и Gemini-Pro на задачи за размислување и читање разбирање (секција 5.1). Но, можеби најинтересно, Chameleon отклучува сосема нови можности во однос на мешано-модалното размислување и генерација.


Бидејќи употребата на само статични, јавни референтни показатели за оценување на перформансите на моделот може да биде ограничена (Schaeffer, 2023), ние исто така спроведуваме внимателно дизајниран експеримент за човечка евалуација со мерење на квалитетот на мешани-модални долги форми одговори на отворени повици.Chameleon-34B значително ги надминува силните базични линии како што се Gemini-Pro и GPT-4V (секција 4), постигнувајќи стапка на преференција од 60,4% во однос на Gemini-Pro и стапка на преференција од 51,6% во однос на GPT-4V во парови споредби.


Накратко, ги претставуваме следниве придонеси:


Презентираме Chameleon, семејство на мешани-модални модели базирани на токени за рана фузија, способни за размислување и генерирање на меѓуоскини слики-текст документи, поставувајќи нова лента за отворени мултимодални модели на фондација.


• Ние воведуваме архитектонски иновации и техники за обука кои овозможуваат стабилна и скалабилна обука на модели базирани на токени за рано спојување, решавање на клучните предизвици во мешовитото учење.


Преку обемни евалуации, демонстрираме state-of-the-art перформанси низ разновиден сет на референтни показатели за јазикот на визијата, додека одржуваме конкурентни перформанси на само текстуални задачи и генерација на квалитетни слики, сите во истиот модел.


• Ние ја спроведуваме првата голема човечка евалуација на отворено мешано-модално размислување и генерација, демонстрирајќи ги уникатните способности на Хамелеон во оваа нова средина.


Chameleon претставува значаен чекор кон остварување на визијата за унифицирани модели на фондација способни за флексибилно размислување и генерирање на мултимодална содржина.


Figure 2 Sample interleaved image and text generation from Chameleon. The corresponding images are generated in locations marked by.


Овој документ е достапен на архива под лиценца CC BY 4.0 DEED.

Овој документ еДостапни за архивирањепод лиценца CC BY 4.0 DEED.

Достапни за архивирање


L O A D I N G
. . . comments & more!

About Author

Regularization Technology HackerNoon profile picture
Regularization Technology@regularization
Prevent overfitting and improve model generalization. Helps to simplify the model and reduce its capacity.

ВИСЕТЕ ТАГОВИ

ОВОЈ СТАТИЈА БЕШЕ ПРЕТСТАВЕН ВО...

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks