335 чытанні
335 чытанні

Гэтая AI не бачыць лінію паміж тэкстам і малюнкамі

Занадта доўга; Чытаць

Chameleon з'яўляецца вядучым AI, які аб'ядноўвае апрацоўку малюнка і тэксту, выкарыстоўваючы токен-базавы, ранні-фузійны падыход. Ён задае новыя бенчмаркі ў візуальным і тэкставым размовы, выконвае вядучыя мадэлі ў малюнках, і рэвалюцыі GPT-4V і Gemini-Pro ў чалавечай ацэнкі для змяшанай модальнай генерацыі.
featured image - Гэтая AI не бачыць лінію паміж тэкстам і малюнкамі
Regularization Technology HackerNoon profile picture
0-item

Аўтар :

(1) Шамелеон Команда, FAIR на мета.

Author:

(1) Шамелеон Команда, FAIR на мета.

Левы стол

Абстракт і 1 удзел

2 Першакурснікі

2.1 Токенаванне

2.2 Дата падрыхтоўкі

2.3 Стабільнасць

2.4 Высновы

3 Вырашэнне і 3.1 Дата

3.2 Стратегія фіна-тунінгу

4 Ацэнкі людзей і выпрабаванні бяспекі, і 4.1 Прампеткі для ацэнкі

4.2 Базавыя лініі і ацэнкі

4.3 Міжнародная канферэнцыя

4.4 Выпрабаванне бяспекі

4.5 Размовы

5 Бенчмаркавыя ацэнкі і 5.1 тэкст

5.2 Ілюстрацыя да тэксту

6 Злучаныя работы

7 Высновы, узнагароды, дапаможнікі і рэфералы

Appendix

А. Здымкі

B. Дадатковая інфармацыя пра ацэнкі людзей


Мы прадастаўляем Chameleon, сям'ю мікрамодальных мадэляў на аснове токена ранняга злучэння, якія могуць разумець і вырабляць малюнкі і тэкст у любым жалюзіным падзеі. Мы разлічваем стабільны навучальны падыход з пачатку, рэцэпт падыходу і архітэктурную параметрызацыю, прызначаную для ранняга злучэння, на аснове токена, мікрамодальных устаноў. Мадэлі ацэняюцца на шырокім спектре задач, у тым ліку візуальнай адказнасці на пытанні, малюнкаў, генерацыі тэксту, генерацыі малюнкаў і доўгіх форм мікрамодальных генерацый. Chameleon дэманструе шырокія і агульныя магчымасці, у

1 Уступленне

Неўзабаве мультымодальныя асноўныя мадэлі вельмі шырока прынятыя, але ўсё ж мадэлі розных модальнасцяў асобна, часта выкарыстоўваючы мадальнасці-спецыфічныя кодэкатары або дэкадатары. Гэта можа абмежаваць іх здольнасць інтэграваць інфармацыю праз мадальнасці і вырабляць мультымодальныя дакументы, якія могуць ўтрымліваць самастойныя сцэны малюнкаў і тэксту. У гэтай артыкуле, мы прадстаўляем Chameleon, сям'ю сумесных-модальных асноўных мадэляў, якія могуць генераваць і разважаць з сумешчанымі сцэнамі сваімі вопытнымі межамі тэкставага і малюнковага ўтрымлівання (Фігуры 2-4). Гэта дазваляе поўны мультымо


Наш уніфікаваны падыход выкарыстоўвае цалкам токен-базавыя прадстаўлення як для ілюстрацый, так і для тэкставых мадальнасцяў (Фактар 1). Квантызуючы малюнкі ў дыскрытныя токены, аналогічна словам у тэксту, мы можам прымяніць тую ж архітэктуру трансформатара да пасяджэнняў як для ілюстрацый, так і для тэкставых токенів, без патрэбы ў асобных ілюстрацый / тэкставых кодэктараў (Alayrac et al., 2022; Liu et al., 2023b; Laurençon et al., 2023) або дамам-спецыфічных дэкадатараў (Ramesh et al., 2022; Jin et al., 2023; Betker et al., 2023). Гэты ранні падыход з'я


Мы ўводзім новыя мадыфікацыі ў архітэктуры трансфарміравальнікаў, такія як стандартызацыя запыту-ключ і пераўтварэнне пластыкавых норм, якія, на наш погляд, важныя для стабільнага навучання ў супольна-модальным асяроддзі (Секцыя 2.3). Мы дакладна паказваем, як адаптаваць надзвычайныя падыходы, якія выкарыстоўваюцца для LLM з толькі тэкстам, да супольна-модальнага асяроддзі, дазваляючы цвёрдае параўнаньне ў галіне (Секцыя 3). З дапамогай гэтых тэхналогій, мы паспяхова навучылі Chameleon-34B на 5x колькасць токенаў, як Llama-2 - дазваляючы новыя супольныя-модальныя прыкладання


Figure 1 Chameleon represents all modalities — images, text, and code, as discrete tokens and uses a uniform transformer-based architecture that is trained from scratch in an end-to-end fashion on ∼10T tokens of interleaved mixed-modal data. As a result, Chameleon can both reason over, as well as generate, arbitrary mixed-modal documents. Text tokens are represented in green and image tokens are represented in blue.


Асноўныя ацэнкі паказваюць, што Chameleon з'яўляецца шырокім мадэлем на розных заданнях. На візуальныя пытанні адказаў і малюнак падпісаў бенчмаркі, Chameleon-34B дасягае найбуйнейшых працэдур, выконваючы мадэлі, такія як Flamingo, IDEFICS і Llava-1.5 (Секцыя 5.2). У той жа час, ён падтрымлівае канкурэнтную прадукцыю на тэкставыя бенчмаркі, адпавядаючы мадэлі, такія як Mixtral 8x7B і Gemini-Pro на разумныя размовы і задачы разумення чытання (Секцыя 5.1).


Як выкарыстоўваць толькі статычныя, публічныя бенчмаркі для ацэнкі мадэлі працэдуры могуць быць абмежаванымі (Schaeffer, 2023), мы таксама праводзіць старанна распрацаваны эксперымент для ацэнкі людзей, вымяраючы якасць сумяшчальна-модальных доўгіх форм адказаў на адкрытых просьб.


Напрыклад, мы даем наступны ўклад:


Мы прадстаўляем Chameleon, сям'ю мікрамодальных мадэляў на аснове токена ранняга злучэння, якія могуць разглядаць і генеруюць змешчаныя малюнак-текст дакументы, усталяваючы новы бар для адкрытых мультымодальных мадэляў фундамента.


— Мы звярнуліся ў Фонд Прэзідэнта па падтрымцы культуры і мастацтва з просьбай выдзеліць фінансаванне для аднаўлення Крэўскага замка.


Варта адзначыць, што для ажыццяўлення работ па стварэнні Нацыянальнага інвентара нематэрыяльнай культурнай спадчыны наша краіна летась атрымала грант з адпаведнага фонду UNESCO.


Мы працуем з ільдом трэці год, і толькі зараз, здаецца, пачынаем разумець важныя моманты.


Кампанія мае самую вялікую долю ў кітайскіх і індыйскіх рынках, дзе ён з'яўляецца лідэрам на рынку.


Figure 2 Sample interleaved image and text generation from Chameleon. The corresponding images are generated in locations marked by.


Гэты дакумент даступны на архіве пад ліцэнзіяй CC BY 4.0 DEED.

Гэтая кніга ёсцьДоступны ў архівеПаводле ліцэнзіі CC BY 4.0 DEED.

Доступны ў архіве


Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks