Автор на:
(1) Шамелеон Тим, ФАИР во Мета.
Author:
(1) Шамелеон Тим, ФАИР во Мета.
Табела на левицата
3.2 Стратегија за фино прилагодување
4 Евалуација на човекот и тестирање на безбедноста, и 4.1 Предлози за евалуација
5 Бенчмарк проценки и 5.1 Текст
7 Заклучок, признанија, придонеси и референци
Appendix
Дополнителни информации за човечките проценки
Презентираме Chameleon, семејство на мешани модални модели базирани на токени за рано спојување, способни да разберат и генерираат слики и текст во било која произволна секвенца. Ние нацртаме стабилен пристап за обука од самиот почеток, рецепт за усогласување и архитектонска параметеризација прилагодена за рано спојување, базирани на токен, мешани модални поставувања. Моделите се оценуваат на сеопфатен спектар на задачи, вклучувајќи визуелно одговарање на прашања, подредување на слики, генерација на текст, генерација на слики и генерација на мешани модални долги форми. Chameleon демонстрира широки и општи способности, вклучувајќи ги и најновите перформанси
1 Вовед
Неодамнешните мултимодални основни модели се многу широко прифатени, но сепак моделираат различни модалитети одделно, често користејќи модул специфични енкодери или декодери. Ова може да ја ограничи нивната способност да интегрираат информации преку модалитети и да генерираат мултимодални документи кои можат да содржат произволни секвенци на слики и текст. Во овој документ, ние го претставуваме Chameleon, семејство на смесени-модални основни модели способни да генерираат и да размислуваат со мешани секвенци на произволно меѓусебно текстуални и слични содржини (Слика 2-4). Ова овозможува целосно мултимодално моделирање на документи, што е директна генерализација на стандардни мултимодални задачи како што се генерирање
Со квантизирање на сликите во дискретни токени, аналогни на зборовите во текстот, можеме да ја примениме истата трансформаторска архитектура на секвенците на двете слики и текстуални токени, без потреба од посебни кодирачи на слика/текст (Alayrac et al., 2022; Liu et al., 2023b; Laurençon et al., 2023) или домен-специфични декодери (Ramesh et al., 2022; Jin et al., 2023; Betker et al., 2023). Овој пристап на рано спојување, каде што сите модалитети се проектираат во заеднички претставнички простор од самиот почеток, овозможува беспрекорно размислување и генерирање низ модалитети.
Ние ги решаваме овие предизвици преку комбинација на архитектонски иновации и техники за обука. Ние воведуваме нови модификации на трансформаторската архитектура, како што се нормализација со клуч за прашање и ревидирано поставување на нормите на слоевите, кои сметаме дека се од суштинско значење за стабилна обука во смесено-модалната средина (секција 2.3). Понатаму покажуваме како да ги прилагодиме надгледуваните пристапи за финализирање кои се користат за LLMs со само текст на смесено-модалната средина, овозможувајќи силно усогласување на скалата (секција 3). Користејќи ги овие техники, успешно го обучуваме Chameleon-34B на 5x бројот на токени како Llama-2 – овозмо
Огромни проценки покажуваат дека Chameleon е широко способен модел за разновиден сет задачи. Во однос на визуелното одговарање на прашања и референтните показатели за сликање, Chameleon-34B постигнува state-of-the-art перформанси, надминувајќи модели како што се Flamingo, IDEFICS и Llava-1.5 (секција 5.2). Во исто време, тој одржува конкурентни перформанси на референтните показатели само со текст, одговарајќи на модели како Mixtral 8x7B и Gemini-Pro на задачи за размислување и читање разбирање (секција 5.1). Но, можеби најинтересно, Chameleon отклучува сосема нови можности во однос на мешано-модалното размислување и генерација.
Бидејќи употребата на само статични, јавни референтни показатели за оценување на перформансите на моделот може да биде ограничена (Schaeffer, 2023), ние исто така спроведуваме внимателно дизајниран експеримент за човечка евалуација со мерење на квалитетот на мешани-модални долги форми одговори на отворени повици.Chameleon-34B значително ги надминува силните базични линии како што се Gemini-Pro и GPT-4V (секција 4), постигнувајќи стапка на преференција од 60,4% во однос на Gemini-Pro и стапка на преференција од 51,6% во однос на GPT-4V во парови споредби.
Накратко, ги претставуваме следниве придонеси:
Презентираме Chameleon, семејство на мешани-модални модели базирани на токени за рана фузија, способни за размислување и генерирање на меѓуоскини слики-текст документи, поставувајќи нова лента за отворени мултимодални модели на фондација.
• Ние воведуваме архитектонски иновации и техники за обука кои овозможуваат стабилна и скалабилна обука на модели базирани на токени за рано спојување, решавање на клучните предизвици во мешовитото учење.
Преку обемни евалуации, демонстрираме state-of-the-art перформанси низ разновиден сет на референтни показатели за јазикот на визијата, додека одржуваме конкурентни перформанси на само текстуални задачи и генерација на квалитетни слики, сите во истиот модел.
• Ние ја спроведуваме првата голема човечка евалуација на отворено мешано-модално размислување и генерација, демонстрирајќи ги уникатните способности на Хамелеон во оваа нова средина.
Chameleon претставува значаен чекор кон остварување на визијата за унифицирани модели на фондација способни за флексибилно размислување и генерирање на мултимодална содржина.
Овој документ е достапен на архива под лиценца CC BY 4.0 DEED.
Овој документ е