335 lecturas
335 lecturas

Esta IA no ve la línea entre texto e imágenes

Demasiado Largo; Para Leer

Chameleon es una IA de vanguardia que unifica el procesamiento de imagen y texto utilizando un enfoque de fusión temprana basado en token.Establece nuevos puntos de referencia en el razonamiento visual y texto, supera a los modelos líderes en el subtitulado de imagen, y compite con GPT-4V y Gemini-Pro en evaluaciones humanas para la generación mixta.
featured image - Esta IA no ve la línea entre texto e imágenes
Regularization Technology HackerNoon profile picture
0-item

El autor:

(1) Equipo de Chameleon, FAIR en Meta.

Author:

(1) Equipo de Chameleon, FAIR en Meta.

Mesa de la izquierda

Abstracto y 1 Introducción

2 Pre-entrenamiento

2.1 Tokenización

2.2 Datos de pre-entrenamiento

2.3 Estabilidad

2.4 Inferencia

3 Alineación y 3.1 Datos

3.2 Estrategia de ajuste

4 Evaluaciones humanas y pruebas de seguridad, y 4.1 Prompts para la evaluación

4.2 Bases y evaluaciones

4.3 Acuerdo interanotador

4.4 Pruebas de seguridad

4.5 Discusión

5 Evaluaciones de Benchmark y 5.1 Texto

5.2 Imagen a texto

6 Trabajo relacionado

7 Conclusión, reconocimientos, contribuyentes y referencias

Appendix

A. Las muestras

B. Información adicional de las evaluaciones humanas


Presentamos Chameleon, una familia de modelos mixtos-modales basados en token de fusión temprana capaces de comprender y generar imágenes y texto en cualquier secuencia arbitraria. Desarrollamos un enfoque de entrenamiento estable desde el principio, una receta de alineamiento y una parametrización arquitectónica adaptada para las tareas de fusión temprana, basadas en token, configuración mixtos-modales. Los modelos se evalúan en una amplia gama de tareas de texto solo, incluyendo la respuesta visual a preguntas, la generación de imágenes, la generación de imágenes y la generación de modalidades mixtas de forma larga. Chameleon demuestra capacidades amplias y generales, incluyendo el rendimiento del estado de las tareas de imagen basadas en token, supera a Llama-2 en tareas

1 Introducción

Los modelos de fundación multimodales recientes son muy ampliamente adoptados, pero todavía modelan diferentes modalidades por separado, a menudo utilizando codificadores o decodificadores específicos de modalidades. Esto puede limitar su capacidad para integrar información a través de modalidades y generar documentos multimodales que pueden contener secuencias arbitrarias de imágenes y texto. En este artículo, presentamos a Chameleon, una familia de modelos de fundación mixtos-modales capaces de generar y razonar con secuencias mixtas de contenido textual e imagen arbitrariamente interleaved (Figuras 2-4). Esto permite la modelización de documentos multimodales completos, que es una generalización directa de tareas multimodales estándar como la generación de imágenes, la comprensión y el razonamiento sobre imágenes, y los LLMs de texto solo. Chameleon


Nuestro enfoque unificado utiliza representaciones totalmente basadas en token para las modalidades de imagen y texto (Figura 1). Al cuantificar las imágenes en tokens discretos, análogos a las palabras en texto, podemos aplicar la misma arquitectura de transformadores a las secuencias de los tokens de imagen y texto, sin necesidad de codificadores de imagen/texto separados (Alayrac et al., 2022; Liu et al., 2023b; Laurençon et al., 2023) o decodificadores específicos de dominio (Ramesh et al., 2022; Jin et al., 2023; Betker et al., 2023). Este enfoque de fusión temprana, en el que todas las modalidades se proyectan en un espacio representativo compartido desde el principio, permite el razonamiento y la generación a través de las modalidades. Sin embargo, también


Solucionamos estos desafíos a través de una combinación de innovaciones arquitectónicas y técnicas de capacitación. Introducimos nuevas modificaciones a la arquitectura de transformadores, como la normalización de la clave de consulta y la colocación revisada de las normas de la capa, que consideramos cruciales para la formación estable en el entorno mixto-modal (Sección 2.3). Más adelante mostramos cómo adaptar los enfoques de ajuste supervisado utilizados para LLMs de solo texto a la configuración mixto-modal, permitiendo un fuerte alineamiento a escala (Sección 3). Usando estas técnicas, entrenamos con éxito a Chameleon-34B en 5x el número de tokens como Llama-2 – permitiendo nuevas aplicaciones mixto-modales mientras que todavía se ajustan o incluso superan a los LLM existentes en los


Figure 1 Chameleon represents all modalities — images, text, and code, as discrete tokens and uses a uniform transformer-based architecture that is trained from scratch in an end-to-end fashion on ∼10T tokens of interleaved mixed-modal data. As a result, Chameleon can both reason over, as well as generate, arbitrary mixed-modal documents. Text tokens are represented in green and image tokens are represented in blue.


Las evaluaciones extensas demuestran que Chameleon es un modelo ampliamente capaz en un conjunto diverso de tareas. En los criterios de respuesta a preguntas visuales y de etiquetado de imagen, Chameleon-34B logra un rendimiento de última generación, superando a modelos como Flamingo, IDEFICS y Llava-1.5 (Sección 5.2). Al mismo tiempo, mantiene un rendimiento competitivo en los criterios de referencia únicamente de texto, coincidiendo con modelos como Mixtral 8x7B y Gemini-Pro en las tareas de razonamiento de sentido común y comprensión de lectura (Sección 5.1). Pero quizás más impresionante, Chameleon desbloquea capacidades completamente nuevas en términos de razonamiento y generación de modos mixtos.


Debido a que el uso de criterios de referencia sólo estáticos y públicos para evaluar el rendimiento del modelo podría ser limitado (Schaeffer, 2023), también llevamos a cabo un experimento de evaluación humana cuidadosamente diseñado mediante la medición de la calidad de las respuestas de forma larga de modos mixtos a las llamadas abiertas.Chameleon-34B supera sustancialmente a las bases sólidas como Gemini-Pro y GPT-4V (Sección 4), logrando una tasa de preferencia del 60,4% frente a Gemini-Pro y una tasa de preferencia del 51,6% frente a GPT-4V en comparaciones en pareja.


En resumen, presentamos las siguientes contribuciones:


• Presentamos Chameleon, una familia de modelos mixtos-modales basados en tokens de fusión temprana capaces de razonar y generar documentos de imagen-texto interleaved, estableciendo una nueva barra para modelos de fundación multimodales abiertos.


• Introducimos innovaciones arquitectónicas y técnicas de capacitación que permiten la formación estable y escalable de modelos basados en tokens de fusión temprana, abordando los retos clave en el aprendizaje mixto-modal.


• A través de evaluaciones extensas, demostramos el rendimiento de la última generación en un conjunto diverso de criterios de lenguaje de visión, manteniendo el rendimiento competitivo en tareas de solo texto y la generación de imágenes de alta calidad, todo en el mismo modelo.


• Realizamos la primera evaluación humana a gran escala sobre el razonamiento y la generación mixto-modal abierta, demostrando las capacidades únicas de Chameleon en este nuevo entorno.


Chameleon representa un paso significativo hacia la realización de la visión de modelos de fundación unificados capaces de razonar con flexibilidad y generar contenido multimodal.


Figure 2 Sample interleaved image and text generation from Chameleon. The corresponding images are generated in locations marked by.


Este artículo está disponible en archivo bajo la licencia CC BY 4.0 DEED.

Este documento esDisponible en Archivobajo la licencia CC BY 4.0 DEED.

Disponible en Archivo


Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks