335 oxunuşlar
335 oxunuşlar

Bu AI tekstil və görüntülər arasındakı həddi görmür

tərəfindən Regularization Technology4m2025/05/18
Read on Terminal Reader

Çox uzun; Oxumaq

“Chameleon” “Cameleon” “Cameleon” “Cameleon” “Cameleon” “Cameleon” “Cameleon” “Cameleon” “Cameleon” “Cameleon” “Cameleon” “Cameleon” “Cameleon” “Cameleon” “Cameleon” “Cameleon” “Cameleon” “Cameleon” “Cameleon” “Cameleon” “Cameleon” “Cameleon” “Cameleon” “Cameleon” “Cameleon” “Cameleon” “Cameleon” “Cameleon” “Cameleon” “Cameleon” “Cameleon” “Cameleon” “Cameleon”
featured image - Bu AI tekstil və görüntülər arasındakı həddi görmür
Regularization Technology HackerNoon profile picture
0-item

Yazıçı :

“Cameleon” komandası “Fair at Meta”da iştirak edib.

Author:

“Cameleon” komandası “Fair at Meta”da iştirak edib.

Sol tərəfdə masa

Abstrakt və 1 Introduction

2 Əvvəlki eğitim

2.1 Tokenizasiya

2.2 Əvvəlki sınaqlar

2.3 Stabillıq

2.4 Tədbirlər

3.3.1 Dərslər və məlumatlar

3.2 Fine-tuning strategiyası

4 İnsan qiymətləndirmələri və təhlükəsizlik testləri və 4.1 qiymətləndirmə prospekti

4.2 İncəsənət və İncəsənət

4.3 Mütəxəssislər arasında anlaşma

4.4 Güvenlik testləri

4.5 Diskusiya

5 İncəsənət və İncəsənət 5.1

5.2 Görüntülər

6 İlgili işlər

7 Sonuçlar, tanınmışlıqlar, katiblər və referanslar

Appendix

A. Şəkillər

B. İnsan qiymətləndirilməsi haqqında əlavə məlumatlar


Xatırlayırıq ki, “Chameleon”, “Chameleon”, “Chameleon”, “Chameleon”, “Chameleon”, “Chameleon”, “Chameleon”, “Chameleon”, “Chameleon”, “Chameleon”, “Chameleon”, “Chameleon”, “Chameleon”, “Chameleon”, “Chameleon”, “Chameleon”, “Chameleon”, “Chameleon”, “Chameleon”, “Chameleon”, “Chameleon”, “Chameleon”, “Chameleon”, “Chameleon”, “Chameleon”, “Chameleon”, “Chameleon”, “Chameleon”, “Chameleon”, “Chameleon”, “Chameleon”, “Chamele

1 Introduction

Yeni multimodal qurğular modelləri çox yayılmışdır, lakin ayrı-ayrı ayrı-ayrı modalitələr modelləşdirilir, sıklıqla modalitə spesifik kodları və ya dekoderləri istifadə edir. Bu, modalitələr arasında məlumatları birləşdirmək və görüntülərin və tekstin istisna sekvensiyaları içərisində olan multimodal dokumentları yaratmaq üçün imkanlarını azaldır. Bu yazıda, biz Chameleon, mixed-modal qurğular modellərinin bir ailəsi xəlq etmək və mixed sekvensiyaları ilə motivasiya edə bilər (Şəkil 2-4). Bu, bütün multimodal dokument modellərinin tam bir generalizasiyasıdır ki, standart multimodal əməllər kimi görüntü istehsal, anlayış və fikirləşmək, görüntülər və tekst-only LLMs. Chameleon əslində baş


Xatırladaq ki, bir neçə ildir ki, bir neçə ildir ki, bir neçə ildir ki, bir neçə ildir ki, bir neçə ildir ki, bir neçə ildir ki, bir neçə ildir ki, bir neçə ildir ki, bir neçə ildir ki, bir neçə ildir ki, bir neçə ildir ki, bir neçə ildir ki, bir neçə ildir ki, bir neçə ildir ki, bir neçə ildir ki, bir neçə ildir ki, bir neçə ildir ki, bir neçə ildir ki, bir neçə ildir ki, bir neçə ildir ki, bir neçə ildir ki, bir neçə ildir ki, bir neçə ildir ki, bir neçə ildir ki, bir neçə ildir ki, bir neçə ildir ki, bir neçə ildir ki, bir neçə ildir ki, bir neçə ildir ki, bir neçə ildir ki, bir neçə ildir ki, bir neçə ildir ki


Biz bu problemləri arkitektonik yeniliklər və təhsil metodlarının birləşməsi ilə başa çatırıq. transformatör arkitekturasına yeni modifikasiya gətiririk, belə ki, sorğu-çözü normalizasiyası və layer normların revidasiya yerləşdirilməsi kimi, bu, biz mixed-modal setting-da stabil eğitim üçün kritik olduğunu görürük (Section 2.3). Biz daha sonra Llama-2 kimi token sayının 5x-də Chameleon-34B-ni edukativ olaraq öyrəndik - yeni mixed-modal proqramlar üçün istifadə olunan finetuning metodlarını mixed-modal setting-a necə adapte edə bilərik, eyni zamanda var olan LLM-ləri unimodal referensiyalara uyğunlaşdırır və yaxud üstünlük veririk.


Figure 1 Chameleon represents all modalities — images, text, and code, as discrete tokens and uses a uniform transformer-based architecture that is trained from scratch in an end-to-end fashion on ∼10T tokens of interleaved mixed-modal data. As a result, Chameleon can both reason over, as well as generate, arbitrary mixed-modal documents. Text tokens are represented in green and image tokens are represented in blue.


"Chameleon-34B" "Flamingo", "IDEFICS" və "Llava-1.5" kimi modelləri (5.2 bölüm) üstün tutub. "Chameleon-34B" "Mixtral 8x7B" və "Gemini-Pro" kimi modelləri "Mixtral 8x7B" və "Gemini-Pro" kimi modelləri "Mixtral 8x7B" və "Gemini-Pro" kimi modelləri "Mixtral 8x7B" və "Mixtral 8x7B" modelləri ilə "Mixtral 8x7B" və "Mixtral 8x7B" modelləri ilə "Mixtral 8x7B" və "Mixtral 8x7B" modelləri ilə "Mixtral 8x7B" və "Mixtral


VVD - Hollandiyada futbolçu bu adla tanımır, orada VVD daha çox mərkəz-sağı təmsilən edən siyasi partiyanın adının qısaltması kimi bilinir - artıq sorğu-suala ehtiyacı olmayan ulduzdu.


Sonraki İçerikÖzünüzü təqdim edirik:


• Biz Chameleon, ilk-fusion token-based mixed-modal modelləri ailəsi fikirləşmək və interleaved image-text dokumentları istehsal edə bilər, açıq multimodal qurğular modelləri üçün yeni bir bar qurmaq.


• Ertən-füzyon bazlı modellərin stabil və genişləndirilə biləcəyini təmin edən arkitektonik yeniliklər və eğitim metodları təqdim edirik, mixed-modal öyrənməkdə əsas problemləri həll edirik.


• Geniş qiymətləndirmələr yoluyla, bir çox fərqli viziyalı referans setində modern performans göstəririk, aynı zamanda yalnız tekstli əməllərdə yarışmaz performans və yüksək keyfiyyətli görüntülər istehsal edərik, bunların hamısı bir modeldə.


Biz ilk böyük ölçüdə insan qiymətləndirməsini açıq-aşkar mixed-modal dəlillərə və üsulu ilə həyata keçiririk, bu yeni qurğuda Chameleonun özəl imkanlarını göstəririk.


Chameleon, multimodal içərini flexiblə düşünmək və yaratmaq mümkün olan birləşmiş fond modellərinin viziyasına yönəlmək üçün böyük bir adımdır.


Figure 2 Sample interleaved image and text generation from Chameleon. The corresponding images are generated in locations marked by.


Bu dokument CC BY 4.0 DEED lisenziyası altında arxivdə verilmişdir.

Bu kitabArşivdə hazırlıqCC BY 4.0 DEED lisenziyası ilə

Arşivdə hazırlıq


Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks