Автори:
(1) Ан Ян, Каліфорнійський університет у Сан-Дієго, ayan@ucsd.edu;
(2) Zhengyuan Yang, Microsoft Corporation, zhengyang@microsoft.com рівними внесками;
(3) Wanrong Zhu, UC Santa Barbara, wanrongzhu@ucsb.edu;
(4) Кевін Лін, Microsoft Corporation, keli@microsoft.com;
(5) Linjie Li, Microsoft Corporation, lindsey.li@mocrosoft.com;
(6) Jianfeng Wang, Microsoft Corporation, jianfw@mocrosoft.com;
(7) Jianwei Yang, Microsoft Corporation, jianwei.yang@mocrosoft.com;
(8) Іу Чжун, Університет Вісконсіна-Медісон, yzhong52@wisc.edu;
(9) Джуліан Маколі, Каліфорнійський університет у Сан-Дієго, jmcauley@ucsd.edu;
(10) Jianfeng Gao, Microsoft Corporation, jfgao@mocrosoft.com;
(11) Zicheng Liu, Microsoft Corporation, zliu@mocrosoft.com;
(12) Lijuan Wang, Microsoft Corporation, lijuanw@mocrosoft.com.
Примітка редактора: це частина 2 з 13 статті, в якій оцінюється використання генеративного ШІ для навігації смартфонами. Ви можете прочитати решту статті за допомогою таблиці посилань нижче.
Таблиця посилань
- Анотація та 1 вступ
- 2 Схожа робота
- 3 ММ-навігатор
- 3.1 Формулювання проблеми та 3.2 Заземлення екрана та навігація за допомогою набору позначок
- 3.3 Створення історії за допомогою мультимодального саморезюмування
- 4 Експеримент із екранною навігацією iOS
- 4.1 Експериментальна установка
- 4.2 Опис запланованих дій
- 4.3 Виконання локалізованої дії та 4.4 Поточний стан із GPT-4V
- 5 Експеримент із екранною навігацією Android
- 5.1 Експериментальна установка
- 5.2 Порівняння продуктивності
- 5.3 Дослідження абляції
- 5.4 Аналіз помилок
- 6 Обговорення
- 7 Висновки та література
2 Схожа робота
Автономна навігація GUI. Автономна навігація графічним інтерфейсом включає в себе модель, яка виконує інструкції для маневрування різними графічними інтерфейсами користувача, такими як веб-сайти або програми, для виконання завдання, яке запитує користувач. Поточні тести зібрали або синтетичні, або реальні інструкції, створені користувачами, щоб оцінити здатність моделей ідентифікувати конкретні елементи інтерфейсу користувача (Shi та ін., 2017; Лі та ін., 2020; Бай та ін., 2021) або досягти загальних цілей завдання шляхом взаємодіючи з низкою графічних інтерфейсів (Li та ін., 2020; Бернс та ін., 2021; Венкатеш та ін., 2022; Денг та ін., 2023; Щоб зрозуміти візуальну інформацію з цих представлень графічного інтерфейсу, одна лінія роботи приймає модельну структуру, яка може обробляти мультимодальні вхідні дані (Sun та ін., 2022; Редмон та ін., 2016). Інші методи зосереджені на перетворенні тексту сцени і піктограм інтерфейсу користувача в текстовий формат HTML, наприклад, одномодульні LLM можуть обробляти ці текстові дані для навігації графічним інтерфейсом користувача (Zhang et al., 2021; Rawles et al., 2023; Wen et al. ін., 2023).
Мультимодальні агенти. Нещодавні досягнення в LLM (Brown та ін., 2020; OpenAI, 2023a; Chowdhery та ін., 2022; Anil та ін., 2023; Touvron та ін., 2023; Hoffmann та ін., 2022) стали каталізатором дослідження LLM. агентні системи (Madaan et al., 2023; Шин та ін., 2023; Яо та ін., 2023; Паранджап та ін., 2023; та ін., 2023; Янг та ін., 2023a), які об’єднують міркування логіку та зовнішні засоби для різноманітних складних мовних завдань. Натхненні успіхом у сфері НЛП, мультимодальні дослідники заглиблюються в мультимодальні агенти. Лінія досліджень починається з мультимодальних агентів на основі LLM (Gupta та Kembhavi, 2023; Surís та ін., 2023; Wu та ін., 2023; Yang* та ін., 2023; Shen та ін., 2023; Lu та ін. ., 2023; Ю та ін., 2023; Лі та ін., 2023), наприклад MM-ReAct (Yang* та ін., 2023) для розширеного візуального мислення та Visual ChatGPT (Ву та ін., 2023) для ітеративної генерації та редагування візуальних зображень. Завдяки швидкому прогресу LMM (Alayrac та ін., 2022; Driess та ін., 2023; OpenAI, 2023a,b,c; gpt, 2023; Yang та ін., 2023c; Google, 2023), останні дослідження почали досліджувати мультимодальні агенти, що працюють від LMM (Yang et al., 2023; Liu et al., 2023), що перевершує потребу в базових інструментах візуального опису, таких як моделі підписів (Wang et al., 2022a; Wu et al., 2022). Запропонована нами методологія являє собою спеціалізований агент на основі LMM для навігації графічним інтерфейсом користувача. Ми прагнемо надати комплексний аналіз і міцну основу для цього завдання.
Цей документ доступний на arxiv під ліцензією CC BY 4.0 DEED.