Авторлор:
(1) Ан Ян, UC Сан-Диего, ayan@ucsd.edu;
(2) Zhengyuan Yang, Microsoft Corporation, zhengyang@microsoft.com бирдей салымдар менен;
(3) Wanrong Zhu, UC Santa Barbara, wanrongzhu@ucsb.edu;
(4) Кевин Лин, Microsoft Corporation, keli@microsoft.com;
(5) Линджи Ли, Microsoft корпорациясы, lindsey.li@mocrosoft.com;
(6) Jianfeng Wang, Microsoft Corporation, jianfw@mocrosoft.com;
(7) Jianwei Yang, Microsoft Corporation, jianwei.yang@mocrosoft.com;
(8) Yiwu Zhong, University of Wisconsin-Madison, yzhong52@wisc.edu;
(9) Julian McAuley, UC San Diego, jmcauley@ucsd.edu;
(10) Jianfeng Gao, Microsoft Corporation, jfgao@mocrosoft.com;
(11) Zicheng Liu, Microsoft Corporation, zliu@mocrosoft.com;
(12) Лижуан Ванг, Microsoft корпорациясы, lijuanw@mocrosoft.com.
Редакциянын эскертүүсү: Бул смартфондорду башкаруу үчүн генеративдик интеллектти колдонууну баалаган кагаздын 13 бөлүгүнүн 2-бөлүгү. Кагаздын калган бөлүгүн төмөнкү шилтемелердин таблицасы аркылуу окуй аласыз.
Шилтемелер таблицасы
- Аннотация жана 1 Киришүү
- 2 Байланыштуу иш
- 3 MM-навигатор
- 3.1 Маселени түзүү жана 3.2 Экранды негиздөө жана Белгилер топтому аркылуу навигация
- 3.3 Тарыхты мультимодалдык өз алдынча жыйынтыктоо аркылуу түзүү
- 4 iOS экранында навигация эксперименти
- 4.1 Эксперименталдык орнотуу
- 4.2 Максаттуу иш-аракеттин сүрөттөлүшү
- 4.3 Локалдаштырылган аракеттин аткарылышы жана 4.4 GPT-4V менен учурдагы абал
- 5 Android экранында навигация эксперименти
- 5.1 Эксперименталдык орнотуу
- 5.2 Иштин натыйжалуулугун салыштыруу
- 5.3 Абляциялык изилдөөлөр
- 5.4 Каталарды талдоо
- 6 Талкуу
- 7 Корутунду жана Шилтемелер
2 Байланыштуу иш
Автономдуу GUI навигациясы. Автономдуу GUI навигациясы колдонуучу сураган тапшырманы аткаруу үчүн веб-сайттар же тиркемелер сыяктуу ар кандай графикалык колдонуучу интерфейстери аркылуу маневр жасоо үчүн нускамалардан кийинки моделди камтыйт. Учурдагы эталондор UI элементтерин аныктоодо моделдердин жөндөмдүүлүктөрүн баалоо үчүн синтетикалык же реалдуу колдонуучу тарабынан түзүлгөн нускамаларды чогултту (Shi et al., 2017; Li et al., 2020; Bai et al., 2021) же жалпы тапшырма максаттарына жетишүү бир катар GUI көз караштары менен өз ара аракеттенүү (Li et al., 2020; Burns et al., 2021; Venkatesh et al., 2022; Rawles et al., 2023; Бул GUI көрүнүштөрүнүн визуалдык маалыматын түшүнүү үчүн, бир иш линиясы мультимодалдык киргизүүлөрдү иштете ала турган моделдик структураны кабыл алат (Sun et al., 2022; Redmon et al., 2016). Башка ыкмалар UI сахнасынын текстин жана иконкаларын тексттик гана HTML форматына айландырууга багытталган, мисалы, бир модулдук LLMлер GUI навигациясы үчүн бул текст киргизүүлөрдү иштете алат (Zhang et al., 2021; Rawles et al., 2023; Wen et al. ал., 2023).
Multimodal агенттер. LLMдеги акыркы жетишкендиктер (Браун ж.б., 2020; OpenAI, 2023a; Chowdhery ж.б., 2022; Anil ж.б., 2023; Touvron ж.б., 2023; Хоффман ж. -негизделген агент системалары (Madaan et al., 2023; Shinn et al., 2023; Yao et al., 2023; Pryzant et al., 2023; ж.б., 2023, Янг жана башкалар, 2023a) логикалык ой жүгүртүү жана ар кандай татаал тил тапшырмалары үчүн тышкы куралдар. NLP домениндеги ийгиликке шыктанган мультимодалдык изилдөөчүлөр мультимодалдык агенттерге кайрылышат. Изилдөө линиясы LLM негизиндеги мультимодалдык агенттерден башталат (Гупта жана Кембхави, 2023; Surís ж.б., 2023; Ву ж.б., 2023; Янг* ж.б., 2023; Шен ж. ., 2023; Yu et al., 2023; Li et al., 2023), мисалы MM-ReAct (Yang* et al., 2023) өркүндөтүлгөн визуалдык ой жүгүртүү жана Visual ChatGPT (Wu et al., 2023) кайталануучу визуалдык түзүү жана түзөтүү үчүн. LMMдердин тез өнүгүшүнө түрткү болгон (Alayrac et al., 2022; Driess et al., 2023; OpenAI, 2023a,b,c; gpt, 2023; Yang et al., 2023c; Google, 2023), акыркы изилдөөлөр LMM менен иштеген мультимодалдык агенттерди изилдей баштады (Yang et al., 2023; Liu et al., 2023), ошону менен коштомо моделдер сыяктуу негизги визуалдык сүрөттөмө куралдарына болгон муктаждыктан ашып кетти (Wang et al., 2022a; Wu et al., 2022). Биздин сунушталган методология GUI навигациясы үчүн атайын LMM негизиндеги агентти билдирет. Биз бул милдет үчүн ар тараптуу талдоо жана күчтүү базаны берүүнү көздөп жатабыз.