מחברים:
(1) An Yan, UC San Diego, ayan@ucsd.edu;
(2) Zhengyuan Yang, Microsoft Corporation, zhengyang@microsoft.com עם תרומות שוות;
(3) Wanrong Zhu, UC Santa Barbara, wanrongzhu@ucsb.edu;
(4) קווין לין, Microsoft Corporation, keli@microsoft.com;
(5) Linjie Li, Microsoft Corporation, lindsey.li@mocrosoft.com;
(6) Jianfeng Wang, Microsoft Corporation, jianfw@mocrosoft.com;
(7) Jianwei Yang, Microsoft Corporation, jianwei.yang@mocrosoft.com;
(8) Yiwu Zhong, אוניברסיטת ויסקונסין-מדיסון, yzhong52@wisc.edu;
(9) ג'וליאן מקאולי, אוניברסיטת סן דייגו, jmcauley@ucsd.edu;
(10) Jianfeng Gao, Microsoft Corporation, jfgao@mocrosoft.com;
(11) Zicheng Liu, Microsoft Corporation, zliu@mocrosoft.com;
(12) Lijuan Wang, Microsoft Corporation, lijuanw@mocrosoft.com.
הערת העורך: זהו חלק 2 מתוך 13 של מאמר שמעריך את השימוש ב-AI מחולל כדי לנווט בסמארטפונים. אתה יכול לקרוא את שאר המאמר דרך טבלת הקישורים למטה.
טבלת קישורים
- תקציר ומבוא 1
- 2 עבודה קשורה
- 3 מ"מ-נווט
- 3.1 ניסוח בעיה ו-3.2 הארקת מסך וניווט באמצעות סט סימון
- 3.3 יצירת היסטוריה באמצעות סיכום עצמי רב-מודאלי
- 4 ניסוי ניווט מסך iOS
- 4.1 הגדרה נסיונית
- 4.2 תיאור הפעולה המיועדת
- 4.3 ביצוע פעולה מקומית ו-4.4 המצב הנוכחי עם GPT-4V
- 5 ניסוי ניווט מסך אנדרואיד
- 5.1 הגדרה נסיונית
- 5.2 השוואת ביצועים
- 5.3 לימודי אבלציה
- 5.4 ניתוח שגיאות
- 6 דיון
- 7 מסקנה והפניות
2 עבודה קשורה
ניווט GUI אוטונומי. ניווט GUI אוטונומי כולל מודל העוקב אחר הוראות לתמרון דרך ממשקי משתמש גרפיים שונים, כגון אתרים או יישומים, כדי לבצע את המשימה שנשאלה על ידי המשתמש. אמות מידה נוכחיות אספו הוראות סינתטיות או הוראות שנוצרו על ידי משתמשים בעולם האמיתי כדי להעריך את יכולות המודלים בזיהוי רכיבי ממשק משתמש ספציפיים (Shi et al., 2017; Li et al., 2020; Bai et al., 2021), או השגת יעדי משימה כלליים על ידי אינטראקציה עם סדרה של תצוגות GUI (Li et al., 2020; Burns et al., 2021; Venkatesh et al., 2022; Deng et al., 2023; כדי להבין את המידע החזותי מתצוגות GUI אלה, קו עבודה אחד מאמצת מבנה מודל שיכול לעבד תשומות מולטי-מודאליות (Sun et al., 2022; Redmon et al., 2016). שיטות אחרות מתמקדות בהמרת הטקסט והסמלים של סצנת ממשק המשתמש לפורמט HTML בלבד, כגון LLMs עם מודול יחיד יכולות לעבד את קלט הטקסט הללו עבור ניווט GUI (Zhang et al., 2021; Rawles et al., 2023; Wen et al. אל., 2023).
סוכנים מולטי-מודאליים. התקדמות אחרונה בלימודי LLM (Brown et al., 2020; OpenAI, 2023a; Chowdhery et al., 2022; Anil et al., 2023; Touvron et al., 2023; Hoffmann et al., 2022) זירזו את חקר LLM מערכות סוכנים מבוססות (Madaan et al., 2023; Shin וחב', 2023; Yao et al., 2023; al., 2023; Yang et al., 2023a), המשלבים חשיבה לוגיקה וכלים חיצוניים למגוון משימות שפה מורכבות. בהשראת ההצלחה בתחום ה-NLP, חוקרים מולטי-מודאליים מתעמקים בסוכנים מולטי-מודאליים. קו המחקר מתחיל עם סוכנים מולטי-מודאליים מבוססי LLM (Gupta and Kembhavi, 2023; Surís et al., 2023; Wu et al., 2023; Yang* et al., 2023; Shen et al., 2023; Lu et al., 2023; ., 2023; Yu et al., 2023; Li et al., 2023), כגון MM-ReAct (Yang* et al., 2023) עבור חשיבה חזותית מתקדמת ו-Visual ChatGPT (Wu et al., 2023) ליצירה ועריכה חזותית איטרטיבית. המחקרים האחרונים מונעים על ידי ההתקדמות המהירה של LMMs (Alayrac et al., 2022; Driess et al., 2023; OpenAI, 2023a,b,c; gpt, 2023; Yang et al., 2023c; Google, 2023). החלו לחקור את הסוכנים הרב-מודאליים המופעלים על ידי LMM (Yang et al., 2023; Liu et al., 2023), ובכך עולה על הצורך בכלי תיאור חזותיים בסיסיים כמו מודלים של כיתוב (Wang et al., 2022a; Wu et al., 2022). המתודולוגיה המוצעת שלנו מייצגת סוכן מיוחד מבוסס LMM עבור ניווט GUI. אנו שואפים לספק ניתוח מקיף וקו בסיס חזק למשימה זו.
מאמר זה זמין ב-arxiv תחת רישיון CC BY 4.0 DEED.