مصنفین:
(1) این یان، یو سی سان ڈیاگو، ayan@ucsd.edu؛
(2) Zhengyuan Yang، Microsoft Corporation، zhengyang@microsoft.com مساوی شراکت کے ساتھ؛
(3) Wanrong Zhu, UC Santa Barbara, wanrongzhu@ucsb.edu;
(4) کیون لن، مائیکروسافٹ کارپوریشن، keli@microsoft.com؛
(5) Linjie Li, Microsoft Corporation, lindsey.li@mocrosoft.com؛
(6) جیانفینگ وانگ، مائیکروسافٹ کارپوریشن، jianfw@mocrosoft.com؛
(7) جیان وی یانگ، مائیکروسافٹ کارپوریشن، jianwei.yang@mocrosoft.com؛
(8) Yiwu Zhong, University of Wisconsin-Madison, yzhong52@wisc.edu;
(9) Julian McAuley, UC San Diego, jmcauley@ucsd.edu;
(10) جیانفینگ گاو، مائیکروسافٹ کارپوریشن، jfgao@mocrosoft.com؛
(11) زیچینگ لیو، مائیکروسافٹ کارپوریشن، zliu@mocrosoft.com؛
(12) لیجوان وانگ، مائیکروسافٹ کارپوریشن، lijuanw@mocrosoft.com۔
ایڈیٹر کا نوٹ: یہ ایک مقالے کے 13 کا 2 حصہ ہے جس میں اسمارٹ فونز کو نیویگیٹ کرنے کے لیے جنریٹو AI کے استعمال کا جائزہ لیا گیا ہے۔ باقی کاغذ آپ نیچے دیے گئے لنکس کے ذریعے پڑھ سکتے ہیں۔
لنکس کی میز
- خلاصہ اور 1 تعارف
- 2 متعلقہ کام
- 3 ایم ایم نیویگیٹر
- 3.1 مسئلہ کی تشکیل اور 3.2 اسکرین گراؤنڈنگ اور نشان کے سیٹ کے ذریعے نیویگیشن
- 3.3 ملٹی موڈل سیلف سمری کے ذریعے تاریخ کی تخلیق
- 4 iOS اسکرین نیویگیشن کا تجربہ
- 4.1 تجرباتی سیٹ اپ
- 4.2 مطلوبہ کارروائی کی تفصیل
- 4.3 لوکلائزڈ ایکشن ایگزیکیوشن اور 4.4 GPT-4V کے ساتھ موجودہ حالت
- 5 اینڈرائیڈ اسکرین نیویگیشن کا تجربہ
- 5.1 تجرباتی سیٹ اپ
- 5.2 کارکردگی کا موازنہ
- 5.3 ابلیشن اسٹڈیز
- 5.4 خرابی کا تجزیہ
- 6 بحث
- 7 نتیجہ اور حوالہ جات
2 متعلقہ کام
خود مختار GUI نیویگیشن۔ خود مختار GUI نیویگیشن میں مختلف گرافیکل یوزر انٹرفیس، جیسے ویب سائٹس یا ایپلیکیشنز، کے ذریعے صارف کے پوچھے گئے کام کو انجام دینے کے لیے ہدایات کے مطابق ایک ماڈل شامل ہوتا ہے۔ موجودہ معیارات نے مخصوص UI عناصر کی شناخت کرنے میں ماڈلز کی صلاحیتوں کا جائزہ لینے کے لیے مصنوعی یا حقیقی دنیا کی صارف سے تیار کردہ ہدایات جمع کیں (Shi et al. GUI خیالات کی ایک سیریز کے ساتھ بات چیت کرنا (Li et al., 2020; برنس وغیرہ، 2021؛ ڈینگ ایٹ ال۔، 2023)۔ ان GUI خیالات سے بصری معلومات کو سمجھنے کے لیے، کام کی ایک لائن ایک ماڈل ڈھانچہ اپناتی ہے جو ملٹی موڈل ان پٹس پر کارروائی کر سکتی ہے (Sun et al., 2022; Redmon et al., 2016)۔ دوسرے طریقے UI منظر کے متن اور شبیہیں کو صرف ٹیکسٹ HTML فارمیٹ میں تبدیل کرنے پر توجہ مرکوز کرتے ہیں، جیسے کہ سنگل ماڈیول LLMs GUI نیویگیشن کے لیے ان ٹیکسٹ ان پٹس پر کارروائی کر سکتے ہیں (Zhang et al., 2021; Rawles et al., 2023; Wen et al. al.، 2023)۔
ملٹی موڈل ایجنٹس۔ LLMs میں حالیہ پیشرفت (Brown et al., 2020; OpenAI, 2023a; Chowdhery et al., 2022; Anil et al., 2023; Touvron et al., 2023; Hoffmann et al., 2022) نے LLM کو اتپریرک کیا ہے۔ - بیسڈ ایجنٹ سسٹم (مدان et al., 2023; 2023; al., 2023; Zhao et al. 2023؛ Yang et al. NLP ڈومین میں کامیابی سے متاثر ہو کر، ملٹی موڈل محققین ملٹی موڈل ایجنٹس کی تلاش میں ہیں۔ تحقیق کا سلسلہ LLM پر مبنی ملٹی موڈل ایجنٹس (گپتا اور کیمبھاوی، 2023؛ Surís et al.، 2023؛ Wu et al.، 2023؛ Yang* et al.، 2023؛ Shen et al.، 2023؛ Lu et al. .، 2023؛ یو ایٹ ال، 2023؛ ال۔ LMMs کی تیز رفتار پیشرفت (Alayrac et al., 2022; Driess et al., 2023; OpenAI, 2023a,b,c; gpt, 2023; Yang et al., 2023c; Google, 2023) سے چلنے والی تازہ ترین مطالعات میں ایل ایم ایم سے چلنے والے ملٹی موڈل ایجنٹس (یانگ ایٹ ال۔ 2023؛ Liu et al., 2023)، اس طرح کیپشن ماڈلز (Wang et al. ہمارا مجوزہ طریقہ کار GUI نیویگیشن کے لیے ایک خصوصی LMM پر مبنی ایجنٹ کی نمائندگی کرتا ہے۔ ہمارا مقصد اس کام کے لیے ایک جامع تجزیہ اور ایک مضبوط بنیاد فراہم کرنا ہے۔
یہ کاغذ CC BY 4.0 DEED لائسنس کے تحت arxiv پر دستیاب ہے۔