119 ریڈنگز

اس AI سے ملو جو درحقیقت آپ کے لیے آپ کا سمارٹ فون استعمال کر سکتا ہے۔

کی طرف سے The FewShot Prompting Publication 3m2024/12/11
Read on Terminal Reader

بہت لمبا؛ پڑھنے کے لئے

مائیکروسافٹ اور یونیورسٹی آف کیلیفورنیا سان ڈیاگو کے محققین نے ایک ایسا AI ماڈل تیار کیا ہے جو آپ کے اسمارٹ فون کی اسکرین کو نیویگیٹ کرنے کے قابل ہے۔
featured image - اس AI سے ملو جو درحقیقت آپ کے لیے آپ کا سمارٹ فون استعمال کر سکتا ہے۔
The FewShot Prompting Publication  HackerNoon profile picture
0-item

مصنفین:

(1) این یان، یو سی سان ڈیاگو، ayan@ucsd.edu؛

(2) Zhengyuan Yang، Microsoft Corporation، zhengyang@microsoft.com مساوی شراکت کے ساتھ؛

(3) Wanrong Zhu, UC Santa Barbara, wanrongzhu@ucsb.edu;

(4) کیون لن، مائیکروسافٹ کارپوریشن، keli@microsoft.com؛

(5) Linjie Li, Microsoft Corporation, lindsey.li@mocrosoft.com؛

(6) جیانفینگ وانگ، مائیکروسافٹ کارپوریشن، jianfw@mocrosoft.com؛

(7) جیان وی یانگ، مائیکروسافٹ کارپوریشن، jianwei.yang@mocrosoft.com؛

(8) Yiwu Zhong, University of Wisconsin-Madison, yzhong52@wisc.edu;

(9) Julian McAuley, UC San Diego, jmcauley@ucsd.edu;

(10) جیانفینگ گاو، مائیکروسافٹ کارپوریشن، jfgao@mocrosoft.com؛

(11) زیچینگ لیو، مائیکروسافٹ کارپوریشن، zliu@mocrosoft.com؛

(12) لیجوان وانگ، مائیکروسافٹ کارپوریشن، lijuanw@mocrosoft.com۔

ایڈیٹر کا نوٹ: یہ ایک مقالے کے 13 کا 2 حصہ ہے جس میں اسمارٹ فونز کو نیویگیٹ کرنے کے لیے جنریٹو AI کے استعمال کا جائزہ لیا گیا ہے۔ باقی کاغذ آپ نیچے دیے گئے لنکس کے ذریعے پڑھ سکتے ہیں۔

لنکس کی میز


2 متعلقہ کام

خود مختار GUI نیویگیشن۔ خود مختار GUI نیویگیشن میں مختلف گرافیکل یوزر انٹرفیس، جیسے ویب سائٹس یا ایپلیکیشنز، کے ذریعے صارف کے پوچھے گئے کام کو انجام دینے کے لیے ہدایات کے مطابق ایک ماڈل شامل ہوتا ہے۔ موجودہ معیارات نے مخصوص UI عناصر کی شناخت کرنے میں ماڈلز کی صلاحیتوں کا جائزہ لینے کے لیے مصنوعی یا حقیقی دنیا کی صارف سے تیار کردہ ہدایات جمع کیں (Shi et al. GUI خیالات کی ایک سیریز کے ساتھ بات چیت کرنا (Li et al., 2020; برنس وغیرہ، 2021؛ ڈینگ ایٹ ال۔، 2023)۔ ان GUI خیالات سے بصری معلومات کو سمجھنے کے لیے، کام کی ایک لائن ایک ماڈل ڈھانچہ اپناتی ہے جو ملٹی موڈل ان پٹس پر کارروائی کر سکتی ہے (Sun et al., 2022; Redmon et al., 2016)۔ دوسرے طریقے UI منظر کے متن اور شبیہیں کو صرف ٹیکسٹ HTML فارمیٹ میں تبدیل کرنے پر توجہ مرکوز کرتے ہیں، جیسے کہ سنگل ماڈیول LLMs GUI نیویگیشن کے لیے ان ٹیکسٹ ان پٹس پر کارروائی کر سکتے ہیں (Zhang et al., 2021; Rawles et al., 2023; Wen et al. al.، 2023)۔


ملٹی موڈل ایجنٹس۔ LLMs میں حالیہ پیشرفت (Brown et al., 2020; OpenAI, 2023a; Chowdhery et al., 2022; Anil et al., 2023; Touvron et al., 2023; Hoffmann et al., 2022) نے LLM کو اتپریرک کیا ہے۔ - بیسڈ ایجنٹ سسٹم (مدان et al., 2023; 2023; al., 2023; Zhao et al. 2023؛ Yang et al. NLP ڈومین میں کامیابی سے متاثر ہو کر، ملٹی موڈل محققین ملٹی موڈل ایجنٹس کی تلاش میں ہیں۔ تحقیق کا سلسلہ LLM پر مبنی ملٹی موڈل ایجنٹس (گپتا اور کیمبھاوی، 2023؛ Surís et al.، 2023؛ Wu et al.، 2023؛ Yang* et al.، 2023؛ Shen et al.، 2023؛ Lu et al. .، 2023؛ یو ایٹ ال، 2023؛ ال۔ LMMs کی تیز رفتار پیشرفت (Alayrac et al., 2022; Driess et al., 2023; OpenAI, 2023a,b,c; gpt, 2023; Yang et al., 2023c; Google, 2023) سے چلنے والی تازہ ترین مطالعات میں ایل ایم ایم سے چلنے والے ملٹی موڈل ایجنٹس (یانگ ایٹ ال۔ 2023؛ Liu et al., 2023)، اس طرح کیپشن ماڈلز (Wang et al. ہمارا مجوزہ طریقہ کار GUI نیویگیشن کے لیے ایک خصوصی LMM پر مبنی ایجنٹ کی نمائندگی کرتا ہے۔ ہمارا مقصد اس کام کے لیے ایک جامع تجزیہ اور ایک مضبوط بنیاد فراہم کرنا ہے۔


یہ کاغذ CC BY 4.0 DEED لائسنس کے تحت arxiv پر دستیاب ہے۔


Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks