著者:
(1) アン・ヤン、カリフォルニア大学サンディエゴ校、ayan@ucsd.edu。
(2)Zhengyuan Yang、Microsoft Corporation、zhengyang@microsoft.com、同額の寄付。
(3) Wanrong Zhu、UC サンタバーバラ校、wanrongzhu@ucsb.edu。
(4)ケビン・リン、マイクロソフトコーポレーション、keli@microsoft.com
(5) Microsoft Corporation、Linjie Li、lindsey.li@mocrosoft.com。
(6) Jianfeng Wang、Microsoft Corporation、jianfw@mocrosoft.com。
(7) Jianwei Yang、Microsoft Corporation、jianwei.yang@mocrosoft.com。
(8) Yiwu Zhong、ウィスコンシン大学マディソン校、yzhong52@wisc.edu。
(9)ジュリアン・マコーリー、カリフォルニア大学サンディエゴ校、jmcauley@ucsd.edu
(10) Jianfeng Gao、Microsoft Corporation、jfgao@mocrosoft.com。
(11) Zicheng Liu、Microsoft Corporation、zliu@mocrosoft.com。
(12) Lijuan Wang、Microsoft Corporation、lijuanw@mocrosoft.com。
編集者注: これは、スマートフォンを操作するための生成 AI の使用を評価する論文の 13 部構成のうちの 2 部目です。論文の残りの部分は、以下のリンクの表から読むことができます。
リンク一覧
- 要約と1 はじめに
- 2 関連研究
- 3 MMナビゲーター
- 3.1 問題の定式化と 3.2 マークのセットによるスクリーングラウンディングとナビゲーション
- 3.3 マルチモーダル自己要約による履歴生成
- 4 iOS 画面ナビゲーション実験
- 4.1 実験のセットアップ
- 4.2 意図するアクションの説明
- 4.3 ローカライズされたアクションの実行と 4.4 GPT-4V の現在の状態
- 5 Android 画面ナビゲーション実験
- 5.1 実験のセットアップ
- 5.2 パフォーマンス比較
- 5.3 アブレーション研究
- 5.4 エラー分析
- 6 議論
- 7 結論と参考文献
2 関連研究
自律的な GUI ナビゲーション。自律的な GUI ナビゲーションでは、モデルが指示に従って、Web サイトやアプリケーションなどのさまざまなグラフィカル ユーザー インターフェイスを操作し、ユーザーが問い合わせたタスクを実行します。現在のベンチマークでは、合成または実際のユーザー生成の指示を収集して、特定の UI 要素を識別するモデルの能力 (Shi ら、2017 年、Li ら、2020 年、Bai ら、2021 年)、または一連の GUI ビューを操作して包括的なタスク目標を達成するモデルの能力 (Li ら、2020 年、Burns ら、2021 年、Venkatesh ら、2022 年、Deng ら、2023 年、Rawles ら、2023 年) を評価しました。これらの GUI ビューからの視覚情報を理解するために、ある研究では、マルチモーダル入力を処理できるモデル構造を採用しています (Sun et al., 2022; Redmon et al., 2016)。他の方法では、UI シーンのテキストとアイコンをテキストのみの HTML 形式に変換することに重点を置いています。たとえば、単一モジュール LLM は、GUI ナビゲーション用にこれらのテキスト入力を処理できます (Zhang et al., 2021; Rawles et al., 2023; Wen et al., 2023)。
マルチモーダルエージェント。 LLM の最近の進歩 (Brown et al., 2020; OpenAI, 2023a; Chowdhery et al., 2022; Anil et al., 2023; Touvron et al., 2023; Hoffmann et al., 2022) は、LLM ベースのエージェント システムの探求を促進しました (Madaan et al., 2022)。 al., 2023; Shinn et al., 2023; Pan et al., 2023; Yao et al., 2022; Schick et al., 2023; Paranjape et al., 2023; Pryzant et al., 2023; Guo et al., 2023; Zhao et al., 2023; Yang et al., 2023a)、推論を統合します。マルチモーダルは、さまざまな複雑な言語タスクに対応するロジックと外部ツールを備えています。NLP ドメインでの成功に触発され、マルチモーダル研究者はマルチモーダル エージェントの研究に取り組んでいます。この研究は、高度な視覚的推論のための MM-ReAct (Yang* et al., 2023) や反復的な視覚生成と編集のための Visual ChatGPT (Wu et al., 2023) などの LLM ベースのマルチモーダル エージェント (Gupta and Kembhavi, 2023; Surís et al., 2023; Wu et al., 2023; Yang* et al., 2023; Shen et al., 2023; Lu et al., 2023; Yu et al., 2023; Li et al., 2023) から始まります。 LMM の急速な進歩 (Alayrac et al., 2022; Driess et al., 2023; OpenAI, 2023a,b,c; gpt, 2023; Yang et al., 2023c; Google, 2023) に後押しされて、最新の研究では LMM を利用したマルチモーダル エージェント (Yang et al., 2023; Liu et al., 2023) の調査が開始され、キャプション モデル (Wang et al., 2022a; Wu et al., 2022) などの基本的な視覚的記述ツールの必要性がなくなりました。私たちが提案する方法論は、GUI ナビゲーションに特化した LMM ベースのエージェントを表しています。私たちは、このタスクのための包括的な分析と強力なベースラインを提供することを目指しています。
この論文は、CC BY 4.0 DEED ライセンスの下でarxiv で公開されています。