143 測定値

オープンソースのAIエージェントIIがベンチマーク戦争のリーダーシップを占めていますが、それは本当に自律ですか?

Bruce Li10m2025/05/28
Read on Terminal Reader

長すぎる; 読むには

市場で最もスマートな自動AIエージェントであると主張したIIエージェントの最初の見方と実践的なテストです。
featured image - オープンソースのAIエージェントIIがベンチマーク戦争のリーダーシップを占めていますが、それは本当に自律ですか?
Bruce Li HackerNoon profile picture


導入

数日前に、もう一人のAIエージェントが突っ込み、「Intelligent Internet」またはIIエージェントと呼ばれ、世界で最もスマートなのに完全にオープンソースのエージェントだと主張しています! それでは、それは何ですか?独立系エージェントインテリジェンステスト? 他のAIエージェントをどのようにバックアップするかOpenAI Deep Researchについてで、マニュアルそして、ジェンダーパーク?

この記事では、上記の質問に答えるだけでなく、これらのAIエージェントが本当に実現するかどうかを確認するために、いくつかの現実的なテストケースも実施します。

エージェントIIによると、公式ブログ記事, it beats other closed source AI Agents in GAIA score. 他の閉鎖ソースAIエージェントを GAIAスコアで倒す。


GAIAは、推論、マルチモダリティ処理、ウェブブラウジング、ツール使用能力などの基本的な能力を必要とする現実世界の質問を提案する一般的なAIアシスタントの基準です - 概念的に単純な質問は、ほとんどの先進的なAIにとって困難ですが、人間の回答者はプラグインを搭載したGPT-4に比べて92%の精度を達成し、わずか15%です。

2 エージェントとは

ユニークな特徴と成果

II-Agentはオープンソースのインテリジェント・アシスタント・フレームワークであり、完全な透明性と監査能力を維持しながら利用可能なエージェントのベンチマークをトップにします。そのコア機能は、研究と事実検証、複数のステップのウェブ検索、ブログの草案や技術マニュアルを含むコンテンツ生成、自動レポート付きデータ分析、複数の言語のソフトウェア開発、ワークフローの自動化、および高度な問題解決をカバーします。

このシステムは、AnthropicのClaude 3.7 Sonnetを中心に、最大12万トークンを処理できるインテリジェントなコンテキスト管理、ビジョン機能を備えた高度なブラウザ自動化、インタラクティブな使用ケースのためのリアルタイムWebSocket通信を搭載した洗練されたアーキテクチャを備えています。

リーディングフレームワークに対する競争力:

II-Agentは、Manus(GAIAベンチマークで65%を達成した)とGenSpark AIのような主要な閉鎖的なエージェントに優れたオープンソースの代替品として位置づけています。OpenManus by Foundation AgentとSuna by Kortix-AIのような以前のオープンソースの試みは「ManusとGenSparkの能力を複製しようとしました」が、いずれも「パフォーマンスを合わせたり、比較可能なベンチマークの結果を達成するのに近づいていません」

II-Agentは、基準パフォーマンスを満たすだけでなく、オープンソース、透明性、拡張性の重要な利点を維持しながら、規制された産業に不可欠であると見なされる品質を満たすことで、このギャップを解決します。

例 使用事例


技術建築

II-AgentのGitHubリポジトリを探すここ.

高レベルの建築

II-Agent は 2 つの主要なインターフェイスを提供します: コマンド ライン ツール (cli.py) は、直接端末ベースの相互作用のために、および WebSocket サーバー (ws_server.py) は、フロントエンド / ディレクトリに住む React ベースのフロントエンドを供給します。GitHub)の中心は、LLM呼び出し(LLM/クライアントを通じて)をオーケストラ化し、計画と反省の論理を処理し、ユーティルから共有ユーティリティを活用しながら(ツールで定義された)実行タスクを配布するモジュラーエージェントコアです。GitHubインストラクターのインストラクターは、インストラクターのインストラクターのインストラクターがインストラクターのインストラクターのインストラクターでインストラクターのインストラクターがインストラクターのインストラクターのインストラクターをインストラクターのインストラクターのインストラクターにインストラクターのインストラクターがインストラクターのインストラクターをインストラクターのインストラクターにインストールする。GitHub( )


詳細な内部建築

II エージェント リポジトリ構造内の特定のモジュールをより詳しく見ていきましょう。


Agents Module (src/ii_agent/agents/): このモジュールには、エージェントの動作サイクルをリテラティブな推論と能力選択を通じて管理する中央オーケストラーションコンポーネントとして機能するコアエージェントの実装が含まれています。エージェントは、ダイナミックにカスタマイズされた文脈でシステムプロンプトを処理し、包括的な相互作用の履歴を維持し、LLMと連携してユーザーの指示を解釈し、タスクをどのように進めるかを決定します。

LLM Interface Module (src/ii_agent/llm/)このモジュールは、Anthropic の Claude 3.7 Sonnet 用に最適化された大規模な言語モデルと相互作用するためのインターフェイス層を提供します。直接の Anthropic API アクセスと Google Cloud Vertex AI ルーティングの両方を処理し、認証、リクエスト形式化、応答処理を管理します。

Tools Module (src/ii_agent/tools/)このモジュールは、インテリジェントなコード編集、安全な環境でのコマンドライン実行、高度なウェブインタラクションとブラウザ自動化、およびさまざまな形態のための専門的な機能を含むエージェントがその環境と相互作用できる豊富な実行機能のセットを含みます。ツールは、PDFテキスト抽出、オーディオトランスクリプション、スピーチ合成、画像生成、ビデオ生成、および深い研究統合をサポートします。

Utilities Module (src/ii_agent/utils/)このモジュールは、トークンの推定と最適化を扱うコンテキスト管理システム、大型出力のためのファイルベースのアーカイブメカニズム、リアルタイムの相互作用のためのWebSocketコミュニケーションプロトコル、データ処理とシステム操作のためのさまざまなヘルパー機能を含むサポートインフラを提供します。

他のオープンソースフレームワークへの依存

II-Agentは、複数のオープンソースサービスやライブラリと密接に統合されています。そのLLMバックエンドでは、Anthropic Python SDKを通じてAnthropic ClaudeとGoogleのVertex AIを通じてGoogleクラウド-aiplatformクライアントをサポートし、またTavily、Jina、Firecrawl、SerpAPIなどのプラグインとプレイの検索プロバイダーを提供しています。GitHub) フロントエンドとツールサイドでは、React/Node.js スタック(Next.js 条約)の上に構築し、コミュニティー主導のプロジェクト - 特にソフトウェア エンジニアリング タスク オーケストレーションのための AugmentCode、Manus のプロンプト アーキテクチャ パターン、および先進的なウェブ インタラクションのための Index Browser Use Toolkit (GitHub( )

簡単なテストケース

最初に私は、ベースラインを確立するためのシンプルなテストケースを試してみたかった。そして、Nokia Snakeゲームよりも優れたシンプルなテストケースはありません。 例のケースで言及されていたにもかかわらず、私はHTML5モバイルゲームであるべきであるという小さな曲線を追加しました。

[Prompt] :ノキアのヘビゲームをHTML5のウェブゲームとして再生する

And it was a success from the first attempt!ゲームはプレイする準備ができているだけでなく、ノキアの携帯電話特有のデザイン要素を追加し、ゲームをレトロにした。

Author’s Notes: 参考として、Claude Sonnet 3.7の同じプロンプトは、似たような見た目のあるアプリを作成しますが、ユーザーがプレイしようとするとすぐに「Game Over」を表示します。

次に、エージェントIIがこれをどのように達成したかを詳しく見ていきましょう。

First the II-agent created a plan(常に自動代理人にとって重要なこと):

  1. 基本的な HTML 構造を canvas 要素で設定する
  2. ゲームレイアウトのためのCSSスタイルを作成する
  3. Implement the core Snake game logic in JavaScript:
    • Snake movement and controls
    • Food generation
    • Collision detection
    • Score tracking
    • Game over handling
    • Snake movement and controls
  4. Nokia スタイルのビジュアル要素(ピクセルアート、カラースケジュール)を追加
  5. モバイルフレンドリーコントロール
  6. ゲームを徹底的にテスト
  7. ゲームを展開して遊べるように

次に、関連ファイルを作成し、コードを実装しました。そして最後に、Webアプリとしてデプロイしましたので、それをテストできます。IIエージェントのwebuiは、右側に3つの主要なタブを見ることができるクロードに似ています:ブラウザ、コード、ターミナル。

難しいテストケース

ノキアのヘビゲームは、多くの異なるコーディングLLMとAIエージェントでドキュメンタリーされ、テストケースを作ることは、単純なコーディングを超えて良いでしょう。

私の計画は、第2エージェントがbuild a website for Nokia’s historical feature phones内在的に含まれる、research(ノキアの携帯電話は、design(ウェブサイトのデザイン)codingそして、browser use(製品画像や仕様についてはインターネットで検索し、最終サイトをテストしてください)。

結果は、我々にはまだ長い道のりがあることを示している。

初試み

[Prompt( )ノキアの機能電話博物館のウェブサイトを作成し、すべてのノキアの機能電話を製品ギャラリー形式で展示します。

この課題に対処するための適切なプランを作成しました。


  1. Research Nokia feature phone models to collect information on:
    • Product images
    • Launch years
    • Units sold
    • Key features for descriptions
  2. Design the website layout:
    • Create a responsive main page with an introduction to Nokia feature phones
    • Implement a product gallery section to display all phone models
    • Include individual phone detail sections
    • Add navigation and search functionality
  3. Develop the website using:
    • HTML for structure
    • Tailwind CSS for styling
    • JavaScript for any interactive elements (if needed)
  4. Test the website for:
    • Responsiveness
    • Proper display of information
    • Navigation functionality
  5. サイトを展開し、最終URLを提供します。

その後、研究を行い、多くの研究を行い、「ブラウザ」のタブから、インターネットを非常に長い間閲覧していることがわかります。But eventually it failed and stopped理由は? 特定の遅いウェブサイトでタイムアップされたブラウジングタスクの1つです。

The AI agent’s plan did not include any exception handling and error recovery mechanism.

第2試み

最初の試みで、エージェントはNokiaのすべての機能携帯電話の情報を得るためにあまりにも苦労したので、私の第2の試みは、トップ5機能携帯電話の範囲を縮小することを目指しました。

[Prompt] :ノキアの携帯電話を展示するノキア機能博物館のウェブサイトを作成 TOP5 携帯電話 製品ギャラリー形式で、各携帯電話モデルに対して、製品イメージ、発売年、および主要な機能の短い一節を表示します。

TOP5 携帯電話

今回、エージェントは失敗し、別の理由で再び停止しました。人類率制限は突入し、エラーを投げます。再び、AIエージェントは、例外の送付と回復メカニズムを持っていません。

しかも、もう一つ、エラーが起きているのが、エージェント。did NOT follow user instruction「研究を「トップ5の携帯電話」に限定し、代わりにすべての機能携帯電話を調査する」

第三の試み

第3回は魅力的かもしれないと思っていたが、なぜ代理人が最初にモックアップサイトを作成し、次に携帯電話のモデルを研究するのを許さないのだろうか?この方法で、電話のモデル調査が再び閉じ込められた場合、少なくともコンセプトの証拠を得ることができる。

[Prompt] :ノキア機能携帯電話博物館のウェブサイトを作成し、ノキアのトップ5機能携帯電話を製品ギャラリー形式で展示します。

(1) まず、実際のデータなしでマックアップサイトを構築します。

まず、実際のデータなしでマックアップサイトを構築します。

2)ノキアの携帯電話モデルを研究するとき、トップ5モデルのみを研究する。

したがって、モックアップウェブサイトの作成の最初の部分は順調に進んでいるようだ:



しかし、ウェブサイトをテストする時点で問題が発生します。HTTPサーバがIIエージェント自身のバックエンドサーバと衝突するためにポート8000を使用しています。IIエージェントを中断してポート番号を変更する方法がないので、変更の指示を追加するために新しいセッションを開始する必要があります。

第4回 試み

[Prompt]: _Make a website for Nokia feature phone museum, showcasing Nokia's top five feature phones in a product gallery format. For each phone model, display the product image, launch year, and one paragraph short description of key features. すべての携帯電話モデルに対して、製品イメージ、発売年、および主要な機能の短い説明を表示します。

  1. まず、実際のデータなしにマックアップウェブサイトを作成し、ウェブサーバーのポート8888を使用します。
  2. ノキアの携帯電話モデルを調べると、トップ5モデルのみを調べた。

マックアップサイトは実際に機能し、適切に見えます。


自動化されたウェブサイトのテストは、おそらくターミナル タブのいくつかのプロセス管理のために機能しませんでした。


「私は8888ポートでローカルウェブサーバーを起動しようとしましたが、実際のウェブサイトの開発には影響しませんので、実際のデータを追加するためにNokiaのトップ5機能携帯電話を研究し続けるでしょう。

「私は8888ポートでローカルウェブサーバーを起動しようとしましたが、実際のウェブサイトの開発には影響しませんので、実際のデータを追加するためにNokiaのトップ5機能携帯電話を研究し続けるでしょう。

I felt a glimpse of hope for AI agents now.

最終的にテストケースは、Anthropicの割合制限のためにもう一度失敗し、AIエージェントはそれから回復することができなかった。

ファンタジー vs 現実 - My Learnings

We have always wanted very intelligent AI Agents that can be truly autonomous and do wonderful things on our behalf. But the reality is that we are quite far from it.これはIIエージェントの具体的な批判ではなく、AIエージェントの一般的な批判です。

人間が極めてうまく、ほぼ努力なくやっているものがあるが、アート・アート・AI・エージェントが闘っている。

  • Plannng:複雑な目標を小さなタスクに分解し、それぞれのタスクの可行性研究を実施し、タスクの順序を作成する。
  • 論理化:何が正しく、何が間違っているかを分析し、根源原因の分析を行い、仮定や外部条件の欠陥を探す
  • 反応:範囲を縮小し、タスクの順序を変更し、代替ソリューションを試み、概念の実証を実行し、必要に応じて助けを求めて、停止して再起動します。

したがって、今日のSOTAモデルとエージェントでは、今すぐいくつかのオプションがあります。

  1. Co-Pilot:これは概念的にも商業的にも非常に成功していることが証明されています. for example, coding with Cursor and GitHub Co-Pilot; Microsoft Co-Pilot for Office 365.
  2. Human in the loop; one design pattern called Agent Inbox by LangChain, where the agent can interrupt humans when they are stuck or need assistance. The challenge still remains that if AI Agents can be smart enough decide when to issue the interrupts. エージェント・インボックス(LangChainによるエージェント・インボックス)と呼ばれる1つのデザインパターンで、エージェントは人間が閉じ込められたり助けを必要とするときに人々を中断することができます。

そこで、完全に自動的なAIエージェントの第2の波:OpenAIのDeep Research、Manus、GenSpark、そして今ではIIエージェントに。

ポスト

私が最初のテストを行い、記事を書いた翌日、私は困難なテストにもう一度チャンスを与えることに決めました.今回はそれが機能した(99%):それはモックアップウェブサイトを作成し、成功してトップ5の携帯電話を研究するための指示に従い、すべての情報と画像を収集し、最終的にウェブサイトを更新しました!


なぜ 99% 代わりに 100%? ウェブサイトを変更した後の最後のステップ:テストのためのスタートが失敗しました. いくつかの手動のデバッグの後、II エージェントは新しいセッションを作成し、もはや元のウェブサイトのファイルを見つけることができなかったようです. しかし、Pythonによってウェブサイトを手動で実行してスクリーンショットが撮影されました。

これは修正できる小さなバグのように聞こえます。



Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks