143 讀數

开源AI代理II在基准战争中占据主导地位 - 但它真的独立吗?

经过 Bruce Li10m2025/05/28
Read on Terminal Reader

太長; 讀書

第一眼和实用测试II代理,声称是市场上最聪明的自主AI代理,也是开源的。
featured image - 开源AI代理II在基准战争中占据主导地位 - 但它真的独立吗?
Bruce Li HackerNoon profile picture


介绍

几天前,又有另一个AI特工出现了,它被称为“智能互联网”或II特工,声称是世界上最聪明但完全开源的特工!那么它是什么?它如何在世界范围内获得如此高的成绩?自主代理人智能测试?它是如何与其他AI代理堆积的,如开放深度研究,手工,和基因园?

在这篇文章中,我们不仅会回答上述问题,还会进行一些真实的测试案例,看看这些AI代理是否真的会提供服务。

根据二级特工官方博客文章,它击败了其他关闭源代码AI代理在GAIA分数。


GAIA是一般人工智能助理的基准,它提出了需要基本能力的现实世界问题,如推理,多模式处理,网页浏览和工具使用技能 - 这些问题对于人类来说是概念上简单的,但对大多数先进的AI来说是具有挑战性的,人类受访者达到92%的准确性,而GPT-4配备插件的准确性仅为15%。

什么是二级代理

独特的特点和成就

II-Agent 是一个开源的智能助理框架,在保持完全透明度和可审计的同时为可用代理人提供基准,其核心功能包括研究和事实检查,多步式网页搜索,内容生成,包括博客草案和技术手册,数据分析与自动报告,多种语言的软件开发,工作流程自动化和先进的解决问题。

该系统具有复杂的架构,其核心是Anthropic的Claude 3.7 Sonnet,可以处理高达12万个代币的智能环境管理,具有视觉功能的先进浏览器自动化和实时WebSocket通信,用于交互式使用案例。

与领先的框架相比,竞争地位:

II-Agent将自己定位为一个优越的开源替代品,以领先的闭源代理商,如Manus(在GAIA基准中达到65%)和GenSpark AI.虽然以前的开源尝试,如OpenManus by Foundation Agent和Suna by Kortix-AI“试图复制Manus和GenSpark的能力,”但没有人“接近匹配他们的性能或实现相似的基准结果”。

II-Agent通过不仅匹配,而且超越基准性能来解决这一差距,同时保持开源,透明和可扩展的关键优势 - 对于受监管行业和最大限度的采用来说至关重要的品质。

使用案例示例


技术建筑

您可以找到 II-agent 的 github 存储库这里.

高层建筑

II-Agent提供两种主要接口:一个命令行工具(cli.py)用于直接基于终端的交互和一个WebSocket服务器(ws_server.py)提供基于React的前端生活在前端/目录(吉普赛其核心是 src/ii_agent/,该模块化代理核心组织LLM呼叫(通过LLM/客户端),处理规划和反思逻辑,并派出执行任务(在工具中定义),同时利用共享实用工具从utils/(吉普赛实时通信是通过WebSockets实现的,通过孤立的代理实例向浏览器界面流事件以响应用户体验(吉普赛)。


详细的内部建筑

让我更仔细地研究II-Agent存储结构中的具体模块。


Agents Module (src/ii_agent/agents/)此模块包含作为中央编排组件的核心代理实现,通过迭代推理和能力选择来管理代理的操作周期。代理处理系统提示与动态定制的背景,保持全面的交互历史,并与LLM协调以解释用户指令并决定如何继续执行任务。

LLM Interface Module (src/ii_agent/llm/)此模块提供了与大型语言模型互动的界面层,专门针对 Anthropic 的 Claude 3.7 Sonnet 进行了优化,可处理直接的 Anthropic API 访问和 Google Cloud Vertex AI 路由,管理身份验证、请求格式化和响应处理。

Tools Module (src/ii_agent/tools/)此模块涵盖了丰富的执行功能,允许代理人与其环境互动,包括文件系统操作,智能代码编辑,安全环境中的命令行执行,先进的Web互动和浏览器自动化,以及各种模式的专业功能。工具支持PDF文本提取,音频转录,语音合成,图像生成,视频生成和深度研究集成。

Utilities Module (src/ii_agent/utils/)此模块提供支持基础设施,包括处理代币估计和优化的背景管理系统,大型输出的基于文件的存档机制,实时交互的WebSocket通信协议,以及数据处理和系统操作的各种辅助功能。

依赖其他开源框架

II-Agent与多种开源服务和库密切集成.对于其LLM后端,它通过Anthropic Python SDK和谷歌的Vertex AI通过谷歌云-aiplatform客户端支持Anthropic Claude,同时还提供Tavily,Jina,Firecrawl和SerpAPI等插件和播放搜索提供商(吉普赛在前端和工具方面,它构建了React/Node.js堆栈(Next.js公约)的顶部,并利用社区驱动的项目 - 最突出的是AugmentCode用于软件工程任务编排,Manus的提示架构模式和Index Browser用于先进的Web互动的工具包(吉普赛)。

简单测试案例

首先我想尝试一个简单的测试案例来建立一个基线,而且没有比诺基亚蛇游戏更好的简单测试案例,尽管它在其示例案例中被提到,但我补充了一点点,它应该是一个HTML5移动游戏。

[Prompt]:重建诺基亚蛇游戏作为HTML5网络游戏

And it was a success from the first attempt!不仅游戏已经准备好播放,它还增加了诺基亚手机特有的设计元素,使游戏更加真实。

Author’s Notes: 作为参考, Claude Sonnet 3.7 中的相同提示会产生类似的外观应用程序,但当用户尝试玩时,它会立即显示“游戏结束”。

现在让我们更详细地看看II代理如何实现这一点:

First the II-agent created a plan(对于自主代理人来说,始终重要):

  1. 用 canvas 元素设置基本的 HTML 结构
  2. 创建游戏布局的CSS风格
  3. Implement the core Snake game logic in JavaScript:
    • Snake movement and controls
    • Food generation
    • Collision detection
    • Score tracking
    • Game over handling
    • Snake movement and controls
  4. 添加诺基亚风格的视觉元素(像素艺术,色彩方案)
  5. 实施移动友好控制
  6. 仔细测试游戏
  7. 部署游戏,以便你可以玩它

接下来它创建了相关的文件并实现了代码,最后它部署了它作为一个Web应用程序,所以我可以测试它。II代理webui类似于Claude,在那里你可以看到右侧的三个主要标签:浏览器,代码,终端。

艰难的测试案例

由于诺基亚蛇游戏在许多不同的编码LLM和AI代理中都经过了很好的记录和测试,所以可以做一个超越简单编码的测试案例。

我的计划是让二级特工build a website for Nokia’s historical feature phones,其内涵包括research(诺基亚手机模型)design(网站设计)coding,和browser use(浏览互联网以获取产品图像和规格,测试最终网站)。

结果表明,我们还有很长的路要走。

第一次尝试

[Prompt( )创建诺基亚手机功能博物馆的网站,以产品画廊格式展示所有诺基亚功能手机,为每个手机型号显示产品图像、发布年份、出售单元和一个段落的关键功能简要描述。

它创造了一个体面的计划来应对这个挑战


  1. Research Nokia feature phone models to collect information on:
    • Product images
    • Launch years
    • Units sold
    • Key features for descriptions
  2. Design the website layout:
    • Create a responsive main page with an introduction to Nokia feature phones
    • Implement a product gallery section to display all phone models
    • Include individual phone detail sections
    • Add navigation and search functionality
  3. Develop the website using:
    • HTML for structure
    • Tailwind CSS for styling
    • JavaScript for any interactive elements (if needed)
  4. Test the website for:
    • Responsiveness
    • Proper display of information
    • Navigation functionality
  5. 部署网站并为您提供最终的URL

然后它继续做研究,很多研究. 我可以从“浏览器”选项卡,这是在浏览互联网很长一段时间,But eventually it failed and stopped原因?浏览任务之一是在特定缓慢的网站上进行。

The AI agent’s plan did not include any exception handling and error recovery mechanism.

第二次尝试

由于在第一次尝试中,代理商试图太努力地获取所有诺基亚功能手机的信息,我的第二次尝试旨在将范围缩小到前五款功能手机。

[Prompt]:创建诺基亚手机博物馆的网站,展示诺基亚的功能 顶级5款手机 在产品画廊格式中。对于每个手机模型,显示产品图像、发布年份和一个段落的关键功能简要描述。

顶级5款手机

这一次,代理人失败并再次停止,由于另一个原因。人为率限制引入,并扔出一个错误。

此外,还有另一个明显的错误:AI代理did NOT follow user instruction“我们将研究局限于“前五款手机”,而不是去研究所有功能手机。

第三次尝试

思考第三次可能是一个魅力,我想,为什么不让代理人先创建模拟网站,然后研究电话模型?这样我们就可以至少有一个概念证明,如果电话模型研究再次被困住。

[Prompt]:创建诺基亚手机功能博物馆的网站,以产品画廊格式展示诺基亚五大功能手机,为每个手机模型显示产品图像、发布年份和关键功能的简要描述。

(1) 首先构建一个模拟网站而没有真实数据

首先构建一个模拟网站而没有真实数据

2)在研究诺基亚手机型号时,只研究前五款型号,只有5款。

因此,创建模拟网站的第一部分似乎正在顺利进行:



但是当它是测试网站的时候,有一个问题。它使用端口8000用于HTTP服务器与ii-agent自己的后端服务器的冲突. 由于没有办法中断II-agent并在飞行中更改端口号,我必须启动一个新的会话来添加更改的说明。

第四次尝试

[Prompt创建一个诺基亚功能手机博物馆网站,以产品画廊格式展示诺基亚五大功能手机。对于每个手机型号,显示产品图像、发布年份和一个段落的关键功能简要描述。

  1. 首先构建一个模仿网站而没有真实数据,使用端口8888为Web服务器
  2. 当研究诺基亚手机型号时,只研究前五款型号,只有5款

模拟网站实际上工作,看起来很体面。


自动网站测试不起作用,可能是由于终端选项卡中的某些流程管理。


“我试图在端口8888上启动本地Web服务器,但我正在经历一些问题,这不会影响实际的网站开发,因为我现在将继续研究诺基亚的前五款功能手机以添加实际数据。

“我试图在端口8888上启动本地Web服务器,但我正在经历一些问题,这不会影响实际的网站开发,因为我现在将继续研究诺基亚的前五款功能手机以添加实际数据。

I felt a glimpse of hope for AI agents now.

最终,测试案例仍然失败,再次由于Anthropic的率限制,而AI代理人无法从中恢复。

幻想与现实 - 我的学习

We have always wanted very intelligent AI Agents that can be truly autonomous and do wonderful things on our behalf. But the reality is that we are quite far from it.这不是对II代理人的具体批评,而是对AI代理人的总体批评。

有某些事情,人类做得非常好,几乎毫不费力,而所有最先进的AI代理人都在挣扎。

  • Plannng:把复杂的目标分解成小任务,对每个任务进行可行性研究,编写任务的排序
  • 推理:分析什么是对的,什么是错的,进行根源原因分析,寻找假设和外部条件的缺陷
  • 反应:减少范围,更改任务顺序,尝试替代解决方案,运行概念证明,需要时请求帮助,停止并重新启动

因此,随着今天的SOTA模型和代理,我们现在有几个选项:

  1. Co-Pilot:这在概念上和商业上都非常成功;例如,使用Cursor和GitHub Co-Pilot编码;Microsoft Co-Pilot for Office 365.
  2. 循环中的人类;一个名为LangChain Agent Inbox的设计模式,在那里代理人可以中断人类,当他们被困或需要帮助时。

所以你有它,完全自主AI代理的第二波:从OpenAI的深度研究,手稿,GenSpark,现在到II代理。

邮局

一天后,我做了第一次测试,写了这篇文章,我决定再给困难的测试一次机会,这次它起作用(99%):它创建了模特网站,成功地遵循了研究前五款手机的指示,收集了所有信息和图像,最终更新了网站!


为什么99%而不是100%?修改网站后的最后一步:测试的启动失败了. 经过一些手动调试后,似乎II代理创建了一个新的会话,不再能找到原始网站文件。

这听起来像一个可以修复的小bug。



Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks