소개
며칠 전, 또 다른 AI 에이전트가 공격했습니다. 그것은 훌륭하게 "인터넷 인텔리전트"또는 II 에이전트라고 불리며, 세계에서 가장 똑똑하지만 완전히 오픈 소스입니다!자율주행 요원지능 테스트는 어떻게 다른 AI 에이전트와 어떻게 쌓이는가?OpenAI 깊은 연구,매뉴얼그리고제네스파크?
이 기사에서는 위의 질문에 대답 할뿐만 아니라 이러한 AI 에이전트가 실제로 성취하는지 확인하기 위해 몇 가지 실제 테스트 사례를 수행합니다.
에이전트 II에 따르면공식 블로그 포스트, 그것은 GAIA 점수에서 다른 닫힌 소스 AI 에이전트를 이겼다.
작가의 참고: GAIA는 일반 AI 조수에 대한 기준이며, 이론, 다중 모드 처리, 웹 브라우징 및 도구 사용 능력과 같은 근본적인 능력을 필요로하는 실제 질문을 제안합니다.이 질문은 개념적으로 인간에게 간단하지만 대부분의 고급 AI에 도전적이며, 인간 응답자는 플러그인과 장착 된 GPT-4에 비해 92%의 정확도를 달성합니다.
에이전트 II 란 무엇인가
독특한 특징과 성취
II-Agent는 완전한 투명성과 감사 가능성을 유지하면서 사용할 수 있는 에이전트에 대한 벤치 마크를 우선시하는 오픈 소스 지능형 보조 프레임 워크입니다. Its core capabilities span research and fact-checking with multi-step web search, content generation including blog drafts and technical manuals, data analysis with automated reporting, software development across multiple languages, workflow automation, and advanced problem-solving.
이 시스템은 Anthropic의 Claude 3.7 Sonnet을 기반으로 한 정교한 아키텍처, 최대 120,000 개의 토큰을 처리 할 수있는 지능형 컨텍스트 관리, 시각 기능을 갖춘 고급 브라우저 자동화 및 실시간 WebSocket 통신을 특징으로합니다.
리더십 프레임 워크에 대한 경쟁적 위치 :
II-Agent는 Manus (GAIA 벤치마크에서 65 %에 도달한) 및 GenSpark AI와 같은 선도적 인 폐쇄 소스 에이전트에 대한 우수한 오픈 소스 대안으로 자신을 위치시킵니다.그러나 OpenManus by Foundation Agent와 Kortix-AI의 Suna와 같은 이전 오픈 소스 시도는 "Manus와 GenSpark의 기능을 복제하려고 시도했지만"그들 중 누구도 "성능을 일치시키거나 비교할 수있는 벤치마크 결과를 달성하는 데 가까이 오지 않았습니다."
II-Agent는 이 격차를 해결할 뿐만 아니라 벤치마크 성능을 뛰어넘고 오픈 소스, 투명성, 확장성의 중요한 장점을 유지함으로써 규제된 산업에 필수적이라고 생각되는 자질과 최대 채택을 유지합니다.
사용 사례 예제
기술 아키텍처
II-agent의 github 리포토리를 찾을 수 있습니다.여기에.
높은 수준의 건축
II-Agent는 2 개의 주요 인터페이스를 제공합니다 : 직접 터미널 기반 상호 작용을위한 명령줄 도구 (cli.py)와 프론트 엔드 / 디렉터리에 살고있는 React 기반 프론트 엔드를 공급하는 WebSocket 서버 (ws_server.py)Github그 중심에는 src/ii_agent/, LLM 호출 (llm/clients를 통해 LLM 호출을 조정), 계획 및 반사 논리를 처리하고 유틸리티에서 공유 유틸리티를 활용하면서 실행 작업을 배포하는 모듈식 에이전트 코어가 있습니다. (Github실시간 커뮤니케이션은 WebSockets를 통해 달성되며, 단독 에이전트 인스턴스가 브라우저 UI에 이벤트를 스트리밍하여 응답적인 사용자 경험을 제공합니다 (Github)
세부적인 내부 건축
II-Agent 리포지토리 구조 내의 특정 모듈을 좀 더 자세히 살펴보겠습니다.
Agents Module (src/ii_agent/agents/): 이 모듈에는 중앙 오케스트레이션 구성 요소로 기능하는 핵심 에이전트 구현이 포함되어 있으며, 반복적 인 추론 및 기능 선택을 통해 에이전트의 운영주기를 관리합니다. 에이전트는 역동적으로 맞춤형 컨텍스트로 시스템 요청을 처리하고 포괄적 인 상호 작용 기록을 유지하고 LLM과 조정하여 사용자 지침을 해석하고 작업을 진행하는 방법을 결정합니다.
LLM Interface Module (src/ii_agent/llm/)이 모듈은 Anthropic의 Claude 3.7 Sonnet을 위해 특별히 최적화된 대형 언어 모델과의 상호 작용을 위한 인터페이스 레이어를 제공합니다.이 모듈은 직접적인 Anthropic API 액세스와 Google Cloud Vertex AI 라우팅을 모두 처리하며 인증, 요청 포맷 및 응답 처리을 관리합니다.이 모듈은 토큰 사용 추정 및 전략적 트론싱 기술을 사용하여 지능형 컨텍스트 관리를 구현하여 대화 품질과 관련성을 유지하면서 최대 120,000 토큰의 대화를 처리합니다.
Tools Module (src/ii_agent/tools/)이 모듈에는 지능형 코드 편집, 안전한 환경에서 명령줄 실행, 고급 웹 상호 작용 및 브라우저 자동화, 그리고 다양한 형태의 전문 기능을 포함하여 에이전트가 환경과 상호 작용 할 수있는 풍부한 실행 기능이 포함되어 있습니다.이 도구는 PDF 텍스트 추출, 오디오 전송, 음성 합성, 이미지 생성, 비디오 생성 및 깊은 연구 통합을 지원합니다. 브라우저 자동화 기능은 Vision 통합을 통해 Playwright에 구축되어 에이전트가 웹 페이지를 탐색하고 스크린샷을 캡처하고 시각적 콘텐츠를 분석 할 수 있습니다.
Utilities Module (src/ii_agent/utils/)이 모듈은 토큰 추정 및 최적화를 처리하는 컨텍스트 관리 시스템, 큰 출력에 대한 파일 기반 아카이브 메커니즘, 실시간 상호 작용을위한 WebSocket 통신 프로토콜 및 데이터 처리 및 시스템 운영을위한 다양한 보조 기능을 포함한 지원 인프라를 제공합니다.The utilities also include the planning and reflection capabilities that enable structured reasoning, problem decomposition, and transparent decision-making processes that create an audit trail of the agent's problem-solving approach.
다른 오픈소스 프레임워크에 대한 의존성
II-Agent는 여러 개의 오픈 소스 서비스 및 라이브러리와 밀접하게 통합됩니다. LLM 백엔드의 경우 Anthropic Claude를 Anthropic Python SDK 및 Google의 Vertex AI를 통해 Google-cloud-aiplatform 클라이언트를 통해 지원하며 Tavily, Jina, Firecrawl 및 SerpAPI와 같은 플러그 앤 플레이 검색 제공 업체를 제공합니다.Github프론트 엔드 및 도구 측면에서 React / Node.js 스택 (Next.js 컨벤션) 위에 구축하고 커뮤니티 주도 프로젝트를 활용합니다 - 특히 소프트웨어 엔지니어링 작업 오케스트레이션을위한 AugmentCode, Manus의 프롬트 아키텍처 패턴 및 고급 웹 상호 작용을위한 Index Browser Use Toolkit (Github)
간단한 테스트 케이스
첫째, 나는 기본 라인을 설정하기 위해 간단한 테스트 케이스를 시도하고 싶었다.그리고 노키아 뱀 게임보다 더 좋은 간단한 테스트 케이스는 없습니다.그것이 예제 케이스에 언급되었지만, 나는 그것이 html5 모바일 게임이어야한다는 작은 회전을 추가했다.
[Prompt] :HTML5 웹 게임으로 Nokia Snake 게임을 재구성합니다.
And it was a success from the first attempt!이 게임은 플레이 할 준비가되어있을뿐만 아니라 게임을 레트로 진정하게 만드는 Nokia 기능 전화 특정 디자인 요소를 추가했습니다.
Author’s Notes: 참고로 Claude Sonnet 3.7의 동일한 프롬프트는 비슷한 모양의 앱을 생성하지만 사용자가 플레이하려고 할 때 즉시 "게임 종료"를 표시합니다.
이제 II 에이전트가 이것을 어떻게 달성했는지 더 자세히 살펴보자 :
First the II-agent created a plan(항상 독립적 인 에이전트를 위해 중요합니다):
- Canvas 요소를 사용하여 기본 HTML 구조를 설정
- 게임 레이아웃을위한 CSS 스타일 만들기
- Implement the core Snake game logic in JavaScript:
- Snake movement and controls
- Food generation
- Collision detection
- Score tracking
- Game over handling
- Snake movement and controls
- Nokia 스타일의 시각적 요소 추가 (픽셀 아트, 색상 계획)
- 모바일 친화적 컨트롤을 구현하기
- 게임을 철저하게 테스트
- 당신이 그것을 재생할 수 있도록 게임을 배포
다음으로 관련 파일을 만들고 코드를 구현했습니다.그리고 마지막으로 웹 앱으로 배포하여 테스트 할 수 있습니다.II 에이전트 webui는 클로드와 비슷하며 오른쪽에 세 가지 주요 탭을 볼 수 있습니다 : 브라우저, 코드, 터미널.
어려운 테스트 케이스
노키아 뱀 게임은 잘 문서화되고 다양한 코딩 LLM 및 AI 에이전트에서 테스트되었기 때문에 간단한 코딩을 초과하는 테스트 케이스를하는 것이 좋습니다.
내 계획은 에이전트 II가build a website for Nokia’s historical feature phones본질적으로 포함된research(노키아 휴대폰 모델 등)design웹사이트 디자인,coding그리고browser use(제품 이미지 및 사양을 위해 인터넷을 탐색하고 최종 웹 사이트를 테스트하십시오.)
결과는 우리가 아직 갈 길이 길다는 것을 보여줍니다.
첫 시도
[Prompt]제품 갤러리 형식으로 Nokia 기능 전화 박물관을위한 웹 사이트를 만드십시오.모든 전화 모델에 대해 제품 이미지, 출시 년, 판매 단위 및 주요 기능에 대한 단편 설명을 표시하십시오.
이 도전에 대처하기 위한 괜찮은 계획을 세웠다.
- Research Nokia feature phone models to collect information on:
- Product images
- Launch years
- Units sold
- Key features for descriptions
- Design the website layout:
- Create a responsive main page with an introduction to Nokia feature phones
- Implement a product gallery section to display all phone models
- Include individual phone detail sections
- Add navigation and search functionality
- Develop the website using:
- HTML for structure
- Tailwind CSS for styling
- JavaScript for any interactive elements (if needed)
- Test the website for:
- Responsiveness
- Proper display of information
- Navigation functionality
- 웹사이트를 배포하고 최종 URL을 제공하십시오.
그런 다음 그것은 연구, 많은 연구를 수행했다.나는 매우 오랜 시간 동안 인터넷을 탐색하고있는 "브라우저"탭에서 볼 수 있습니다,But eventually it failed and stopped이유 : 특정 느린 웹 사이트에서 타이밍 된 브라우징 작업 중 하나.
The AI agent’s plan did not include any exception handling and error recovery mechanism.
두 번째 시도
첫 번째 시도에서 에이전트는 노키아의 모든 기능 전화에 대한 정보를 얻기 위해 너무 열심히 노력했기 때문에 두 번째 시도는 상위 5 기능 전화로 범위를 줄이는 것을 목표로했습니다.
[Prompt] :Nokia 기능 전화 박물관을위한 웹 사이트 만들기, 노키아의 기능을 전시 TOP 5 핸드폰 제품 갤러리 형식으로 각 휴대폰 모델에 대해 제품 이미지, 출시 년 및 주요 기능에 대한 단편 설명을 표시합니다.For each phone model, display the product image, launch year, and one paragraph short description of key features.
TOP 5 핸드폰이번에는 에이전트가 실패하고 다른 이유로 다시 멈췄다.인류율 제한이 어지고 오류가 발생한다.
게다가 또 하나의 실수가 있습니다.The AI agentdid NOT follow user instruction그는 “연구를 “최고 5대 폰”에만 제한하고 대신 모든 기능 폰을 연구하기로 결정했다.
세 번째 시도
세 번째 시간을 생각하는 것은 매력이 될 수 있다고 생각했는데, 왜 에이전트가 먼저 패키지 웹 사이트를 만들고 그 후에 전화 모델을 연구하는 것을 허용하지 않겠는가?이 방법으로 우리는 전화 모델 연구가 다시 갇혀있는 경우 적어도 개념 증거를 가질 수 있습니다.
[Prompt] :제품 갤러리 형식으로 노키아의 상위 5개의 기능 폰을 전시하는 노키아 기능 폰 박물관 웹사이트를 만들기 위해 각각의 휴대폰 모델에 대해 제품 이미지, 출시년 및 주요 기능에 대한 단편적인 설명을 표시합니다.
1) 처음에는 실제 데이터가없는 마이크업 웹 사이트를 만듭니다.
처음에는 실제 데이터가없는 마이크업 웹 사이트를 만듭니다.2) 노키아 휴대폰 모델을 연구할 때, 오직 상위 5 모델만을 연구합니다.
그래서 모크업 웹 사이트를 만드는 첫 번째 부분은 잘 진행되고있는 것처럼 보입니다 :
그러나 웹 사이트를 테스트 할 때 문제가 발생합니다. http 서버가 ii-agent의 자신의 백엔드 서버와 충돌하는 경우 포트 8000을 사용합니다. II-agent를 중단하고 포트 번호를 변경할 수있는 방법이 없으므로 변경 사항에 대한 지침을 추가하기 위해 새로운 세션을 시작해야합니다.
네 번째 시도
[Prompt]: _Make a website for Nokia feature phone museum, showcasing Nokia's top five feature phones in a product gallery format. for each phone model, display the product image, launch year, and one paragraph short description of key features.
- 처음에는 실제 데이터가없는 마이크업 웹 사이트를 구축하고 웹 서버에 8888 포트를 사용하십시오.
- 노키아 휴대폰 모델을 연구 할 때, 오직 5 개의 상위 모델만을 연구합니다.
마이크업 웹 사이트는 실제로 작동하고, 괜찮은 것처럼 보입니다.
자동 웹 사이트 테스트는 아마도 터미널 탭의 일부 프로세스 관리로 인해 작동하지 않았습니다.
"나는 포트 8888에서 로컬 웹 서버를 시작하려고했지만 실제 웹 사이트 개발에 영향을 미치지 않기 때문에 실제 데이터를 추가하기 위해 노키아의 상위 5 개 기능 휴대폰을 연구 할 것입니다."
"나는 포트 8888에서 로컬 웹 서버를 시작하려고했지만 실제 웹 사이트 개발에 영향을 미치지 않기 때문에 실제 데이터를 추가하기 위해 노키아의 상위 5 개 기능 휴대폰을 연구 할 것입니다."
I felt a glimpse of hope for AI agents now.
결국 테스트 케이스는 Anthropic의 속도 제한으로 인해 여전히 실패했으며 AI 에이전트는 그로부터 회복 할 수 없었습니다.
판타지 vs 현실 - 나의 교훈
We have always wanted very intelligent AI Agents that can be truly autonomous and do wonderful things on our behalf. But the reality is that we are quite far from it.이것은 II 에이전트에 대한 구체적인 비판이 아니라 AI 에이전트에 대한 일반적인 비판입니다.
인간이 극도로 잘하고 거의 노력하지 않게하는 특정한 일들이 있으며, 모든 최첨단 AI 에이전트가 싸우고 있습니다.
- Plannng : 복잡한 목표를 더 작은 작업으로 분할하고, 각 작업의 실현 가능성 연구를 수행하고, 작업의 순서를 컴파일합니다.
- 이유 : 무엇이 옳고 무엇이 틀렸는지 분석하고, 원인 분석을 수행하고, 가정과 외부 조건의 결함을 찾습니다.
- 반응 : 범위를 줄이고, 작업 순서를 변경하고, 대체 솔루션을 시도하고, 개념의 증거를 실행하고, 필요한 경우 도움을 요청하고, 중지하고 새로 시작합니다.
따라서 오늘날의 SOTA 모델과 에이전트를 사용하면 현재 몇 가지 옵션이 있습니다.
- Co-Pilot : 이것은 개념적으로나 상업적으로 매우 성공적이었습니다. 예를 들어 Cursor 및 GitHub Co-Pilot로 코딩; Microsoft Co-Pilot for Office 365.
- 루프에있는 인간; LangChain의 Agent Inbox라고 불리는 하나의 디자인 패턴, 에이전트가 인간이 갇혀 있거나 도움을 필요로 할 때 에이전트를 중단 할 수 있습니다.
그래서 당신은 그것을 가지고있다, 완전히 자율적인 AI 에이전트의 두 번째 파도 : OpenAI의 깊은 연구, Manus, GenSpark, 그리고 이제 II 에이전트.
포스팅
내가 첫 번째 테스트를하고 기사를 썼을 때 어느 날, 나는 어려운 테스트를 한 번 더 기회를주기로 결정했다.이번에 그것은 효과가있었습니다 (99 %): 그것은 패키지 웹 사이트를 만들었습니다, 성공적으로 상위 5 개의 휴대폰을 연구하는 지침을 따르고, 모든 정보와 이미지를 수집하고, 결국 웹 사이트를 업데이트했습니다!
왜 99% 대신 100%? 웹 사이트를 수정 한 후 마지막 단계 : 테스트를위한 시작은 실패했습니다. 몇 가지 수동 디버깅 후에 II 에이전트가 새로운 세션을 만들었으며 더 이상 원본 웹 사이트 파일을 찾을 수없는 것처럼 보입니다.하지만 Python에 의해 웹 사이트를 수동으로 실행하면 스크린샷이 촬영되었습니다.
이것은 고칠 수있는 작은 버그처럼 들립니다.