143 avläsningar

Öppen källkod AI Agent II tar ledningen i Benchmark Wars - Men är det verkligen självständigt?

förbi Bruce Li10m2025/05/28
Read on Terminal Reader

För länge; Att läsa

En första titt och hands-on test av II-agent, hävdade att vara den smartaste autonoma AI Agent på marknaden.
featured image - Öppen källkod AI Agent II tar ledningen i Benchmark Wars - Men är det verkligen självständigt?
Bruce Li HackerNoon profile picture


Introduktion

För några dagar sedan slog ännu en AI-agent. Det är magnifikt kallat "Intelligent Internet" eller II-agent, som hävdar att det är världens smartaste men ändå helt öppen källkod!Självständig agenthur staplas det upp till andra AI-agenter somÖppna djup forskningochManusochGävlepark?

I den här artikeln kommer vi inte bara att svara på ovanstående frågor, utan också utföra några verkliga testfall för att se om sådana AI-agenter verkligen levererar.

Enligt II-agentenOfficiell bloggpost, det slår andra stängda källkod AI-agenter i GAIA-poäng.


Författarens anteckningar: GAIA är ett riktmärke för allmänna AI-assistenter som föreslår verkliga frågor som kräver grundläggande förmågor som resonemang, multi-modalitetshantering, webbläsning och verktygsanvändning - frågor som är konceptuellt enkla för människor men utmanande för de flesta avancerade AI, med mänskliga respondenter som uppnår 92% noggrannhet jämfört med bara 15% för GPT-4 utrustade med plugins.

Vad är en II-agent

Unika egenskaper och prestationer

II-Agent är en öppen källkod intelligent assistent ram som toppar riktmärken för tillgängliga agenter samtidigt som fullständig transparens och granskningsbarhet upprätthålls. Dess kärnfunktioner spänner forskning och faktakontroll med flera steg webbsökning, innehållsgenerering inklusive blogginlägg och tekniska handböcker, dataanalys med automatiserad rapportering, mjukvaruutveckling över flera språk, arbetsflödesautomatisering och avancerad problemlösning.

Systemet har sofistikerad arkitektur med Anthropics Claude 3.7 Sonnet i sin kärna, intelligent kontexthantering som kan hantera upp till 120 000 tokens, avancerad webbläsarautomation med visionskapaciteter och realtidskommunikation WebSocket för interaktiva användningsfall.

Konkurrenskraftig position gentemot ledande ramverk:

II-Agent positionerar sig som ett överlägset öppen källkod alternativ till ledande slutna källkodsagenter som Manus (som uppnådde 65% på GAIA benchmark) och GenSpark AI. Medan tidigare öppen källkodsförsök som OpenManus av Foundation Agent och Suna av Kortix-AI "har försökt att replikera möjligheterna hos Manus och GenSpark", har ingen "kommit nära att matcha sin prestanda eller uppnå jämförbara benchmark resultat".

II-Agent tar itu med denna klyfta genom att inte bara matcha utan överträffa referensprestanda samtidigt som de kritiska fördelarna med att vara öppen källkod, transparent och utökningsbar – kvaliteter som anses nödvändiga för reglerade branscher och maximal adoption.

Exempel på användningsfall


Teknisk arkitektur

Du kan hitta II-agent's github repositoryhär.

Arkitektur på hög nivå

II-Agent tillhandahåller två primära gränssnitt: ett kommandoradsverktyg (cli.py) för direkta terminalbaserade interaktioner och en WebSocket-server (ws_server.py) som matar en React-baserad frontend som bor i frontend / katalog (GitHubI hjärtat ligger en modulär agentkärna i src/ii_agent/, som orkestrerar LLM-samtal (via llm/klienterna), hanterar planerings- och reflektionslogik och skickar utförandeuppgifter (definierade i verktyg/) samtidigt som man utnyttjar delade verktyg från utils/ (GitHub). realtidskommunikation uppnås genom WebSockets, med isolerade agentinstanser som strömmar händelser till webbläsarens användargränssnitt för en responsiv användarupplevelse (GitHuboch )


Detaljerad intern arkitektur

Låt mig undersöka de specifika modulerna inom II-Agent-lagringsstrukturen närmare.


Agents Module (src/ii_agent/agents/): Den här modulen innehåller de kärnagentimplementeringarna som fungerar som den centrala orkestreringskomponenten, som hanterar agentens operativa cykel genom iterativ resonemang och förmågaval.Agenterna hanterar systemuppmaningar med dynamiskt skräddarsydda sammanhang, upprätthåller en omfattande interaktionshistorik och samordnar med LLM för att tolka användarinstruktioner och bestämma hur man ska gå vidare med uppgifter.

LLM Interface Module (src/ii_agent/llm/)Denna modul ger gränssnittsskiktet för interaktion med stora språkmodeller, speciellt optimerat för Anthropics Claude 3.7 Sonnet. Den hanterar både direkt Anthropic API-åtkomst och Google Cloud Vertex AI-routing, hantering av autentisering, begäran formatering och svarsbehandling. Modulen implementerar intelligent kontexthantering med token användnings uppskattning och strategiska trunkeringstekniker för att hantera konversationer upp till 120 000 tokens samtidigt som konversationskvalitet och relevans bibehålls.

Tools Module (src/ii_agent/tools/)Denna modul omfattar den rika uppsättningen exekveringsfunktioner som gör det möjligt för agenten att interagera med sin miljö, inklusive filsystemoperationer med intelligent kodredigering, kommandoradsutförande i säkra miljöer, avancerad webbinteraktion och webbläsarautomation och specialiserade funktioner för olika modaliteter. Verktygen stöder PDF-textutvinning, ljudtranscription, talsyntes, bildgenerering, videogenerering och djupforskningsintegrering.

Utilities Module (src/ii_agent/utils/)Denna modul ger stödjande infrastruktur inklusive det sammanhangshanteringssystem som hanterar token uppskattning och optimering, filbaserade arkivmekanismer för stora utgångar, WebSocket kommunikationsprotokoll för realtidsinteraktion, och olika hjälpfunktioner för databehandling och systemoperationer.

Beroende av andra open-source-ramverk

II-Agent integreras tätt med flera öppna källkodstjänster och bibliotek. För sina LLM-backends stöder den Anthropic Claude via Anthropic Python SDK och Googles Vertex AI via google-cloud-aiplatform-klienten, samtidigt som den erbjuder plug-and-play-sökleverantörer som Tavily, Jina, Firecrawl och SerpAPI (GitHubPå frontend- och verktygssidan bygger den på toppen av en React/Node.js-stack (Next.js-konventioner) och utnyttjar samhällsdrivna projekt - främst AugmentCode för programvaruteknikuppgiftsorkestrering, Manus' prompt-arkitekturmönster och Index Browser Use toolkit för avancerade webbinteraktioner (GitHuboch )

Lätt testfall

Först ville jag prova ett enkelt testfall för att etablera en baslinje. Och det finns inget bättre enkelt testfall än spelet Nokia Snake. Även om det nämndes i sina exempelfall, lade jag till en liten twist att det borde vara ett html5 mobilspel.

[Prompt] :Återskapa Nokia Snake-spelet som ett html5-webbspel

And it was a success from the first attempt!Inte bara spelet är redo att spela, det har lagt till Nokia funktioner telefon specifika designelement som gjorde spelet retro autentisk.

Author’s Notes: Som en referens, samma prompt i Claude Sonnet 3.7 producerar liknande utseende app, men det visar omedelbart "Game Over" när en användare försöker spela.

Låt oss nu ta en närmare titt på hur agent II uppnådde detta:

First the II-agent created a plan(Alltid viktigt för autonoma agenter):

  1. Ställ in den grundläggande HTML-strukturen med ett canvas-element
  2. Skapa CSS-stilar för spelets layout
  3. Implement the core Snake game logic in JavaScript:
    • Snake movement and controls
    • Food generation
    • Collision detection
    • Score tracking
    • Game over handling
    • Snake movement and controls
  4. Lägga till Nokia-stil visuella element (pixel konst, färgschema)
  5. Implementera mobilvänliga kontroller
  6. Testa spelet noggrant
  7. Utveckla spelet så att du kan spela det

Sedan skapade den de relevanta filerna och implementerade koden. Och slutligen distribuerar den som en webbapp så att jag kan testa den. II-agent webui är lik Claude, där du kan se tre huvudflikar på höger sida: Webbläsare, kod, terminal.

Svårt testfall

Eftersom spelet Nokia Snake är väldokumenterat och testat i många olika kodning LLM och AI Agents, skulle det vara bra att göra ett testfall som går utöver enkel kodning.

Min plan är att låta den II-agentenbuild a website for Nokia’s historical feature phonessom i sig innefattarresearch(Nokia har flera olika telefonmodeller)design(webbplatser som är designade)codingochbrowser use(surfa på Internet för produktbilder och specifikationer, testa den slutliga hemsidan).

Resultatet visar att vi fortfarande har en lång väg att gå.

Första försöket

[Prompt] ärSkapa en webbplats för Nokia feature phone museum, som visar alla Nokia feature phones i ett produktgalleri format. För varje telefonmodell, visa produktbilden, lanseringsår, sålda enheter och ett stycke kort beskrivning av nyckelfunktioner.

Det skapade en anständig plan för att ta itu med denna utmaning


  1. Research Nokia feature phone models to collect information on:
    • Product images
    • Launch years
    • Units sold
    • Key features for descriptions
  2. Design the website layout:
    • Create a responsive main page with an introduction to Nokia feature phones
    • Implement a product gallery section to display all phone models
    • Include individual phone detail sections
    • Add navigation and search functionality
  3. Develop the website using:
    • HTML for structure
    • Tailwind CSS for styling
    • JavaScript for any interactive elements (if needed)
  4. Test the website for:
    • Responsiveness
    • Proper display of information
    • Navigation functionality
  5. Implementera webbplatsen och ge dig den slutliga URL

Sedan gick det vidare att göra forskning, en hel del forskning. jag kan se från fliken "Browser" som är surfar på Internet under en mycket lång tid,But eventually it failed and stoppedAnledningen? en av de surfande uppgiften timed ut på en viss långsam webbplats.

The AI agent’s plan did not include any exception handling and error recovery mechanism.

Andra försöket

Eftersom i det första försöket försökte agenten för hårt för att få information om ALLA Nokia-funktionella telefoner, Mitt andra försök syftade till att minska räckvidden till topp 5 funktionella telefoner.

[Prompt] :Skapa en webbplats för Nokias telefonmuseum, som visar Nokias Topp 5 mobiltelefoner För varje telefonmodell visas produktbilden, lanseringsåret och en kort beskrivning av nyckelfunktionerna i ett stycke.

Topp 5 mobiltelefoner

Den här gången agenten misslyckades och stannade igen, på grund av en annan anledning. Anthropic rate limit kicks in, och kastar ett misstag. Återigen AI agenten inte har något undantag överföring och återhämtning mekanism,

Dessutom finns det ett annat tydligt fel. AI-agentendid NOT follow user instruction"Begränsa forskningen till bara "Top 5 telefoner", och istället gå ut på att undersöka alla funktionella telefoner.

Tredje försöket

Att tänka tredje gången kan vara en charm, tänkte jag varför inte låta agenten skapa mockup-webbplatsen först, och sedan undersöka telefonmodellerna? På så sätt kan vi ha åtminstone ett Proof of Concept i händelse av att telefonmodellforskningen fastnar igen.

[Prompt] :Skapa en webbplats för Nokia feature phone museum, som visar Nokias fem bästa funktionella telefoner i ett produktgalleriformat. För varje telefonmodell, visa produktbilden, lanseringsåret och ett stycke kort beskrivning av nyckelfunktioner.

1) är Först bygga en mockup webbplats utan riktiga data

Först bygga en mockup webbplats utan riktiga data

2) När du undersöker Nokia-telefonmodeller, undersöker du bara de fem bästa modellerna, bara 5

Så den första delen av att skapa mock-up-webbplatsen verkar gå bra:



Men när det är dags att testa webbplatsen finns det ett problem. Den använder port 8000 för http-serverkonflikter med ii-agents egna backend-server.Eftersom det inte finns något sätt att avbryta II-agenten och ändra portnumret på flyget, måste jag starta en ny session för att lägga till instruktioner om ändringarna.

Fjärde försöket

[Prompt]: _Skapa en webbplats för Nokia feature phone museum, som visar Nokias fem bästa funktionella telefoner i ett produktgalleriformat. För varje telefonmodell, visa produktbilden, lanseringsåret och ett stycke kort beskrivning av nyckelfunktioner.

  1. Först bygga en mockup webbplats utan riktiga data, använd port 8888 för webbservern
  2. När du undersöker Nokia-telefonmodeller, undersöker du bara de fem bästa modellerna, bara 5

Mock-up-webbplatsen fungerar faktiskt, och ser anständig ut.


Den automatiserade webbtestningen fungerade inte, förmodligen på grund av någon processhantering i fliken Terminal.


"Jag försökte starta en lokal webbserver på port 8888, men jag upplever några problem med det. Detta påverkar inte den faktiska webbplatsutvecklingen, eftersom jag nu kommer att fortsätta att undersöka Nokias topp 5 funktionstelefoner för att lägga till de faktiska data."

"Jag försökte starta en lokal webbserver på port 8888, men jag upplever några problem med det. Detta påverkar inte den faktiska webbplatsutvecklingen, eftersom jag nu kommer att fortsätta att undersöka Nokias topp 5 funktionstelefoner för att lägga till de faktiska data."

I felt a glimpse of hope for AI agents now.

I slutändan misslyckades testfallet fortfarande, igen på grund av Anthropics hastighetsgräns och AI-agenten kunde inte återhämta sig från det.

Fantasy vs Reality - mina lärdomar

We have always wanted very intelligent AI Agents that can be truly autonomous and do wonderful things on our behalf. But the reality is that we are quite far from it.Detta är inte en specifik kritik av II-agent, men AI-agenter i allmänhet.

Det finns vissa saker som människor gör extremt bra och nästan utan ansträngning, medan alla toppmoderna AI-agenter kämpar.

  • Plannng: bryta ner komplexa mål i mindre uppgifter, genomföra genomförbarhetsstudie av varje uppgift, sammanställa sortering av uppgifter
  • Argumentation: analysera vad som gick rätt och vad som gick fel, utföra orsaksanalys, leta efter brister i antaganden och yttre förhållanden
  • Reaktion: minska räckvidd, ändra ordning på uppgifter, prova alternativa lösningar, köra bevis på begrepp, be om hjälp när det behövs, stoppa och starta om från nytt

Så med dagens SOTA-modeller och agenter har vi några alternativ just nu:

  1. Co-Pilot: detta visar sig vara mycket framgångsrik både konceptuellt och kommersiellt. till exempel, kodning med Cursor och GitHub Co-Pilot; Microsoft Co-Pilot för Office 365.
  2. Människan i slingan; ett designmönster som heter Agent Inbox av LangChain, där agenten kan avbryta människor när de är fast eller behöver hjälp.

Så där har du det, den andra vågen av helt autonom AI-agent: från OpenAI: s Deep Research, Manus, GenSpark och nu till II-agent.

Postskriven

En dag efter att jag gjorde de första testerna och skrev artikeln bestämde jag mig för att ge det svåra testet en chans till. Den här gången fungerade det (99%): det skapade mock-up-webbplatsen, följde framgångsrikt instruktionerna för att undersöka de 5 bästa telefonerna, samlade all info och bilder och uppdaterade slutligen webbplatsen!


Varför 99% istället för 100%? Det sista steget efter att ha ändrat webbplatsen: lanseringen för testning misslyckades. Efter lite manuell felsökning verkar det som att II-agenten skapade en ny session och inte längre kan hitta de ursprungliga webbplatsfilerna.

Det här låter som en liten bugg som kan åtgärdas.



Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks