Introduktion För några dagar sedan slog ännu en AI-agent. Det är magnifikt kallat "Intelligent Internet" eller II-agent, som hävdar att det är världens smartaste men ändå helt öppen källkod! hur staplas det upp till andra AI-agenter som och och ? Självständig agent Öppna djup forskning Manus Gävlepark I den här artikeln kommer vi inte bara att svara på ovanstående frågor, utan också utföra några verkliga testfall för att se om sådana AI-agenter verkligen levererar. Enligt II-agenten , det slår andra stängda källkod AI-agenter i GAIA-poäng. Officiell bloggpost Författarens anteckningar: GAIA är ett riktmärke för allmänna AI-assistenter som föreslår verkliga frågor som kräver grundläggande förmågor som resonemang, multi-modalitetshantering, webbläsning och verktygsanvändning - frågor som är konceptuellt enkla för människor men utmanande för de flesta avancerade AI, med mänskliga respondenter som uppnår 92% noggrannhet jämfört med bara 15% för GPT-4 utrustade med plugins. Vad är en II-agent Unika egenskaper och prestationer II-Agent är en öppen källkod intelligent assistent ram som toppar riktmärken för tillgängliga agenter samtidigt som fullständig transparens och granskningsbarhet upprätthålls. Dess kärnfunktioner spänner forskning och faktakontroll med flera steg webbsökning, innehållsgenerering inklusive blogginlägg och tekniska handböcker, dataanalys med automatiserad rapportering, mjukvaruutveckling över flera språk, arbetsflödesautomatisering och avancerad problemlösning. Systemet har sofistikerad arkitektur med Anthropics Claude 3.7 Sonnet i sin kärna, intelligent kontexthantering som kan hantera upp till 120 000 tokens, avancerad webbläsarautomation med visionskapaciteter och realtidskommunikation WebSocket för interaktiva användningsfall. Konkurrenskraftig position gentemot ledande ramverk: II-Agent positionerar sig som ett överlägset öppen källkod alternativ till ledande slutna källkodsagenter som Manus (som uppnådde 65% på GAIA benchmark) och GenSpark AI. Medan tidigare öppen källkodsförsök som OpenManus av Foundation Agent och Suna av Kortix-AI "har försökt att replikera möjligheterna hos Manus och GenSpark", har ingen "kommit nära att matcha sin prestanda eller uppnå jämförbara benchmark resultat". II-Agent tar itu med denna klyfta genom att inte bara matcha utan överträffa referensprestanda samtidigt som de kritiska fördelarna med att vara öppen källkod, transparent och utökningsbar – kvaliteter som anses nödvändiga för reglerade branscher och maximal adoption. Exempel på användningsfall Teknisk arkitektur Du kan hitta II-agent's github repository . här Arkitektur på hög nivå II-Agent tillhandahåller två primära gränssnitt: ett kommandoradsverktyg (cli.py) för direkta terminalbaserade interaktioner och en WebSocket-server (ws_server.py) som matar en React-baserad frontend som bor i frontend / katalog ( I hjärtat ligger en modulär agentkärna i src/ii_agent/, som orkestrerar LLM-samtal (via llm/klienterna), hanterar planerings- och reflektionslogik och skickar utförandeuppgifter (definierade i verktyg/) samtidigt som man utnyttjar delade verktyg från utils/ ( ). realtidskommunikation uppnås genom WebSockets, med isolerade agentinstanser som strömmar händelser till webbläsarens användargränssnitt för en responsiv användarupplevelse ( och ) GitHub GitHub GitHub Detaljerad intern arkitektur Låt mig undersöka de specifika modulerna inom II-Agent-lagringsstrukturen närmare. : Den här modulen innehåller de kärnagentimplementeringarna som fungerar som den centrala orkestreringskomponenten, som hanterar agentens operativa cykel genom iterativ resonemang och förmågaval.Agenterna hanterar systemuppmaningar med dynamiskt skräddarsydda sammanhang, upprätthåller en omfattande interaktionshistorik och samordnar med LLM för att tolka användarinstruktioner och bestämma hur man ska gå vidare med uppgifter. Agents Module (src/ii_agent/agents/) Denna modul ger gränssnittsskiktet för interaktion med stora språkmodeller, speciellt optimerat för Anthropics Claude 3.7 Sonnet. Den hanterar både direkt Anthropic API-åtkomst och Google Cloud Vertex AI-routing, hantering av autentisering, begäran formatering och svarsbehandling. Modulen implementerar intelligent kontexthantering med token användnings uppskattning och strategiska trunkeringstekniker för att hantera konversationer upp till 120 000 tokens samtidigt som konversationskvalitet och relevans bibehålls. LLM Interface Module (src/ii_agent/llm/) Denna modul omfattar den rika uppsättningen exekveringsfunktioner som gör det möjligt för agenten att interagera med sin miljö, inklusive filsystemoperationer med intelligent kodredigering, kommandoradsutförande i säkra miljöer, avancerad webbinteraktion och webbläsarautomation och specialiserade funktioner för olika modaliteter. Verktygen stöder PDF-textutvinning, ljudtranscription, talsyntes, bildgenerering, videogenerering och djupforskningsintegrering. Tools Module (src/ii_agent/tools/) Denna modul ger stödjande infrastruktur inklusive det sammanhangshanteringssystem som hanterar token uppskattning och optimering, filbaserade arkivmekanismer för stora utgångar, WebSocket kommunikationsprotokoll för realtidsinteraktion, och olika hjälpfunktioner för databehandling och systemoperationer. Utilities Module (src/ii_agent/utils/) Beroende av andra open-source-ramverk II-Agent integreras tätt med flera öppna källkodstjänster och bibliotek. För sina LLM-backends stöder den Anthropic Claude via Anthropic Python SDK och Googles Vertex AI via google-cloud-aiplatform-klienten, samtidigt som den erbjuder plug-and-play-sökleverantörer som Tavily, Jina, Firecrawl och SerpAPI ( På frontend- och verktygssidan bygger den på toppen av en React/Node.js-stack (Next.js-konventioner) och utnyttjar samhällsdrivna projekt - främst AugmentCode för programvaruteknikuppgiftsorkestrering, Manus' prompt-arkitekturmönster och Index Browser Use toolkit för avancerade webbinteraktioner ( och ) GitHub GitHub Lätt testfall Först ville jag prova ett enkelt testfall för att etablera en baslinje. Och det finns inget bättre enkelt testfall än spelet Nokia Snake. Även om det nämndes i sina exempelfall, lade jag till en liten twist att det borde vara ett html5 mobilspel. [ ] : Prompt Återskapa Nokia Snake-spelet som ett html5-webbspel Inte bara spelet är redo att spela, det har lagt till Nokia funktioner telefon specifika designelement som gjorde spelet retro autentisk. And it was a success from the first attempt!   Author’s Notes: Som en referens, samma prompt i Claude Sonnet 3.7 producerar liknande utseende app, men det visar omedelbart "Game Over" när en användare försöker spela. Låt oss nu ta en närmare titt på hur agent II uppnådde detta: (Alltid viktigt för autonoma agenter): First the II-agent created a plan 
 
 
 
 
 
 
 
 Ställ in den grundläggande HTML-strukturen med ett canvas-element Skapa CSS-stilar för spelets layout Implement the core Snake game logic in JavaScript:
 
 
 
 
 
 
 
 
 Snake movement and controls Food generation Collision detection Score tracking Game over handling Snake movement and controls Lägga till Nokia-stil visuella element (pixel konst, färgschema) Implementera mobilvänliga kontroller Testa spelet noggrant Utveckla spelet så att du kan spela det Sedan skapade den de relevanta filerna och implementerade koden. Och slutligen distribuerar den som en webbapp så att jag kan testa den. II-agent webui är lik Claude, där du kan se tre huvudflikar på höger sida: Webbläsare, kod, terminal. Svårt testfall Eftersom spelet Nokia Snake är väldokumenterat och testat i många olika kodning LLM och AI Agents, skulle det vara bra att göra ett testfall som går utöver enkel kodning. Min plan är att låta den II-agenten som i sig innefattar (Nokia har flera olika telefonmodeller) (webbplatser som är designade) och (surfa på Internet för produktbilder och specifikationer, testa den slutliga hemsidan). build a website for Nokia’s historical feature phones research design coding browser use Resultatet visar att vi fortfarande har en lång väg att gå. Första försöket [ ] är Prompt Skapa en webbplats för Nokia feature phone museum, som visar alla Nokia feature phones i ett produktgalleri format. För varje telefonmodell, visa produktbilden, lanseringsår, sålda enheter och ett stycke kort beskrivning av nyckelfunktioner. Det skapade en anständig plan för att ta itu med denna utmaning 
 
 
 
 
 
 Research Nokia feature phone models to collect information on:
 
 
 
 
 
 
 Product images Launch years Units sold Key features for descriptions Design the website layout:
 
 
 
 
 
 
 Create a responsive main page with an introduction to Nokia feature phones Implement a product gallery section to display all phone models Include individual phone detail sections Add navigation and search functionality Develop the website using:
 
 
 
 
 
 HTML for structure Tailwind CSS for styling JavaScript for any interactive elements (if needed) Test the website for:
 
 
 
 
 
 Responsiveness Proper display of information Navigation functionality Implementera webbplatsen och ge dig den slutliga URL Sedan gick det vidare att göra forskning, en hel del forskning. jag kan se från fliken "Browser" som är surfar på Internet under en mycket lång tid, Anledningen? en av de surfande uppgiften timed ut på en viss långsam webbplats. But eventually it failed and stopped The AI agent’s plan did not include any exception handling and error recovery mechanism. Andra försöket Eftersom i det första försöket försökte agenten för hårt för att få information om ALLA Nokia-funktionella telefoner, Mitt andra försök syftade till att minska räckvidden till topp 5 funktionella telefoner. [ ] :     Prompt Skapa en webbplats för Nokias telefonmuseum, som visar Nokias Topp 5 mobiltelefoner För varje telefonmodell visas produktbilden, lanseringsåret och en kort beskrivning av nyckelfunktionerna i ett stycke. Topp 5 mobiltelefoner Den här gången agenten misslyckades och stannade igen, på grund av en annan anledning. Anthropic rate limit kicks in, och kastar ett misstag. Återigen AI agenten inte har något undantag överföring och återhämtning mekanism, Dessutom finns det ett annat tydligt fel. AI-agenten "Begränsa forskningen till bara "Top 5 telefoner", och istället gå ut på att undersöka alla funktionella telefoner. did NOT follow user instruction Tredje försöket Att tänka tredje gången kan vara en charm, tänkte jag varför inte låta agenten skapa mockup-webbplatsen först, och sedan undersöka telefonmodellerna? På så sätt kan vi ha åtminstone ett Proof of Concept i händelse av att telefonmodellforskningen fastnar igen. [ ] : Prompt Skapa en webbplats för Nokia feature phone museum, som visar Nokias fem bästa funktionella telefoner i ett produktgalleriformat. För varje telefonmodell, visa produktbilden, lanseringsåret och ett stycke kort beskrivning av nyckelfunktioner.   1) är Först bygga en mockup webbplats utan riktiga data Först bygga en mockup webbplats utan riktiga data 2) När du undersöker Nokia-telefonmodeller, undersöker du bara de fem bästa modellerna, bara 5 Så den första delen av att skapa mock-up-webbplatsen verkar gå bra: Men när det är dags att testa webbplatsen finns det ett problem. Den använder port 8000 för http-serverkonflikter med ii-agents egna backend-server.Eftersom det inte finns något sätt att avbryta II-agenten och ändra portnumret på flyget, måste jag starta en ny session för att lägga till instruktioner om ändringarna. Fjärde försöket [ ]: _Skapa en webbplats för Nokia feature phone museum, som visar Nokias fem bästa funktionella telefoner i ett produktgalleriformat. För varje telefonmodell, visa produktbilden, lanseringsåret och ett stycke kort beskrivning av nyckelfunktioner. Prompt 
 
 
 Först bygga en mockup webbplats utan riktiga data, använd port 8888 för webbservern När du undersöker Nokia-telefonmodeller, undersöker du bara de fem bästa modellerna, bara 5 Mock-up-webbplatsen fungerar faktiskt, och ser anständig ut. Den automatiserade webbtestningen fungerade inte, förmodligen på grund av någon processhantering i fliken Terminal. 
 
 "Jag försökte starta en lokal webbserver på port 8888, men jag upplever några problem med det. Detta påverkar inte den faktiska webbplatsutvecklingen, eftersom jag nu kommer att fortsätta att undersöka Nokias topp 5 funktionstelefoner för att lägga till de faktiska data." "Jag försökte starta en lokal webbserver på port 8888, men jag upplever några problem med det. Detta påverkar inte den faktiska webbplatsutvecklingen, eftersom jag nu kommer att fortsätta att undersöka Nokias topp 5 funktionstelefoner för att lägga till de faktiska data." I felt a glimpse of hope for AI agents now. I slutändan misslyckades testfallet fortfarande, igen på grund av Anthropics hastighetsgräns och AI-agenten kunde inte återhämta sig från det. Fantasy vs Reality - mina lärdomar Detta är inte en specifik kritik av II-agent, men AI-agenter i allmänhet. We have always wanted very intelligent AI Agents that can be truly autonomous and do wonderful things on our behalf. But the reality is that we are quite far from it. Det finns vissa saker som människor gör extremt bra och nästan utan ansträngning, medan alla toppmoderna AI-agenter kämpar. 
 
 
 
 Plannng: bryta ner komplexa mål i mindre uppgifter, genomföra genomförbarhetsstudie av varje uppgift, sammanställa sortering av uppgifter Argumentation: analysera vad som gick rätt och vad som gick fel, utföra orsaksanalys, leta efter brister i antaganden och yttre förhållanden Reaktion: minska räckvidd, ändra ordning på uppgifter, prova alternativa lösningar, köra bevis på begrepp, be om hjälp när det behövs, stoppa och starta om från nytt Så med dagens SOTA-modeller och agenter har vi några alternativ just nu: 
 
 
 Co-Pilot: detta visar sig vara mycket framgångsrik både konceptuellt och kommersiellt. till exempel, kodning med Cursor och GitHub Co-Pilot; Microsoft Co-Pilot för Office 365. Människan i slingan; ett designmönster som heter Agent Inbox av LangChain, där agenten kan avbryta människor när de är fast eller behöver hjälp. Så där har du det, den andra vågen av helt autonom AI-agent: från OpenAI: s Deep Research, Manus, GenSpark och nu till II-agent. Postskriven En dag efter att jag gjorde de första testerna och skrev artikeln bestämde jag mig för att ge det svåra testet en chans till. Den här gången fungerade det (99%): det skapade mock-up-webbplatsen, följde framgångsrikt instruktionerna för att undersöka de 5 bästa telefonerna, samlade all info och bilder och uppdaterade slutligen webbplatsen! Varför 99% istället för 100%? Det sista steget efter att ha ändrat webbplatsen: lanseringen för testning misslyckades. Efter lite manuell felsökning verkar det som att II-agenten skapade en ny session och inte längre kan hitta de ursprungliga webbplatsfilerna. Det här låter som en liten bugg som kan åtgärdas.

AI + web3

Read My Stories

Disrupt networking with blockchain

Det här ljudet är producerat på berättelsens originalspråk!

Öppen källkod AI Agent II tar ledningen i Benchmark Wars - Men är det verkligen självständigt?

About Author

KOMMENTARER

HÄNG TAGGAR

DENNA ARTIKEL PRESENTERAS I

Related Stories

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps