143 čtení

Otevřený zdrojový AI Agent II převezme vedení v benchmarkových válkách - ale je to opravdu autonomní?

podle Bruce Li10m2025/05/28
Read on Terminal Reader

Příliš dlouho; Číst

První pohled a praktické testování II-agent, tvrdí, že je nejchytřejší autonomní AI agent na trhu.
featured image - Otevřený zdrojový AI Agent II převezme vedení v benchmarkových válkách - ale je to opravdu autonomní?
Bruce Li HackerNoon profile picture


Úvodní

Je nádherně pojmenován „Inteligentní internet“ nebo II-agent, tvrdí, že je nejchytřejší na světě, ale plně open source!Autonomní agentJak se vyrovnává s jinými agenty AI, jako jsouOtevřený hluboký výzkum, ,Manuál, aGenetický park?

V tomto článku budeme nejen odpovídat na výše uvedené otázky, ale také provádět několik reálných testovacích případů, abychom zjistili, zda takoví agenti AI skutečně dodávají.

Podle agentů II.Oficiální blogový článek, porazí ostatní uzavřené zdroje AI agentů v skóre GAIA.


Poznámky autora: GAIA je referenční hodnota pro obecné AI asistenty, které navrhují otázky v reálném světě, které vyžadují základní schopnosti, jako je uvažování, multi-modality manipulace, procházení webu a znalosti používání nástrojů - otázky, které jsou koncepčně jednoduché pro lidi, ale náročné pro většinu pokročilých AI, s lidskými respondenty dosáhnout 92% přesnost oproti pouhých 15% pro GPT-4 vybavené pluginy.

Co je II-agent

Unikátní vlastnosti a úspěchy

II-Agent je open-source inteligentní asistentský rámec, který dosahuje nejvyšších standardů pro dostupné agenty při zachování plné transparentnosti a auditovatelnosti. Jeho klíčové schopnosti zahrnují výzkum a ověřování skutečností s vícestupňovým vyhledáváním na webu, tvorbou obsahu včetně návrhů blogů a technických příruček, analýzou dat s automatizovaným vykazováním, vývojem softwaru v několika jazycích, automatizací pracovních postupů a pokročilým řešením problémů.

Systém se vyznačuje sofistikovanou architekturou s Claude 3.7 Sonnet od společnosti Anthropic v jejím jádru, inteligentním řízením kontextu, který dokáže zvládnout až 120 000 tokenů, pokročilou automatizací prohlížeče s možností vidění a komunikací WebSocket v reálném čase pro interaktivní případy použití.

Konkurenční pozice oproti předním rámcům:

II-Agent se umisťuje jako vynikající otevřený zdrojová alternativa k předním uzavřeným zdrojovým agentům, jako je Manus (který dosáhl 65% na referenční hodnotě GAIA) a GenSpark AI. Zatímco předchozí pokusy s otevřeným zdrojovým kódem, jako je OpenManus od nadace Agent a Suna od Kortix-AI „pokoušeli se replikovat schopnosti Manus a GenSpark“, žádný „neprišel blíže k tomu, aby odpovídal jejich výkonu nebo dosáhl srovnatelných referenčních výsledků“.

Společnost II-Agent tuto mezeru řeší nejen tím, že odpovídá, ale překonává referenční výkonnost a zároveň zachovává kritické výhody otevřeného zdroje, transparentnosti a rozšířitelnosti – kvality považované za nezbytné pro regulované průmyslové odvětví a maximální přijetí.

Příklady použití případů


Technická architektura

K dispozici je i GitHub II-agent.zde.

Architektura na vysoké úrovni

II-Agent poskytuje dvě primární rozhraní: nástroj příkazového řádku (cli.py) pro přímé interakce založené na terminálu a server WebSocket (ws_server.py), který krmí frontend založený na React žijící v frontendu / adresáři (GitHubV jeho srdci leží modulární jádro agenta v src/ii_agent/, které orchestruje volání LLM (prostřednictvím llm/ klientů), řeší plánování a reflexní logiku a rozesílá prováděcí úkoly (definované v nástrojích/) při využití sdílených nástrojů z ústrojí/ (GitHubReálná doba komunikace je dosažena prostřednictvím WebSockets, s izolovanými agentovými instancemi streamování událostí do uživatelského rozhraní prohlížeče pro odpovědný uživatelský zážitek (GitHub) se


Detailní vnitřní architektura

Dovolte mi, abych se podrobněji podíval na konkrétní moduly v rámci struktury úložiště II-Agent.


Agents Module (src/ii_agent/agents/)Tento modul obsahuje základní implementace agentů, které slouží jako centrální součást orchestrace, řízení operačního cyklu agenta prostřednictvím iterativního uvažování a výběru schopností.Agenti se zabývají systémovými výzvami s dynamicky přizpůsobeným kontextem, udržují komplexní historii interakcí a koordinují s LLM interpretovat uživatelské pokyny a rozhodovat o tom, jak postupovat s úkoly.Každá instance agenta pracuje v izolovaných pracovních prostorech a spravuje tok od vstupu uživatele přes provedení nástroje až po doručení konečné odpovědi.

LLM Interface Module (src/ii_agent/llm/)Tento modul poskytuje vrstvu rozhraní pro interakci s velkými jazykovými modely, speciálně optimalizovanou pro Anthropic Claude 3.7 Sonnet. Řeší jak přímý přístup k antropickému API, tak i směrování Google Cloud Vertex AI, řízení autentizace, formátování požadavků a zpracování odpovědí. Modul implementuje inteligentní řízení kontextu s odhadem využití tokenů a strategickými technikami truncace pro zvládnutí konverzací až do 120 000 tokenů při zachování kvality a relevance konverzace.

Tools Module (src/ii_agent/tools/)Tento modul zahrnuje bohatou sadu výkonnostních schopností, které agentu umožňují interakci s jeho prostředím, včetně operací souborového systému s inteligentní úpravou kódu, provádění příkazového řádku v zabezpečených prostředích, pokročilou webovou interakci a automatizaci prohlížeče a specializované schopnosti pro různé modality. Nástroje podporují extrakci textu PDF, audio transkripci, syntézu řeči, tvorbu obrazu, tvorbu videa a hlubokou integraci výzkumu.

Utilities Module (src/ii_agent/utils/)Tento modul poskytuje podpůrnou infrastrukturu včetně systému řízení kontextu, který se zabývá odhadováním a optimalizací tokenů, archivními mechanismy založenými na souborech pro velké výstupy, komunikačními protokoly WebSocket pro interakci v reálném čase a různými pomocnými funkcemi pro zpracování dat a systémové operace.

Závislost na jiných open-source rámcích

Pro své LLM backendy podporuje Anthropic Claude prostřednictvím Anthropic Python SDK a Google Vertex AI prostřednictvím klienta google-cloud-aiplatform, přičemž nabízí také poskytovatele plug-and-play vyhledávání, jako jsou Tavily, Jina, Firecrawl a SerpAPI (GitHubNa frontendové a nástrojové straně buduje na vrcholu zásobník React/Node.js (konvence Next.js) a využívá komunitně řízené projekty - zejména AugmentCode pro orchestrování úkolů softwarového inženýrství, vzorce prompt-architektury Manus a indexový prohlížeč Použijte nástrojový kit pro pokročilé webové interakce (GitHub) se

Jednoduchý testovací případ

Nejprve jsem chtěl vyzkoušet jednoduchý testovací případ k vytvoření základní linie. A neexistuje lepší jednoduchý testovací případ než hra Nokia Snake. I když to bylo zmíněno ve svých příkladových případech, přidal jsem malý zvrat, že by to měla být html5 mobilní hra.

[Prompt] :Recreační hra Nokia Snake jako webová hra HTML5

And it was a success from the first attempt!Nejen, že hra je připravena k hraní, ale přidala Nokia funkce telefon specifické designové prvky, které udělaly hru retro autentické.

Author’s Notes: Jako referenční, stejný poptávka v Claude Sonnet 3.7 produkovat podobně vypadající aplikace, ale okamžitě ukazuje "Hra končí", když se uživatel pokusí hrát.

Nyní se podívejme podrobněji na to, jak to agent II dosáhl:

First the II-agent created a plan(Vždy důležité pro autonomní agenty):

  1. Vytvořte základní strukturu HTML s prvkem canvas
  2. Vytvoření CSS stylů pro rozložení hry
  3. Implement the core Snake game logic in JavaScript:
    • Snake movement and controls
    • Food generation
    • Collision detection
    • Score tracking
    • Game over handling
    • Snake movement and controls
  4. Přidání vizuálních prvků ve stylu Nokia (pixel art, barevná schéma)
  5. Implementace mobilně přívětivých kontrol
  6. Vyzkoušejte hru důkladně
  7. Vložte hru, abyste si ji mohli zahrát

Poté vytvořil příslušné soubory a implementoval kód. A nakonec ho nasadí jako webovou aplikaci, takže ho mohu otestovat. II-agent webui je podobný Claude, kde můžete vidět tři hlavní karty na pravé straně: prohlížeč, kód, terminál.

Obtížný testovací případ

Vzhledem k tomu, že hra Nokia Snake je dobře zdokumentována a testována v mnoha různých kódovacích LLM a AI Agentech, bylo by dobré udělat testovací případ, který přesahuje jednoduché kódování.

Můj plán je nechat agenta IIbuild a website for Nokia’s historical feature phoneskteré v sobě zahrnujíresearch(Nokia má speciální modely mobilních telefonů)design(nastavení webového designu)coding, abrowser use(procházet internetem pro obrázky produktů a specifikace, vyzkoušet konečné webové stránky).

Výsledky ukazují, že máme ještě dlouhou cestu.

První pokus

[Prompt] seVytvořte webovou stránku pro Nokia feature phone museum, která představí všechny Nokia feature phones ve formátu produktové galerie.Pro každý model telefonu zobrazte obrázek produktu, rok uvedení na trh, prodané jednotky a jeden odstavec krátký popis klíčových funkcí.

Vytvořil slušný plán pro řešení této výzvy


  1. Research Nokia feature phone models to collect information on:
    • Product images
    • Launch years
    • Units sold
    • Key features for descriptions
  2. Design the website layout:
    • Create a responsive main page with an introduction to Nokia feature phones
    • Implement a product gallery section to display all phone models
    • Include individual phone detail sections
    • Add navigation and search functionality
  3. Develop the website using:
    • HTML for structure
    • Tailwind CSS for styling
    • JavaScript for any interactive elements (if needed)
  4. Test the website for:
    • Responsiveness
    • Proper display of information
    • Navigation functionality
  5. Vytvořte webové stránky a poskytněte vám konečnou adresu URL

Pak to šlo dělat výzkum, hodně výzkumu. vidím z karty „Browser“, která je procházení internetu po velmi dlouhou dobu,But eventually it failed and stoppedJeden z úkolů procházení je načasován na určitém pomalém webu.

The AI agent’s plan did not include any exception handling and error recovery mechanism.

Druhý pokus

Vzhledem k tomu, že v prvním pokusu se agent snažil příliš tvrdě získat informace o všech telefonech Nokia, můj druhý pokus měl za cíl snížit rozsah na top 5 telefonů s funkcemi.

[Prompt] :Vytvořte webové stránky pro muzeum telefonů Nokia, které představí Nokia Top 5 mobilních telefonů Pro každý model telefonu zobrazte obrázek produktu, rok uvedení na trh a stručný popis klíčových funkcí v jednom odstavci.

Top 5 mobilních telefonů

Tentokrát agent selhal a zastavil se znovu, z jiného důvodu. Antropický limit rychlosti vstoupí a hodí chybu. Opět agent AI nemá žádný výjimkový mechanismus předání a zotavení,

Kromě toho existuje další zřetelná chyba. agent AIdid NOT follow user instructionOmezit výzkum pouze na „Top 5 telefonů“ a místo toho jít na výzkum všech funkčních telefonů.

Třetí pokus

Myslím, že třetí čas může být kouzlo, pomyslel jsem si, proč ne ne nejdříve nechat agenta vytvořit mockupovou webovou stránku a pak zkoumat modely telefonů? Tímto způsobem můžeme mít alespoň důkaz konceptu v případě, že se telefonní modelový výzkum znovu zastavuje.

[Prompt] :Vytvořte webovou stránku pro muzeum funkčních telefonů Nokia, které představí pět nejlepších funkčních telefonů Nokia ve formátu produktové galerie. Pro každý model telefonu zobrazte obrázek produktu, rok uvedení na trh a stručný popis klíčových funkcí v jednom odstavci.

1) se Nejprve vytvořte mock-up webové stránky bez reálných dat

Nejprve vytvořte mock-up webové stránky bez reálných dat

2) Při výzkumu modelů telefonů Nokia, výzkum pouze top pět modelů, pouze 5

Takže první část vytváření mock-up webové stránky se zdá, že jde dobře:



Ale když je čas otestovat webové stránky, existuje problém. Používá port 8000 pro http servery, které se střetávají s vlastním backendovým serverem ii-agentů. Vzhledem k tomu, že neexistuje žádný způsob, jak přerušit II-agent a změnit číslo portu na letu, musím spustit novou relaci, abych přidal pokyny o změnách.

Čtvrtý pokus

[Prompt]: Vytvořte webovou stránku pro muzeum funkčních telefonů Nokia, které představí pět nejlepších funkčních telefonů Nokia ve formátu produktové galerie. Pro každý model telefonu zobrazte obrázek produktu, rok uvedení na trh a jeden odstavec s krátkým popisem klíčových funkcí.

  1. Nejprve vytvořte webové stránky bez reálných dat, použijte port 8888 pro webový server
  2. Při výzkumu modelů telefonů Nokia, výzkum pouze top pět modelů, pouze 5

Mock-up webové stránky skutečně funguje, a vypadá slušně.


Automatizované testování webových stránek nefungovalo, pravděpodobně kvůli nějakému řízení procesů na kartě Terminál.


"Pokusil jsem se spustit lokální webový server na portu 8888, ale mám s ním nějaké problémy.To nemá vliv na skutečný vývoj webových stránek, protože nyní budu pokračovat ve výzkumu pěti nejlepších telefonů Nokia, abych přidal skutečné údaje."

"Pokusil jsem se spustit lokální webový server na portu 8888, ale mám s ním nějaké problémy.To nemá vliv na skutečný vývoj webových stránek, protože nyní budu pokračovat ve výzkumu pěti nejlepších telefonů Nokia, abych přidal skutečné údaje."

I felt a glimpse of hope for AI agents now.

Nakonec testovací případ stále selhal, opět kvůli limitu rychlosti společnosti Anthropic a agent AI se z toho nedokázal zotavit.

Fantasy vs. Realita – moje učení

We have always wanted very intelligent AI Agents that can be truly autonomous and do wonderful things on our behalf. But the reality is that we are quite far from it.Nejedná se o konkrétní kritiku agentů II, ale agentů AI obecně.

Existují určité věci, které člověk dělá extrémně dobře a téměř bez námahy, zatímco všichni state-of-the-art agenti AI bojují.

  • Plannng: rozdělení složitých cílů na menší úkoly, provádění studie proveditelnosti každého úkolu, sestavení uspořádání úkolů
  • Rozumění: analyzovat, co šlo správně a co šlo špatně, provádět analýzu kořenových příčin, hledat chyby v předpokladech a vnějších podmínkách
  • Reakce: snížit rozsah, změnit pořadí úkolů, vyzkoušet alternativní řešení, spustit důkaz konceptu, požádat o pomoc v případě potřeby, zastavit a restartovat

Takže s dnešními modely a agenty SOTA máme nyní několik možností:

  1. Co-Pilot: to se ukázalo být velmi úspěšné jak koncepčně, tak komerčně. například, kódování s Cursor a GitHub Co-Pilot; Microsoft Co-Pilot pro Office 365.
  2. Člověk v kruhu; jeden designový vzor nazvaný Agent Inbox by LangChain, kde agent může přerušit lidi, když jsou uvízli nebo potřebují pomoc.

Takže tam máte to, druhá vlna plně autonomního AI agenta: od OpenAI Deep Research, Manus, GenSpark a nyní až po II-agent.

pohlednice

Jednoho dne poté, co jsem udělal první testy a napsal článek, jsem se rozhodl dát obtížnému testu ještě jednu šanci.Tentokrát to fungovalo (99%): vytvořil mock-up webové stránky, úspěšně následoval pokyny pro výzkum top 5 telefonů, shromáždil všechny informace a obrázky a nakonec aktualizoval webové stránky!


Proč 99% namísto 100%? Poslední krok po úpravě webové stránky: spuštění pro testování selhalo. Po nějakém manuálním odstraňování se zdá, že agent II vytvořil novou relaci a již nemůže najít původní soubory webové stránky.

Zní to jako malý bug, který lze opravit.



Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks