Úvodní Je nádherně pojmenován „Inteligentní internet“ nebo II-agent, tvrdí, že je nejchytřejší na světě, ale plně open source! Jak se vyrovnává s jinými agenty AI, jako jsou , , , a ? Autonomní agent Otevřený hluboký výzkum Manuál Genetický park V tomto článku budeme nejen odpovídat na výše uvedené otázky, ale také provádět několik reálných testovacích případů, abychom zjistili, zda takoví agenti AI skutečně dodávají. Podle agentů II. , porazí ostatní uzavřené zdroje AI agentů v skóre GAIA. Oficiální blogový článek Poznámky autora: GAIA je referenční hodnota pro obecné AI asistenty, které navrhují otázky v reálném světě, které vyžadují základní schopnosti, jako je uvažování, multi-modality manipulace, procházení webu a znalosti používání nástrojů - otázky, které jsou koncepčně jednoduché pro lidi, ale náročné pro většinu pokročilých AI, s lidskými respondenty dosáhnout 92% přesnost oproti pouhých 15% pro GPT-4 vybavené pluginy. Co je II-agent Unikátní vlastnosti a úspěchy II-Agent je open-source inteligentní asistentský rámec, který dosahuje nejvyšších standardů pro dostupné agenty při zachování plné transparentnosti a auditovatelnosti. Jeho klíčové schopnosti zahrnují výzkum a ověřování skutečností s vícestupňovým vyhledáváním na webu, tvorbou obsahu včetně návrhů blogů a technických příruček, analýzou dat s automatizovaným vykazováním, vývojem softwaru v několika jazycích, automatizací pracovních postupů a pokročilým řešením problémů. Systém se vyznačuje sofistikovanou architekturou s Claude 3.7 Sonnet od společnosti Anthropic v jejím jádru, inteligentním řízením kontextu, který dokáže zvládnout až 120 000 tokenů, pokročilou automatizací prohlížeče s možností vidění a komunikací WebSocket v reálném čase pro interaktivní případy použití. Konkurenční pozice oproti předním rámcům: II-Agent se umisťuje jako vynikající otevřený zdrojová alternativa k předním uzavřeným zdrojovým agentům, jako je Manus (který dosáhl 65% na referenční hodnotě GAIA) a GenSpark AI. Zatímco předchozí pokusy s otevřeným zdrojovým kódem, jako je OpenManus od nadace Agent a Suna od Kortix-AI „pokoušeli se replikovat schopnosti Manus a GenSpark“, žádný „neprišel blíže k tomu, aby odpovídal jejich výkonu nebo dosáhl srovnatelných referenčních výsledků“. Společnost II-Agent tuto mezeru řeší nejen tím, že odpovídá, ale překonává referenční výkonnost a zároveň zachovává kritické výhody otevřeného zdroje, transparentnosti a rozšířitelnosti – kvality považované za nezbytné pro regulované průmyslové odvětví a maximální přijetí. Příklady použití případů Technická architektura K dispozici je i GitHub II-agent. . zde Architektura na vysoké úrovni II-Agent poskytuje dvě primární rozhraní: nástroj příkazového řádku (cli.py) pro přímé interakce založené na terminálu a server WebSocket (ws_server.py), který krmí frontend založený na React žijící v frontendu / adresáři ( V jeho srdci leží modulární jádro agenta v src/ii_agent/, které orchestruje volání LLM (prostřednictvím llm/ klientů), řeší plánování a reflexní logiku a rozesílá prováděcí úkoly (definované v nástrojích/) při využití sdílených nástrojů z ústrojí/ ( Reálná doba komunikace je dosažena prostřednictvím WebSockets, s izolovanými agentovými instancemi streamování událostí do uživatelského rozhraní prohlížeče pro odpovědný uživatelský zážitek ( ) se GitHub GitHub GitHub Detailní vnitřní architektura Dovolte mi, abych se podrobněji podíval na konkrétní moduly v rámci struktury úložiště II-Agent. Tento modul obsahuje základní implementace agentů, které slouží jako centrální součást orchestrace, řízení operačního cyklu agenta prostřednictvím iterativního uvažování a výběru schopností.Agenti se zabývají systémovými výzvami s dynamicky přizpůsobeným kontextem, udržují komplexní historii interakcí a koordinují s LLM interpretovat uživatelské pokyny a rozhodovat o tom, jak postupovat s úkoly.Každá instance agenta pracuje v izolovaných pracovních prostorech a spravuje tok od vstupu uživatele přes provedení nástroje až po doručení konečné odpovědi. Agents Module (src/ii_agent/agents/) Tento modul poskytuje vrstvu rozhraní pro interakci s velkými jazykovými modely, speciálně optimalizovanou pro Anthropic Claude 3.7 Sonnet. Řeší jak přímý přístup k antropickému API, tak i směrování Google Cloud Vertex AI, řízení autentizace, formátování požadavků a zpracování odpovědí. Modul implementuje inteligentní řízení kontextu s odhadem využití tokenů a strategickými technikami truncace pro zvládnutí konverzací až do 120 000 tokenů při zachování kvality a relevance konverzace. LLM Interface Module (src/ii_agent/llm/) Tento modul zahrnuje bohatou sadu výkonnostních schopností, které agentu umožňují interakci s jeho prostředím, včetně operací souborového systému s inteligentní úpravou kódu, provádění příkazového řádku v zabezpečených prostředích, pokročilou webovou interakci a automatizaci prohlížeče a specializované schopnosti pro různé modality. Nástroje podporují extrakci textu PDF, audio transkripci, syntézu řeči, tvorbu obrazu, tvorbu videa a hlubokou integraci výzkumu. Tools Module (src/ii_agent/tools/) Tento modul poskytuje podpůrnou infrastrukturu včetně systému řízení kontextu, který se zabývá odhadováním a optimalizací tokenů, archivními mechanismy založenými na souborech pro velké výstupy, komunikačními protokoly WebSocket pro interakci v reálném čase a různými pomocnými funkcemi pro zpracování dat a systémové operace. Utilities Module (src/ii_agent/utils/) Závislost na jiných open-source rámcích Pro své LLM backendy podporuje Anthropic Claude prostřednictvím Anthropic Python SDK a Google Vertex AI prostřednictvím klienta google-cloud-aiplatform, přičemž nabízí také poskytovatele plug-and-play vyhledávání, jako jsou Tavily, Jina, Firecrawl a SerpAPI ( Na frontendové a nástrojové straně buduje na vrcholu zásobník React/Node.js (konvence Next.js) a využívá komunitně řízené projekty - zejména AugmentCode pro orchestrování úkolů softwarového inženýrství, vzorce prompt-architektury Manus a indexový prohlížeč Použijte nástrojový kit pro pokročilé webové interakce ( ) se GitHub GitHub Jednoduchý testovací případ Nejprve jsem chtěl vyzkoušet jednoduchý testovací případ k vytvoření základní linie. A neexistuje lepší jednoduchý testovací případ než hra Nokia Snake. I když to bylo zmíněno ve svých příkladových případech, přidal jsem malý zvrat, že by to měla být html5 mobilní hra. [ ] : Prompt Recreační hra Nokia Snake jako webová hra HTML5 Nejen, že hra je připravena k hraní, ale přidala Nokia funkce telefon specifické designové prvky, které udělaly hru retro autentické. And it was a success from the first attempt!   Author’s Notes: Jako referenční, stejný poptávka v Claude Sonnet 3.7 produkovat podobně vypadající aplikace, ale okamžitě ukazuje "Hra končí", když se uživatel pokusí hrát. Nyní se podívejme podrobněji na to, jak to agent II dosáhl: (Vždy důležité pro autonomní agenty): First the II-agent created a plan 
 
 
 
 
 
 
 
 Vytvořte základní strukturu HTML s prvkem canvas Vytvoření CSS stylů pro rozložení hry Implement the core Snake game logic in JavaScript:
 
 
 
 
 
 
 
 
 Snake movement and controls Food generation Collision detection Score tracking Game over handling Snake movement and controls Přidání vizuálních prvků ve stylu Nokia (pixel art, barevná schéma) Implementace mobilně přívětivých kontrol Vyzkoušejte hru důkladně Vložte hru, abyste si ji mohli zahrát Poté vytvořil příslušné soubory a implementoval kód. A nakonec ho nasadí jako webovou aplikaci, takže ho mohu otestovat. II-agent webui je podobný Claude, kde můžete vidět tři hlavní karty na pravé straně: prohlížeč, kód, terminál. Obtížný testovací případ Vzhledem k tomu, že hra Nokia Snake je dobře zdokumentována a testována v mnoha různých kódovacích LLM a AI Agentech, bylo by dobré udělat testovací případ, který přesahuje jednoduché kódování. Můj plán je nechat agenta II které v sobě zahrnují (Nokia má speciální modely mobilních telefonů) (nastavení webového designu) , a (procházet internetem pro obrázky produktů a specifikace, vyzkoušet konečné webové stránky). build a website for Nokia’s historical feature phones research design coding browser use Výsledky ukazují, že máme ještě dlouhou cestu. První pokus [ ] se Prompt Vytvořte webovou stránku pro Nokia feature phone museum, která představí všechny Nokia feature phones ve formátu produktové galerie.Pro každý model telefonu zobrazte obrázek produktu, rok uvedení na trh, prodané jednotky a jeden odstavec krátký popis klíčových funkcí. Vytvořil slušný plán pro řešení této výzvy 
 
 
 
 
 
 Research Nokia feature phone models to collect information on:
 
 
 
 
 
 
 Product images Launch years Units sold Key features for descriptions Design the website layout:
 
 
 
 
 
 
 Create a responsive main page with an introduction to Nokia feature phones Implement a product gallery section to display all phone models Include individual phone detail sections Add navigation and search functionality Develop the website using:
 
 
 
 
 
 HTML for structure Tailwind CSS for styling JavaScript for any interactive elements (if needed) Test the website for:
 
 
 
 
 
 Responsiveness Proper display of information Navigation functionality Vytvořte webové stránky a poskytněte vám konečnou adresu URL Pak to šlo dělat výzkum, hodně výzkumu. vidím z karty „Browser“, která je procházení internetu po velmi dlouhou dobu, Jeden z úkolů procházení je načasován na určitém pomalém webu. But eventually it failed and stopped The AI agent’s plan did not include any exception handling and error recovery mechanism. Druhý pokus Vzhledem k tomu, že v prvním pokusu se agent snažil příliš tvrdě získat informace o všech telefonech Nokia, můj druhý pokus měl za cíl snížit rozsah na top 5 telefonů s funkcemi. [ ] :     Prompt Vytvořte webové stránky pro muzeum telefonů Nokia, které představí Nokia Top 5 mobilních telefonů Pro každý model telefonu zobrazte obrázek produktu, rok uvedení na trh a stručný popis klíčových funkcí v jednom odstavci. Top 5 mobilních telefonů Tentokrát agent selhal a zastavil se znovu, z jiného důvodu. Antropický limit rychlosti vstoupí a hodí chybu. Opět agent AI nemá žádný výjimkový mechanismus předání a zotavení, Kromě toho existuje další zřetelná chyba. agent AI Omezit výzkum pouze na „Top 5 telefonů“ a místo toho jít na výzkum všech funkčních telefonů. did NOT follow user instruction Třetí pokus Myslím, že třetí čas může být kouzlo, pomyslel jsem si, proč ne ne nejdříve nechat agenta vytvořit mockupovou webovou stránku a pak zkoumat modely telefonů? Tímto způsobem můžeme mít alespoň důkaz konceptu v případě, že se telefonní modelový výzkum znovu zastavuje. [ ] : Prompt Vytvořte webovou stránku pro muzeum funkčních telefonů Nokia, které představí pět nejlepších funkčních telefonů Nokia ve formátu produktové galerie. Pro každý model telefonu zobrazte obrázek produktu, rok uvedení na trh a stručný popis klíčových funkcí v jednom odstavci.   1) se Nejprve vytvořte mock-up webové stránky bez reálných dat Nejprve vytvořte mock-up webové stránky bez reálných dat 2) Při výzkumu modelů telefonů Nokia, výzkum pouze top pět modelů, pouze 5 Takže první část vytváření mock-up webové stránky se zdá, že jde dobře: Ale když je čas otestovat webové stránky, existuje problém. Používá port 8000 pro http servery, které se střetávají s vlastním backendovým serverem ii-agentů. Vzhledem k tomu, že neexistuje žádný způsob, jak přerušit II-agent a změnit číslo portu na letu, musím spustit novou relaci, abych přidal pokyny o změnách. Čtvrtý pokus [ ]: Vytvořte webovou stránku pro muzeum funkčních telefonů Nokia, které představí pět nejlepších funkčních telefonů Nokia ve formátu produktové galerie. Pro každý model telefonu zobrazte obrázek produktu, rok uvedení na trh a jeden odstavec s krátkým popisem klíčových funkcí. Prompt 
 
 
 Nejprve vytvořte webové stránky bez reálných dat, použijte port 8888 pro webový server Při výzkumu modelů telefonů Nokia, výzkum pouze top pět modelů, pouze 5 Mock-up webové stránky skutečně funguje, a vypadá slušně. Automatizované testování webových stránek nefungovalo, pravděpodobně kvůli nějakému řízení procesů na kartě Terminál. 
 
 "Pokusil jsem se spustit lokální webový server na portu 8888, ale mám s ním nějaké problémy.To nemá vliv na skutečný vývoj webových stránek, protože nyní budu pokračovat ve výzkumu pěti nejlepších telefonů Nokia, abych přidal skutečné údaje." "Pokusil jsem se spustit lokální webový server na portu 8888, ale mám s ním nějaké problémy.To nemá vliv na skutečný vývoj webových stránek, protože nyní budu pokračovat ve výzkumu pěti nejlepších telefonů Nokia, abych přidal skutečné údaje." I felt a glimpse of hope for AI agents now. Nakonec testovací případ stále selhal, opět kvůli limitu rychlosti společnosti Anthropic a agent AI se z toho nedokázal zotavit. Fantasy vs. Realita – moje učení Nejedná se o konkrétní kritiku agentů II, ale agentů AI obecně. We have always wanted very intelligent AI Agents that can be truly autonomous and do wonderful things on our behalf. But the reality is that we are quite far from it. Existují určité věci, které člověk dělá extrémně dobře a téměř bez námahy, zatímco všichni state-of-the-art agenti AI bojují. 
 
 
 
 Plannng: rozdělení složitých cílů na menší úkoly, provádění studie proveditelnosti každého úkolu, sestavení uspořádání úkolů Rozumění: analyzovat, co šlo správně a co šlo špatně, provádět analýzu kořenových příčin, hledat chyby v předpokladech a vnějších podmínkách Reakce: snížit rozsah, změnit pořadí úkolů, vyzkoušet alternativní řešení, spustit důkaz konceptu, požádat o pomoc v případě potřeby, zastavit a restartovat Takže s dnešními modely a agenty SOTA máme nyní několik možností: 
 
 
 Co-Pilot: to se ukázalo být velmi úspěšné jak koncepčně, tak komerčně. například, kódování s Cursor a GitHub Co-Pilot; Microsoft Co-Pilot pro Office 365. Člověk v kruhu; jeden designový vzor nazvaný Agent Inbox by LangChain, kde agent může přerušit lidi, když jsou uvízli nebo potřebují pomoc. Takže tam máte to, druhá vlna plně autonomního AI agenta: od OpenAI Deep Research, Manus, GenSpark a nyní až po II-agent. pohlednice Jednoho dne poté, co jsem udělal první testy a napsal článek, jsem se rozhodl dát obtížnému testu ještě jednu šanci.Tentokrát to fungovalo (99%): vytvořil mock-up webové stránky, úspěšně následoval pokyny pro výzkum top 5 telefonů, shromáždil všechny informace a obrázky a nakonec aktualizoval webové stránky! Proč 99% namísto 100%? Poslední krok po úpravě webové stránky: spuštění pro testování selhalo. Po nějakém manuálním odstraňování se zdá, že agent II vytvořil novou relaci a již nemůže najít původní soubory webové stránky. Zní to jako malý bug, který lze opravit.

AI + web3

Read My Stories

Disrupt networking with blockchain

Tento zvuk je produkován v původním jazyce příběhu!

Otevřený zdrojový AI Agent II převezme vedení v benchmarkových válkách - ale je to opravdu autonomní?

About Author

KOMENTÁŘE

ZAVĚŠIT ZNAČKY

TENTO ČLÁNEK BYL PŘEDSTAVEN V

Related Stories

Coinshift Launches csUSDL, Announces Strategic Partnerships

Coinshift Launches csUSDL, Announces Strategic Partnerships

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps