Үйлчилгээ
Өнгөрсөн долоо хоногийн өмнө, өөр нэг AI Агент удаан байна. Энэ нь маш их нэртэй "Intelligent Internet" эсвэл II-агент гэж нэрлэдэг бөгөөд энэ нь дэлхийн хамгийн ухаалаг боловч бүрэн нээлттэй эх сурвалж гэж нэрлэдэг! Тиймээс энэ нь юу вэ?Автоном AI агентSmartness шалгалт? Энэ нь бусад AI-ийн агенттыг хэрхэн хамардагOpenAI Дээд судалгааНөхцөлМэндэлснийҮнэгүйӨнгөрсөн?
Энэ нийтлэлд бид тавтай морилно уу тавтай морилно уу. Энэ нийтлэлд бид тавтай морилно уу. Тавтай морилно уу. Бид тавтай морилно уу.
II-Agent ньалбан ёсны блог бичлэг, Энэ нь GAIA түвшинд бусад хатуу эх үүсвэр AI Агентүүдтэй.
Зохиогчийн зөвлөмжүүд: GAIA нь General AI Assistants-ийн бенчмарк юм. Гэсэн хэдий ч хамгийн дэвшилтэт AI-ийн хувьд хязгаарлагдмал асуултуудыг санал болгож байна. Хязгаарлагдмал хүчин чадалтай асуултууд, олон загварын хяналтын, вэб сурвалж, хэрэгсэл хэрэглээний мэдрэмжтэй асуултууд нь 92% -ийн нарийвчлалтай байдаг.
II-Agent гэж юу вэ
Өнгөрсөн шинж чанар, үр дүнг
II-Agent нь тавтай морилно уу, тавтай морилно уу, тавтай морилно уу, тавтай морилно уу, тавтай морилно уу, тавтай морилно уу, эсвэл тавтай морилно уу.
Энэхүү систем нь Anthropic-ийн Claude 3.7 Sonnet-ийг голчлонтай, 120,000 токеновтай ухаалаг контекст удирдлагатай, үзэл чадвартай дэвшилтэт браузер автоматжуулалт, интерактив хэрэглээний тохиолдолд Real-Time WebSocket харилцаа холбоотай юм.
Конкурентын байршил нь тэргүүлэх бүтэцтэй:
II-Agent нь Manus ( GAIA бенчмарк дээр 65% -ийг олж авсан) болон GenSpark AI. Foundation Agent-ийн OpenManus болон Kortix-AI-ийн Suna гэх мэт өмнөх open-source туршилт "Manus болон GenSpark-ийн хүчин чадалтыг хуваалцахын тулд туршиж байгаа бол", ямар ч "тавтай морилно уу тэдний гүйцэтгэлийг харьцуулах, харьцуулахад харьцуулахад харьцуулахад үр дүнд".
II-Агент зөвхөн харьцуулахад биш, бенчмарк гүйцэтгэлийг дагаж, нээлттэй эх сурвалж, транспарент, дэлгэрэнгүй - регулируулсан аж үйлдвэрийн хувьд чухал гэж нэрлэдэг чанарыг хадгалж, хамгийн их хэрэглээ.
Жишээ нь ашиглах тохиолдолд
Техникийн архитектур
Та II-Agent-ийн GitHub репозиторийг олж болноЭнд.
Өндөр түвшний архитектур
II-Agent нь хоёр үндсэн интерфэйс санал болгож байна: шууд терминал дээр суурилсан интеракцийг зориулсан командний шуудангийн хэрэгсэл (cli.py) болон WebSocket сервер (ws_server.py) frontend дээр React дээр суурилсан жижиглэнгийн frontend / каталог (GitHub ньСүмийн төвд src/ii_agent/, LLM-ийн дуудлага оркестрлах (LLM / клиент дамжуулан), төлөвлөгөө, дуудлага логик хянах, гүйцэтгэх үйл ажиллагаа (инструментинд тодорхойлогдсон/) хуваалцаж, хуваалцах хэрэгцээг ашиглан хуваалцах болно. (GitHub нь). Реал хугацааны харилцаа холбоо WebSockets дамжуулан хангах, нэгтгэсэн агентын инстанцийг браузерын интерфэйстэй хэрэглэгчийн туршлагатай (GitHub ньНөхцөл
Өнгөрсөн интерьер архитектура
Ялангуяа II-Агент репозиторийн бүтэц дахь тусгай модулийг дэлгэрэнгүй үзнэ үү.
Agents Module (src/ii_agent/agents/): Энэ модуль нь төв оркестрийн бүрэлдэхүүн хэсэг болгон үйл ажиллагаа явуулж буй үндсэн агентын имплементацийг агуулдаг. Агентүүд динамик тохирсон контексттай системийн илгээх нь үйл ажиллагаа явуулж, өргөн интеракцийн түүхг хадгалах, хэрэглэгчийн зааврыг тайлбарлах, үйл явцыг хэрхэн шийдэхийн тулд LLM-тэй координатаар ажилладаг. Бүх агентын инстанцыг тусгаарлагдмал ажлын газар хооронд үйл ажиллагаа явуулж, хэрэглэгчийн өгөгдлийн дамжуулан хэрэгсэл гүйцэтгэлийн дамжуулан эцсийн хариу хүргэхээс дамжуулан дамжуулан дамжуулах.
LLM Interface Module (src/ii_agent/llm/): Энэ модуль нь Anthropic-ийн Claude 3.7 Sonnet-ийн хувьд тусгайлан optimized том хэлний загвартай харилцаа холбооны интерфэйс хавтан олгодог. Энэ модуль нь шууд Anthropic API-ийн хангамж, Google Cloud Vertex AI маршрутизатор, автентичлэл, хүсэл форматинг, хариултын боловсруулах удирдах нь удирдах болно. модуль нь тавтай морилно ууны чанарын удирдлага нь токейн хэрэглээний үнэлгээ, стратегийн truncation техникийг гүйцэтгэхийн тулд 120,000 токенов хүртэл харилцаа холбооны чанарын, тохиргоог хадгалах.
Tools Module (src/ii_agent/tools/): Энэ модуль нь файлын систем үйл ажиллагаа, ухаалаг код редактийг ашиглан файлын системийн үйл ажиллагаа, аюулгүй байгаль орчинд орчинд орчинд орчинд орчинд, дэвшилтэт вэб интеракци, браузер автоматжуулалт, янз бүрийн загвар нь мэргэшсэн боломжийг олгодог. хэрэгсэл нь PDF текст экстракци, аудио транскрипцийг дэмждэг, хэлний синтез, зураг үүсгэх, видео үүсгэх, гүнзгий судалгааны интеграци. Playwright дээр ширээний автоматжуулалтын боломжийг үзэсгэлэнтэй бий болгодог.
Utilities Module (src/ii_agent/utils/): Энэ модуль нь контекст менежментийн систем, токейн үнэлгээ, optimization, том outputs нь файлын суурилсан архив механизм, тавтай морилно уу интеракцийн WebSocket харилцаа холбооны протоколуудыг, мэдээллийн боловсруулах, систем үйл ажиллагаа нь янз бүрийн туслах функцийг агуулсан дэмждэг. Хэрэглээ нь мөн төлөвлөгөө, харах боломжийг агуулдаг бөгөөд структурын асуултанд боломжийг олгодог, асуудал хуваалцах, үйл явцыг хянах үйл явцыг бий болгодог.
Бусад Open-Source Frameworks-ийг холбох
II-Agent нь олон open-source үйлчилгээ, библиотекаар чансаанд интегриж байна. LLM баглаа боодол нь Anthropic Python SDK болон Google-ийн Vertex AI нь google-cloud-aiplatform клиент дамжуулан Anthropic Claude дэмждэг, мөн Тавилли, Jina, Firecrawl, SerpAPI гэх мэт plug-and-play хайлтын хангамжийг санал болгож байна (GitHub нь). Фронтэнд болон тоног төхөөрөмжийн хуудсанд React / Node.js багц (Next.js конвенц) дээр суурилсан бөгөөд олон нийтийн дэмжлэгтэй төслүүдийг ашигладаг - ихэвчлэн програм хангамжийн инженерийн үйл явц оркестрийг зориулсан AugmentCode, Manus-ийн prompt-архитектурын загварууд, дэвшилтэт вэб интеракцийг зориулсан Index Browser Use toolkit (GitHub ньНөхцөл
Хялбар тест хавтгай
Эхэндээ би хязгааргүй туршилтын тохиолдолд туршиж хүссэн. Тэгээд Nokia Snake тоглоом илүү сайн хязгааргүй туршилтын тохиолдолд байдаг. Гэсэн хэдий ч энэ нь дээж тохиолдолд нэрлэдэг боловч энэ нь html5 гар утасны тоглоом байх ёстой.
[PromptСэдэв:Nokia зэргийн тоглоом нь HTML5 вэб тоглоом болгон шинэчлэх
And it was a success from the first attempt!Энэ тоглоом нь тоглохын тулд бэлэн биш, Nokia-ийн шинж чанартай гар утас тусгай дизайн элементүүд нэмсэн бөгөөд энэ нь тоглоомын ретро автентич байна.
Author’s Notes: Үзүүлэлтэд, Claude Sonnet 3.7-ийн анагаах ухаалаг програм хангамж үйлдвэрлэдэг бөгөөд энэ нь хэрэглэгч тоглохыг хүсэж байгаа үед "Game Over" -ийг илрүүлэх болно. Хамгийн үр дүнтэй нь энэ нь бооцооны илрүүлэх алгоритм нь тохиромжтой гүйцэтгэсэнгүй бөгөөд тоглоом нь туршижгүй байсан.
Одоо II-Agent энэ нь хэрхэн гүйцэтгэсэн талаар дэлгэрэнгүй үзнэ үү:
First the II-agent created a plan(Энэ нь үргэлж автоном ажилчдын хувьд чухал юм):
- Canvas элементтэй үндсэн HTML бүтэц тохируулах
- Тоглоомын layout нь CSS стилийг үүсгэх
- Implement the core Snake game logic in JavaScript:
- Snake movement and controls
- Food generation
- Collision detection
- Score tracking
- Game over handling
- Snake movement and controls
- Nokia хэлбэртэй визуал элементүүд нэмнэ үү (пиксел арт, өнгө бүтэц)
- Mobile-friendly хяналтыг ашиглах
- Тоглоомын туршилт
- Тоглоом тоглохын тулд та тоглох боломжтой
Дараа нь энэ нь холбоотой файлуудыг үүсгэсэн, код гүйцэтгэсэн. Тэгээд эцэст нь энэ нь вэб-апп болгон суулгах болно. II-агент webui Claude-тэй харьцуулагддаг, эцэст дээр гурван гол хавтан үзнэ үү: Browser, Code, Terminal.
Хязгаарлагдмал туршилтын хэрэг
Nokia Snake тоглоом нь маш сайн документуудтай бөгөөд олон янз бүрийн кодлох LLM болон AI Агент дээр туршиж байгаа тул, хялбар кодлохээс гадна туршилтын тохиолдолд хийх сайн байх болно.
Миний төлөвлөгөө нь II-ийн агент ньbuild a website for Nokia’s historical feature phonesЭнэ нь байгалийнresearch(Nokia тусгай гар утас загвар),design(WEB Сайтын дизайнcodingҮнэгүйbrowser use(Интернет дэлгэц, бүтээгдэхүүний тодорхойлолт үзэх, эцсийн вэбсайт туршиж).
Үүнээс гадна, үр дүн нь бид илүү урт аялалтай байна гэж үздэг.
Эхний туршилт
[PromptАлдартайNokia-ийн шинж чанарын гар утас музейн вэбсайт үүсгэх, бүх Nokia шинж чанарын гар утас нь бүтээгдэхүүний галерийн хэлбэрээр дэлгэц. Бүх гар утас загварууд нь бүтээгдэхүүний зургийг дэлгэц, эхлэх жил, борлуулагдсан нэгж, гол шинж чанарын нэг параграфтай тодорхойлолт дэлгэц.
Энэ асуултуудыг хангахын тулд тохиромжтой төлөвлөгөө үүсгэсэн
- Research Nokia feature phone models to collect information on:
- Product images
- Launch years
- Units sold
- Key features for descriptions
- Design the website layout:
- Create a responsive main page with an introduction to Nokia feature phones
- Implement a product gallery section to display all phone models
- Include individual phone detail sections
- Add navigation and search functionality
- Develop the website using:
- HTML for structure
- Tailwind CSS for styling
- JavaScript for any interactive elements (if needed)
- Test the website for:
- Responsiveness
- Proper display of information
- Navigation functionality
- вэбсайт хуваалцах, танд эцсийн URL-ийг хангах
Дараа нь судалгаа, олон судалгаа хийх байсан. Би "Браузер" таб дээр харж болно, энэ нь маш их хугацааны интернетийн хайж байна,But eventually it failed and stoppedОдоогоор. Хязгаарлагдмал вэбсайт дээр тавтай морилно уу.
The AI agent’s plan did not include any exception handling and error recovery mechanism.
Хоёр дахь туршилт
Эхний туршид агент нь Nokia-ийн бүх шинж чанартай гар утас дээр мэдээллийг олж авахын тулд маш их туршиж байгаа тул Миний хоёр дахь туршилт нь шилдэг 5 шинж чанартай гар утас руу хүргэхийн тулд зорилготой байсан.
[PromptСэдэв:Nokia-ийн гар утас музей дээр вэбсайт үүсгэх, Nokia-ийн гар утас үзүүлэх Топ 5 шинж чанартай гар утас Бүтээгдэхүүний галерийн хэлбэрээр. Бүх гар утас загварууд нь бүтээгдэхүүний зураг, эхлэх жил, гол шинж чанарын нэг параграфтай тодорхойлолт үзнэ үү.
Топ 5 шинж чанартай гар утасЭдгээр удаа агент буцаж, өөр өөр шалтгааны хувьд өөрчилсөн. Anthropic түвшинд хязгаарлагдмал идэвхжүүлэхийн тулд ирдэг. Үүнээс гадна, AI агент ямар ч тусгаарлагч дамжуулах, олборлолт механизм байхгүй,
Үүнээс гадна, бусад хатуу алдаа байдаг. AI агентdid NOT follow user instruction"Хэвлэх нь зөвхөн "Топ 5 гар утас" -д хязгаарлагддаг, өөрсдийн бүх шинж чанарыг судлах болно.
3-р туршилт
Хоёр дахь удаа би шарм байж болох гэж бодож байна, Би санаа зовох, юу нь агент нь эхлээд загварын вэбсайт үүсгэх, дараа нь гар утас загварууд судалгаа хийх боломжийг олгоно уу? Энэ арга нь бид гар утас загварын судалгаа нь дахин хамаарах тохиолдолд дундаж мэдэгдэж чадна. Үүнээс гадна бид гол зардлыг олж авахын тулд хоёр үндсэн үйл явцыг өөрчилж байна.
[PromptСэдэв:Nokia-ийн шинж чанартай гар утас музейн вэбсайт үүсгэх, Nokia-ийн шилдэг 5 шинж чанартай гар утас нь бүтээгдэхүүний галерийн хэлбэрээр үзнэ үү. Бүх гар утас загварыг үзнэ үү.
1) Үнэгүй Эхлээд бодит өгөгдөлгүй нь хатуу вэбсайт үүсгэх
Эхлээд бодит өгөгдөлгүй нь хатуу вэбсайт үүсгэх2) Nokia гар утас загварууд судалгааны үед зөвхөн топ 5 загварууд, зөвхөн 5
Тэгэхээр Mock-up вэбсайт үүсгэх анхны хэсэг нь сайн байна гэж үздэг:
Гэхдээ вэбсайт тест хийх үед энэ нь асуудал байдаг. Энэ нь i-agent-ийн өөрийн backend сервертэй http сервертэй босоо 8000-ийг ашигладаг. II-agent-ийг туршиж, порт тоо өөрчилж ямар ч арга бол, би өөрчилж зааврыг нэмэхын тулд шинэ сессийг эхлэх хэрэгтэй.
Четвёр дахь туршилт
[Prompt]: _Nokia-ийн шинж чанартай гар утас музейн вэбсайт бий болгох, Nokia-ийн шилдэг 5 шинж чанартай гар утас нь бүтээгдэхүүний галерийн хэлбэрээр үзнэ үү. Бүх гар утас загвар нь бүтээгдэхүүний зургийг үзнэ үү, эхлэх жил, гол шинж чанарын нэг параграфтай тодорхойлолт.
- Эхлээд бодит өгөгдөлгүй вэбсайт бий болгох, вэб сервер нь порт 8888 ашиглах
- Nokia гар утас загварууд судалгааны үед зөвхөн топ 5 загварууд, зөвхөн 5
Mock-up вэбсайт үнэхээр ажилладаг, сайн харж байна.
Автомат вэбсайт шалгалт ажиллаж байсангүй, магадгүй Терминал таб дахь зарим үйл явц менежментийн хувьд. Үнэндээ хэд хэдэн амжилттай туршилтын дараа, энэ нь амьдрал, хэлсэн байна
"Би 8888-ийн порт дээр локалтай вэб сервер эхлүүлэхыг хүссэн боловч би энэ нь зарим асуудалтай байдаг. Энэ нь вэбсайт хөгжүүлэхэд нөлөөгүй бөгөөд би одоо Nokia-ийн шилдэг 5 шинж чанарыг судлахын тулд бодит өгөгдлийг нэмнэ үү."
"Би 8888-ийн порт дээр локалтай вэб сервер эхлүүлэхыг хүссэн боловч би энэ нь зарим асуудалтай байдаг. Энэ нь вэбсайт хөгжүүлэхэд нөлөөгүй бөгөөд би одоо Nokia-ийн шилдэг 5 шинж чанарыг судлахын тулд бодит өгөгдлийг нэмнэ үү."
I felt a glimpse of hope for AI agents now.
Эцэст нь туршилтын тохиолдолд антропорын түвшинд хязгаарлагддаг. Тэгээд AI-ийн агент нь энэ нь сайжруулах чадахгүй байсан.
Фантази vs Reality - миний суралцах
We have always wanted very intelligent AI Agents that can be truly autonomous and do wonderful things on our behalf. But the reality is that we are quite far from it.Энэ нь II-Agent-ийн тусгай критик биш, AI-ийн агентүүд нь ихэвчлэн.
Хүний маш сайн, харин хэзээ ч амархан хийж байгаа зарим зүйлүүд байдаг, бүх шинжлэх ухааны AI агентлаас харьцуулахад.
- Plannng: Комплекс зорилгоор багатай үйл явдлыг хуваалцах, тус бүрийн үйл явдлын тохиромжтой байдал судалгаа хийх, үйл явдлын жагсаалт цуглуулах
- Мэргэшлэл: юу зөв байсан, юу алдаа байсан, харин шалтгааны анализ хийх, ач холбогдол, гарын үсэгний алдааг хайж
- Reaction: хэрэгцээг багасгах, үйл явцыг өөрчилж, альтернатив шийдлийг туршиж, концептуудын баталгаажуулах, хэрэгцээний үед туслахыг хүсч, зуух, шинэ эхлэх
Тиймээс өнөөдөр SOTA загварууд, ажилтнуудтай бид одоо хэд хэдэн сонголттай байна:
- Co-Pilot: Энэ нь концептуал, арилжааны хувьд маш амжилттай байна. Жишээ нь, Cursor болон GitHub Co-Pilot нь кодийг; Microsoft Co-Pilot нь Office 365.
- Хөдөлгөөнт хүн; LangChain-ийн Агент Inbox гэж нэрлэгдсэн дизайн загвар, агент нь хүн хамарсан эсвэл туслахыг хүсэж байгаа үед анхаарал хандуулах боломжтой. Амьдралын асуултууд нь AI-ийн Агент нь хялбар хялбар байж болох бол хэзээ ч анхаарал хандуулах үед шийдвэрлэх болно.
Тэгэхээр та үүнийг байна, бүрэн автоном AI агент дахь хоёр дахь хавтгай: OpenAI-ийн Deep Research, Manus, GenSpark, одоо II-agent.
Гарын авлага
Өнгөрсөн өдөр дараа би анхны туршилт хийх, нийтлэл бичсэн дараа, би хэцүү туршилтанд нэг удаа шинэ шансуудыг өгдөг. Энэ удаа энэ нь ажилласан (99%): Энэ нь шахах вэбсайт үүсгэсэн, хамгийн шилдэг 5 гар утас судлах зааврыг дараах, бүх мэдээлэл, зургийг багтаасан, эцэст нь вэбсайт шинэчлэгдсэн!
Хэрэв та өөрийн вэбсайт өөрчлөх дараа хамгийн сүүлийн шаг: туршилтын туршилтаар эхлэх нь хязгаарлагдмал байна. Хязгаарлагдмал гарын авлага дараа II-агент шинэ үйл явцыг үүсгэсэн бөгөөд эхний вэбсайт файлуудыг олж чадахгүй байна. Гэхдээ Python-ийн вэбсайт нь гарын авлагатай ажилладаг бөгөөд дэлгэц зурвас авч байна.
Энэ нь сэргээх боломжтой жижиг бугуй шиг байна.