143 bacaan

Open-Source AI Agent II-Memimpin Perang Benchmark-Tapi Benarkah Ia Autonom?

oleh Bruce Li10m2025/05/28
Read on Terminal Reader

Terlalu panjang; Untuk membaca

Sebuah pandangan pertama dan pengujian langsung dari agen II, mengklaim menjadi agen AI otonom paling cerdas di pasar.
featured image - Open-Source AI Agent II-Memimpin Perang Benchmark-Tapi Benarkah Ia Autonom?
Bruce Li HackerNoon profile picture


Introduksi

Beberapa hari yang lalu, agen AI lain juga menabrak. ia diberi nama “Intelligent Internet” atau II-agent, mengklaim menjadi yang paling cerdas di dunia namun sepenuhnya open source!Autonomis sebagai agenBagaimana caranya agar bisa berkomunikasi dengan agen lain sepertiPenelitian yang mendalam, yangManusdanparkir?

Dalam artikel ini, kami tidak hanya akan menjawab pertanyaan di atas, tetapi juga melakukan beberapa kasus tes dunia nyata untuk melihat apakah agen AI tersebut benar-benar memberikan.

Menurut Agen IIPosting blog resmi, itu mengalahkan agen AI sumber tertutup lainnya dalam skor GAIA.


Catatan penulis: GAIA adalah benchmark untuk General AI Assistants yang mengusulkan pertanyaan dunia nyata yang membutuhkan kemampuan dasar seperti alasan, multi-modality handling, browsing web, dan keterampilan menggunakan alat - pertanyaan yang secara konseptual sederhana untuk manusia namun menantang bagi AI yang paling maju, dengan responden manusia mencapai akurasi 92% dibandingkan dengan hanya 15% untuk GPT-4 dilengkapi dengan plugin.

Apa itu agen 2

Karakteristik dan Pencapaian Unik

II-Agent adalah framework asisten cerdas open-source yang memimpin peringkat referensi untuk agen yang tersedia sambil mempertahankan transparansi dan auditabilitas penuh. kemampuan intinya mencakup penelitian dan pemeriksaan fakta dengan pencarian web multi-langkah, generasi konten termasuk draft blog dan manual teknis, analisis data dengan pelaporan otomatis, pengembangan perangkat lunak di berbagai bahasa, otomatisasi alur kerja, dan pemecahan masalah lanjutan.

Sistem ini memiliki arsitektur canggih dengan Claude 3.7 Sonnet Anthropic sebagai inti, manajemen konteks cerdas yang dapat menangani hingga 120.000 token, otomatisasi browser canggih dengan kemampuan visi, dan komunikasi WebSocket real-time untuk kasus penggunaan interaktif.

Posisi kompetitif terhadap kerangka kerja terkemuka:

II-Agent menempatkan dirinya sebagai alternatif open-source yang unggul untuk agen tertutup terkemuka seperti Manus (yang mencapai 65% pada benchmark GAIA) dan GenSpark AI. Sementara upaya open-source sebelumnya seperti OpenManus oleh Foundation Agent dan Suna oleh Kortix-AI "mencoba untuk mereplikasi kemampuan Manus dan GenSpark," tidak ada "yang mendekati memenuhi kinerja mereka atau mencapai hasil benchmark yang sebanding".

II-Agent mengatasi kesenjangan ini dengan tidak hanya mencocokkan tetapi melampaui kinerja referensi sambil mempertahankan kelebihan penting dari open-source, transparan, dan ekstensif - kualitas yang dianggap penting untuk industri yang diatur dan adopsi maksimum.

Contoh kasus penggunaan


Arsitektur teknis

Anda dapat menemukan repository GitHub II-agentdi sini.

Arsitektur tingkat tinggi

Perangkat lunak ini memiliki dua komponen utama, yaitu server server server (ws_server.py) dan server terminal (cli.py).GitHubBerdasarkan hasil penelitian yang telah dilakukan, penelitian ini bertujuan untuk mengidentifikasi faktor-faktor yang mempengaruhi kinerja perusahaan dan faktor-faktor yang mempengaruhi kinerja perusahaan, serta mengidentifikasi faktor-faktor yang mempengaruhi kinerja perusahaan. (GitHub(Baca juga: Cara Menghilangkan Gejala Gejala Gejala Gejala Gejala Gejala Gejala Gejala Gejala Gejala Gejala Gejala Gejala Gejala Gejala Gejala Gejala Gejala Gejala Gejala Gejala Gejala Gejala Gejala Gejala Gejala Gender)GitHub) yang


Arsitektur internal yang terperinci

Biarkan saya memeriksa modul spesifik dalam struktur repository II-Agent lebih dekat.


Agents Module (src/ii_agent/agents/)Modul ini berisi implementasi agen inti yang berfungsi sebagai komponen orkestrasi pusat, mengelola siklus operasi agen melalui pertimbangan iteratif dan pemilihan kemampuan. agen menangani petunjuk sistem dengan konteks yang disesuaikan secara dinamis, mempertahankan riwayat interaksi yang komprehensif, dan berkoordinasi dengan LLM untuk menafsirkan instruksi pengguna dan memutuskan bagaimana melanjutkan tugas.

LLM Interface Module (src/ii_agent/llm/)Modul ini menyediakan lapisan antarmuka untuk berinteraksi dengan model bahasa besar, secara khusus dioptimalkan untuk Claude 3.7 Sonnet Anthropic. Modul ini menangani akses API Anthropic langsung dan Google Cloud Vertex AI routing, mengelola otentikasi, pemformatan permintaan, dan pemrosesan tanggapan. Modul ini menerapkan manajemen konteks cerdas dengan estimasi penggunaan token dan teknik truncation strategis untuk menangani percakapan hingga 120.000 token sambil mempertahankan kualitas dan relevansi percakapan.

Tools Module (src/ii_agent/tools/)Modul ini mencakup serangkaian kemampuan eksekusi yang kaya yang memungkinkan agen untuk berinteraksi dengan lingkungan, termasuk operasi sistem file dengan pengeditan kode cerdas, eksekusi baris perintah di lingkungan yang aman, interaksi web canggih dan otomatisasi browser, dan kemampuan khusus untuk berbagai modal. alat mendukung ekstraksi teks PDF, transkripsi audio, sintesis suara, generasi gambar, generasi video, dan integrasi penelitian mendalam. kemampuan otomatisasi browser dibangun di Playwright dengan integrasi visi, memungkinkan agen untuk menavigasi halaman web, menangkap screenshot, dan menganalisis konten visual.

Utilities Module (src/ii_agent/utils/)Modul ini menyediakan infrastruktur pendukung termasuk sistem manajemen konteks yang menangani estimasi dan optimasi token, mekanisme arsip berbasis file untuk output besar, protokol komunikasi WebSocket untuk interaksi real-time, dan berbagai fungsi asisten untuk pemrosesan data dan operasi sistem. utilitas juga mencakup kemampuan perencanaan dan refleksi yang memungkinkan pemikiran terstruktur, dekomposisi masalah, dan proses pengambilan keputusan transparan yang menciptakan jejak audit dari pendekatan penyelesaian masalah agen.

Ketergantungan pada framework open source lainnya

Untuk backend LLM, ia mendukung Anthropic Claude melalui Anthropic Python SDK dan Vertex AI Google melalui klien google-cloud-aiplatform, sementara juga menawarkan penyedia pencarian plug-and-play seperti Tavily, Jina, Firecrawl, dan SerpAPI (GitHubDi sisi frontend dan tooling, itu membangun di atas stack React / Node.js (konvensi Next.js) dan memanfaatkan proyek-proyek berbasis komunitas - terutama AugmentCode untuk orchestrasi tugas-tugas rekayasa perangkat lunak, pola arsitektur prompt-Manus, dan toolkit Indeks Browser Gunakan untuk interaksi web lanjutan (GitHub) yang

Tes Kasus yang Mudah

Pertama saya ingin mencoba kasus uji sederhana untuk menetapkan garis dasar. dan tidak ada kasus uji sederhana yang lebih baik daripada permainan Nokia Snake. Meskipun disebutkan dalam kasus contohnya, saya menambahkan sedikit twist bahwa itu harus menjadi permainan seluler html5.

[Prompt] :Cara Membuat Game Nokia Snake sebagai Game Web HTML5

And it was a success from the first attempt!Tidak hanya permainan siap dimainkan, itu menambahkan elemen desain spesifik ponsel Nokia yang membuat permainan retro otentik.

Author’s Notes: Sebagai referensi, prompt yang sama di Claude Sonnet 3.7 menghasilkan aplikasi yang mirip, tetapi segera menampilkan “Game Over” ketika pengguna mencoba bermain.

Sekarang mari kita lihat lebih rinci bagaimana agen II mencapai ini:

First the II-agent created a plan(Selalu penting untuk agen otonom):

  1. Mengatur struktur HTML dasar dengan elemen canvas
  2. Membuat CSS Style untuk Game Layout
  3. Implement the core Snake game logic in JavaScript:
    • Snake movement and controls
    • Food generation
    • Collision detection
    • Score tracking
    • Game over handling
    • Snake movement and controls
  4. Menambahkan elemen visual gaya Nokia (piksel art, skema warna)
  5. Mengimplementasikan kontrol mobile-friendly
  6. Menguji permainan secara menyeluruh
  7. Memasang permainan sehingga Anda dapat memainkannya

Selanjutnya ia membuat file yang relevan dan mengimplementasikan kode. dan akhirnya mengimplementasikannya sebagai aplikasi web sehingga saya dapat mengujinya. webui agen II mirip dengan Claude, di mana Anda dapat melihat tiga tab utama di sisi kanan: Browser, Code, Terminal.

Tes kasus yang sulit

Karena permainan Nokia Snake didokumentasikan dengan baik dan diuji di banyak LLM coding dan agen AI yang berbeda, akan baik untuk melakukan kasus tes yang melampaui coding sederhana.

Tujuannya adalah untuk membiarkan agenbuild a website for Nokia’s historical feature phonesyang secara intrinsik termasukresearch(Berbeda dengan ponsel Nokia lainnya)design(Desain dari situs web ini)codingdanbrowser use(menjelajahi internet untuk gambar produk dan spesifikasi, uji situs web akhir).

Hasilnya menunjukkan bahwa kita masih memiliki perjalanan yang panjang.

Coba Pertama

[Prompt) yangBuat situs web untuk Nokia feature phone museum, menampilkan semua Nokia feature phone dalam format galeri produk. untuk setiap model ponsel, menampilkan gambar produk, tahun peluncuran, unit yang terjual, dan satu paragraf deskripsi singkat fitur kunci.

Ia menciptakan rencana yang layak untuk mengatasi tantangan ini.


  1. Research Nokia feature phone models to collect information on:
    • Product images
    • Launch years
    • Units sold
    • Key features for descriptions
  2. Design the website layout:
    • Create a responsive main page with an introduction to Nokia feature phones
    • Implement a product gallery section to display all phone models
    • Include individual phone detail sections
    • Add navigation and search functionality
  3. Develop the website using:
    • HTML for structure
    • Tailwind CSS for styling
    • JavaScript for any interactive elements (if needed)
  4. Test the website for:
    • Responsiveness
    • Proper display of information
    • Navigation functionality
  5. Mengimplementasikan situs web dan memberi Anda URL akhir

Kemudian ia melanjutkan untuk melakukan penelitian, banyak penelitian. saya dapat melihat dari tab “Browser” yang sedang menjelajahi Internet untuk waktu yang sangat lama,But eventually it failed and stoppedSalah satu tugas browsing diatur pada situs web lambat tertentu.

The AI agent’s plan did not include any exception handling and error recovery mechanism.

upaya kedua

Karena dalam upaya pertama, agen berusaha terlalu keras untuk mendapatkan informasi tentang SEMUA ponsel fitur Nokia, upaya kedua saya bertujuan untuk mengurangi jangkauan ke 5 ponsel fitur teratas.

[Prompt] :Membuat situs web untuk Nokia feature phone museum, menampilkan Nokia Top 5 Spesifikasi Ponsel Untuk setiap model ponsel, tampilan gambar produk, tahun peluncuran, dan satu paragraf deskripsi singkat fitur utama.

Top 5 Spesifikasi Ponsel

Kali ini agen gagal dan berhenti lagi, karena alasan yang berbeda. antropik batas tingkat melompat, dan melemparkan kesalahan. Sekali lagi agen AI tidak memiliki mekanisme pengiriman dan pemulihan pengecualian,

Selain itu, ada juga kesalahan lain yang mencolok. agen AIdid NOT follow user instruction“Kami akan membatasi penelitian ini hanya untuk “5 ponsel teratas”, dan sebaliknya akan melakukan penelitian untuk semua ponsel fitur.

Percobaan ketiga

Berpikir untuk ketiga kalinya mungkin menjadi pesona, saya berpikir mengapa tidak membiarkan agen untuk membuat situs web mockup pertama, dan kemudian meneliti model telepon? Dengan cara ini kita dapat memiliki setidaknya Proof of Concept jika penelitian model telepon terjebak lagi.

[Prompt] :Buat situs web untuk Nokia feature phone museum, menampilkan lima ponsel Nokia top feature phone dalam format galeri produk. untuk setiap model ponsel, menampilkan gambar produk, tahun peluncuran, dan satu paragraf deskripsi singkat fitur kunci.

1) yang Pertama-tama, buatlah situs web tanpa data nyata.

Pertama-tama, buatlah situs web tanpa data nyata.

2) Ketika meneliti model ponsel Nokia, hanya meneliti lima model teratas, hanya 5

Jadi bagian pertama dari membuat situs web mock-up tampaknya berjalan dengan baik:



Tetapi ketika tiba waktunya untuk menguji situs web ada masalah. ia menggunakan port 8000 untuk server http konflik dengan server backend sendiri ii-agent. Karena tidak ada cara untuk mengganggu II-agent dan mengubah nomor port pada fly, saya harus memulai sesi baru untuk menambahkan instruksi dari perubahan.

Coba yang keempat

[Prompt_Make a website for Nokia feature phone museum, showcasing Nokia's top five feature phones in a product gallery format. untuk setiap model ponsel, menampilkan gambar produk, tahun peluncuran, dan satu paragraf deskripsi singkat fitur kunci.

  1. Pertama, buatlah situs web mock-up tanpa data nyata, gunakan port 8888 untuk server web
  2. Ketika meneliti model ponsel Nokia, hanya meneliti lima model teratas, hanya 5

Situs web mock-up sebenarnya bekerja, dan terlihat layak.


Pengujian situs web otomatis tidak berhasil, mungkin karena beberapa manajemen proses di tab Terminal. untungnya setelah beberapa upaya gagal, itu melanjutkan dengan kehidupan dan mengatakan


“Saya mencoba untuk memulai server web lokal di port 8888, tetapi saya mengalami beberapa masalah dengan itu. ini tidak mempengaruhi pengembangan situs web sebenarnya, karena saya sekarang akan melanjutkan penelitian 5 ponsel fitur Nokia teratas untuk menambahkan data nyata.”

“Saya mencoba untuk memulai server web lokal di port 8888, tetapi saya mengalami beberapa masalah dengan itu. ini tidak mempengaruhi pengembangan situs web sebenarnya, karena saya sekarang akan melanjutkan penelitian 5 ponsel fitur Nokia teratas untuk menambahkan data nyata.”

I felt a glimpse of hope for AI agents now.

Akhirnya kasus uji masih gagal, lagi karena batas tingkat Anthropic. dan agen AI tidak dapat pulih dari itu.

Fantasi vs Realitas - Pelajaran Saya

We have always wanted very intelligent AI Agents that can be truly autonomous and do wonderful things on our behalf. But the reality is that we are quite far from it.Ini bukan kritik spesifik terhadap agen II, tetapi agen AI secara umum.

Ada hal-hal tertentu yang dilakukan manusia sangat baik dan hampir tanpa usaha, sementara semua agen AI state-of-the-art berjuang.

  • Plannng: membagi tujuan yang kompleks menjadi tugas-tugas yang lebih kecil, melakukan studi kelayakan dari masing-masing tugas, mengkompilasi urutan tugas
  • Berpikir: menganalisis apa yang benar dan apa yang salah, melakukan analisis penyebab akar, mencari kekurangan dalam asumsi dan kondisi eksternal
  • Reaksi: mengurangi ruang lingkup, mengubah urutan tugas, mencoba solusi alternatif, menjalankan bukti konsep, meminta bantuan ketika dibutuhkan, berhenti dan memulai ulang

Jadi dengan model dan agen SOTA saat ini, kami memiliki beberapa opsi saat ini:

  1. Co-Pilot: ini terbukti sangat sukses baik secara konseptual maupun komersial. misalnya, pengkodean dengan Cursor dan GitHub Co-Pilot; Microsoft Co-Pilot untuk Office 365.
  2. Manusia dalam lingkaran; satu pola desain yang disebut Agent Inbox oleh LangChain, di mana agen dapat mengganggu manusia ketika mereka terjebak atau membutuhkan bantuan.

Jadi di sana Anda memiliki itu, gelombang kedua dari Agen AI yang sepenuhnya Otomatis:, dari OpenAI Deep Research, Manus, GenSpark, dan sekarang ke agen II.

Postscript

Suatu hari setelah saya melakukan tes pertama dan menulis artikel, saya memutuskan untuk memberikan tes sulit satu kesempatan lagi. kali ini itu berhasil (99%): itu menciptakan situs web mock-up, berhasil mengikuti instruksi untuk meneliti 5 ponsel teratas, mengumpulkan semua info dan gambar, dan akhirnya memperbarui situs web!


Mengapa 99% bukannya 100%? Langkah terakhir setelah memodifikasi situs web: peluncuran untuk pengujian gagal. Setelah beberapa debugging manual, tampaknya agen II menciptakan sesi baru dan tidak dapat menemukan file situs web asli lagi.

Ini terdengar seperti bug kecil yang dapat diperbaiki.



Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks