143 lecturas

El agente de IA de código abierto II toma el liderazgo en las guerras de referencia - ¿Pero ¿Es verdaderamente autónomo?

por Bruce Li10m2025/05/28
Read on Terminal Reader

Demasiado Largo; Para Leer

Una primera mirada y prueba práctica del agente II, afirmó ser el agente de IA autónomo más inteligente del mercado.
featured image - El agente de IA de código abierto II toma el liderazgo en las guerras de referencia - ¿Pero ¿Es verdaderamente autónomo?
Bruce Li HackerNoon profile picture


Introducción

Hace unos días, otro agente de IA golpeó. Se llama magníficamente “Internet inteligente” o agente II, afirmando ser el más inteligente del mundo pero totalmente de código abierto!Un agente autónomo¿Cuáles son las características de la inteligencia? ¿Cómo se ajusta a otros agentes de la IA comoOpenAI Investigación Profunda, deManus, yGéneros?

En este artículo, no solo responderemos a las preguntas anteriores, sino que también llevaremos a cabo algunos casos de prueba en el mundo real para ver si tales agentes de IA realmente cumplen.

Según el agente IIArtículo Blog Oficial, supera a otros agentes de inteligencia artificial de fuente cerrada en la puntuación de GAIA.


Nota del autor: GAIA es un punto de referencia para los asistentes de IA generales que proponen preguntas del mundo real que requieren habilidades fundamentales como el razonamiento, el manejo de múltiples modalidades, la navegación web y el uso de herramientas - preguntas que son conceptualmente simples para los humanos, pero difíciles para la mayoría de las IA avanzadas, con los respondentes humanos alcanzando una precisión del 92% frente a sólo el 15% para GPT-4 equipado con plugins.

Qué es el II-Agente

Características y logros únicos

II-Agent es un framework de asistente inteligente de código abierto que supera los estándares para los agentes disponibles al tiempo que mantiene la transparencia y la auditabilidad completas. sus capacidades centrales abarcan la investigación y la verificación de hechos con búsqueda web en múltiples pasos, la generación de contenido, incluyendo diseños de blogs y manuales técnicos, el análisis de datos con informes automatizados, el desarrollo de software en varios idiomas, la automatización del flujo de trabajo y la resolución de problemas avanzada.

El sistema cuenta con una arquitectura sofisticada con el Claude 3.7 Sonnet de Anthropic en su núcleo, gestión de contexto inteligente que puede manejar hasta 120.000 tokens, automatización avanzada del navegador con capacidades de visión y comunicación en tiempo real WebSocket para casos de uso interactivos.

Posición competitiva frente a los marcos líderes:

II-Agent se posiciona como una alternativa de código abierto superior a los principales agentes de código cerrado como Manus (que alcanzó el 65% en el índice GAIA) y GenSpark AI. Mientras que los intentos anteriores de código abierto como OpenManus por la Fundación Agent y Suna por Kortix-AI “han intentado replicar las capacidades de Manus y GenSpark”, ninguno “ha llegado cerca de coincidir con su rendimiento o lograr resultados de referencia comparables”.

II-Agent aborda esta brecha no solo al coincidir, sino al superar el rendimiento de referencia, manteniendo las ventajas críticas de ser de código abierto, transparente y extensible - cualidades consideradas esenciales para las industrias reguladas y la máxima adopción.

Ejemplos de casos de uso


arquitectura técnica

Puedes encontrar el repositorio de GitHub de II-AgentAquí.

Arquitectura de alto nivel

II-Agent proporciona dos interfaces primarias: una herramienta de línea de comandos (cli.py) para interacciones directas basadas en terminales y un servidor WebSocket (ws_server.py) que alimenta un frontend basado en React que vive en el frontend / directorio (GitHubEn su corazón se encuentra un núcleo de agente modular en src/ii_agent/, que orquesta llamadas LLM (a través de los llm/ clientes), maneja la lógica de planificación y reflexión, y envía tareas de ejecución (definidas en herramientas/) aprovechando utilidades compartidas de utils/ (GitHubLa comunicación en tiempo real se logra a través de WebSockets, con instancias aisladas de agentes que transmiten eventos a la interfaz de usuario del navegador para una experiencia de usuario responsiva (GitHub) de


Arquitectura interna detallada

Dejemos que examine más de cerca los módulos específicos dentro de la estructura del repositorio II-Agent.


Agents Module (src/ii_agent/agents/)Este módulo contiene las implementaciones de agentes centrales que sirven como el componente central de orquestación, gestionando el ciclo operativo del agente a través de razonamiento iterativo y selección de capacidades.Los agentes manejan la solicitud del sistema con un contexto adaptado dinámicamente, mantienen un historial de interacción completo y se coordinan con el LLM para interpretar las instrucciones del usuario y decidir cómo proceder con las tareas.

LLM Interface Module (src/ii_agent/llm/)Este módulo proporciona la capa de interfaz para interactuar con grandes modelos de idiomas, optimizada específicamente para el Claude 3.7 Sonnet de Anthropic. maneja tanto el acceso directo a la API Anthropic como el enrutamiento de Google Cloud Vertex AI, gestionando la autenticación, la formatación de solicitudes y el procesamiento de respuestas. El módulo implementa gestión de contexto inteligente con estimación de uso de token y técnicas de truncado estratégico para manejar conversaciones de hasta 120.000 tokens manteniendo la calidad y relevancia de la conversación.

Tools Module (src/ii_agent/tools/)Este módulo abarca el rico conjunto de capacidades de ejecución que permiten al agente interactuar con su entorno, incluyendo operaciones del sistema de archivos con edición de código inteligente, ejecución de línea de comandos en entornos seguros, interacción web avanzada y automatización de navegadores, y capacidades especializadas para diversas modalidades. Las herramientas soportan extracción de texto PDF, transcripción de audio, síntesis de habla, generación de imagen, generación de vídeo y integración de investigación profunda. Las capacidades de automatización del navegador están construidas en Playwright con integración de visión, permitiendo al agente navegar por páginas web, capturar capturas de pantalla y analizar contenido visual.

Utilities Module (src/ii_agent/utils/)Este módulo proporciona infraestructura de soporte, incluyendo el sistema de gestión de contexto que maneja la estimación y optimización de tokens, mecanismos de archivo basados en archivos para grandes salidas, protocolos de comunicación WebSocket para la interacción en tiempo real, y varias funciones auxiliares para el procesamiento de datos y las operaciones del sistema.

Dependencia de otros marcos de código abierto

II-Agent se integra estrechamente con múltiples servicios y bibliotecas de código abierto. Para sus backends LLM, soporta Anthropic Claude a través del SDK Anthropic Python y Vertex AI de Google a través del cliente google-cloud-aiplatform, mientras que también ofrece proveedores de búsqueda plug-and-play como Tavily, Jina, Firecrawl y SerpAPI (GitHubEn el frontend y el lado de las herramientas, se construye en la parte superior de una pila React/Node.js (convenciones Next.js) y aprovecha los proyectos orientados a la comunidad - principalmente AugmentCode para la orquestación de tareas de ingeniería de software, los patrones de arquitectura de prompt de Manus y el kit de herramientas de uso de navegador de índice para interacciones web avanzadas (GitHub) de

Caso de prueba fácil

Primero quería probar un caso de prueba simple para establecer una línea de base.Y no hay mejor caso de prueba simple que el juego Nokia Snake.Aunque se mencionó en sus casos de ejemplo, agregé un pequeño giro de que debería ser un juego móvil html5.

[Prompt] :Recrea el juego de la serpiente de Nokia como un juego web HTML5

And it was a success from the first attempt!No sólo el juego está listo para jugar, sino que añadió elementos de diseño específicos para el teléfono Nokia que hicieron que el juego fuera auténtico.

Author’s Notes: Como referencia, el mismo prompt en Claude Sonnet 3.7 produce una aplicación de aspecto similar, pero inmediatamente muestra "Game Over" cuando un usuario intenta jugar.

Ahora echemos un vistazo más detallado a cómo el agente II logró esto:

First the II-agent created a plan(Siempre importante para los agentes autónomos):

  1. Configurar la estructura HTML básica con un elemento canvas
  2. Crear estilos CSS para el diseño del juego
  3. Implement the core Snake game logic in JavaScript:
    • Snake movement and controls
    • Food generation
    • Collision detection
    • Score tracking
    • Game over handling
    • Snake movement and controls
  4. Añadir elementos visuales de estilo Nokia (arte de píxeles, esquema de colores)
  5. Implementación de controles móviles
  6. Prueba el juego en profundidad
  7. Despliega el juego para que puedas jugarlo

Luego creó los archivos pertinentes y implementó el código.Y finalmente lo implementa como una aplicación web para que pueda probarlo.El webui del agente II es similar a Claude, donde se pueden ver tres pestañas principales en el lado derecho: navegador, código, terminal.

Caso de prueba difícil

Dado que el juego Nokia Snake está bien documentado y probado en muchos LLM de codificación y agentes de IA diferentes, sería bueno hacer un caso de prueba que va más allá de la codificación simple.

El objetivo es permitir que los agentes debuild a website for Nokia’s historical feature phonesque inherentemente incluyeresearch(Noticias de los teléfonos móviles de Nokia)design(Diseño de sitios web)coding, ybrowser use(Brucear por Internet para obtener imágenes y especificaciones de productos, probar el sitio web final).

Los resultados demuestran que aún queda un largo camino por recorrer.

Primer intento

[Prompt]Cree un sitio web para el museo de teléfonos móviles Nokia, mostrando todos los teléfonos móviles Nokia en un formato de galería de productos. Para cada modelo de teléfono, muestra la imagen del producto, el año de lanzamiento, las unidades vendidas y una breve descripción de las características clave en un párrafo.

Creó un plan decente para hacer frente a este desafío


  1. Research Nokia feature phone models to collect information on:
    • Product images
    • Launch years
    • Units sold
    • Key features for descriptions
  2. Design the website layout:
    • Create a responsive main page with an introduction to Nokia feature phones
    • Implement a product gallery section to display all phone models
    • Include individual phone detail sections
    • Add navigation and search functionality
  3. Develop the website using:
    • HTML for structure
    • Tailwind CSS for styling
    • JavaScript for any interactive elements (if needed)
  4. Test the website for:
    • Responsiveness
    • Proper display of information
    • Navigation functionality
  5. Despliegue el sitio web y proporcione la URL final

Luego se siguió haciendo la investigación, mucha investigación. puedo ver desde la pestaña “Browser” que está navegando por Internet durante mucho tiempo,But eventually it failed and stoppedUna de las tareas de navegación está programada en un sitio web lento en particular.

The AI agent’s plan did not include any exception handling and error recovery mechanism.

Segundo intento

Dado que en el primer intento, el agente trató demasiado duro para obtener información sobre TODOS los teléfonos Nokia, Mi segundo intento tenía como objetivo reducir el alcance a los primeros 5 teléfonos Nokia.

[Prompt] :Crea un sitio web para el museo de teléfonos móviles de Nokia, mostrando las características de Nokia Top 5 teléfonos móviles Para cada modelo de teléfono, mostrar la imagen del producto, el año de lanzamiento y una breve descripción de las características clave en un párrafo.

Top 5 teléfonos móviles

Esta vez el agente fracasó y se detuvo de nuevo, debido a una razón diferente. el límite de tasa antropófila entra y arroja un error.

Además, hay otro error brillante. El agente AIdid NOT follow user instructionDe "limitar la investigación a solo "Top 5 teléfonos", y en lugar de ir a la investigación de todos los teléfonos de características.

Tercer intento

Pensando que la tercera vez podría ser un encanto, pensé por qué no dejar que el agente crea el sitio web de mockup primero, y luego investiga los modelos de teléfono? De esta manera podemos tener al menos una prueba de concepto en caso de que la investigación del modelo de teléfono se encuentre atrapado de nuevo.

[Prompt] :Cree un sitio web para el museo de teléfonos móviles de Nokia, mostrando los cinco mejores teléfonos móviles de Nokia en un formato de galería de productos. Para cada modelo de teléfono, muestra la imagen del producto, el año de lanzamiento y una breve descripción de las características clave en un párrafo.

1) El Construir un sitio web sin datos reales

Construir un sitio web sin datos reales

2) Cuando la investigación de los modelos de teléfonos Nokia, sólo la investigación de los cinco primeros modelos, sólo 5

Así que la primera parte de la creación del sitio web de mock-up parece estar funcionando bien:



Pero cuando es el momento de probar el sitio web hay un problema. utiliza la puerta 8000 para los conflictos de servidor http con el servidor backend propio de ii-agent. Como no hay manera de interrumpir el II-agent y cambiar el número de puerto en el vuelo, tengo que iniciar una nueva sesión para añadir instrucciones de los cambios.

El cuarto intento

[Prompt_Make a website for Nokia feature phone museum, showcasing Nokia's top five feature phones in a product gallery format. Para cada modelo de teléfono, mostrar la imagen del producto, año de lanzamiento, y un párrafo breve descripción de las características clave.

  1. Primero construye un sitio web de mock-up sin datos reales, use la puerta 8888 para el servidor web
  2. Cuando se investiga los modelos de teléfonos Nokia, sólo se investigan los cinco primeros modelos, sólo 5

El sitio web de mock-up realmente funciona, y parece decente.


La prueba automática del sitio web no funcionó, probablemente debido a alguna gestión de procesos en la pestaña de Terminal. Afortunadamente, después de varios intentos fallidos, continuó con la vida y dijo:


“Intenté iniciar un servidor web local en el puerto 8888, pero estoy experimentando algunos problemas con él. Esto no afecta al desarrollo real del sitio web, ya que ahora procederé a investigar los 5 mejores teléfonos de Nokia para agregar los datos reales”.

“Intenté iniciar un servidor web local en el puerto 8888, pero estoy experimentando algunos problemas con él. Esto no afecta al desarrollo real del sitio web, ya que ahora procederé a investigar los 5 mejores teléfonos de Nokia para agregar los datos reales”.

I felt a glimpse of hope for AI agents now.

Finalmente, el caso de prueba todavía fracasó, nuevamente debido al límite de tasa de Anthropic.

Fantasía vs Realidad - mi aprendizaje

We have always wanted very intelligent AI Agents that can be truly autonomous and do wonderful things on our behalf. But the reality is that we are quite far from it.Esta no es una crítica específica del agente II, sino de los agentes de IA en general.

Hay ciertas cosas que los humanos hacen extremadamente bien y casi sin esfuerzo, mientras que todos los agentes de inteligencia artificial luchan.

  • Plannng: descomponer metas complejas en tareas más pequeñas, realizar un estudio de viabilidad de cada tarea, compilar el orden de las tareas.
  • Razonamiento: analizar lo que fue bien y lo que fue mal, realizar análisis de causas raíces, buscar defectos en las suposiciones y condiciones externas.
  • Reacción: reducir el alcance, cambiar el orden de las tareas, probar soluciones alternativas, ejecutar la prueba de conceptos, pedir ayuda cuando sea necesario, parar y reiniciar de nuevo

Así que con los modelos y agentes de SOTA de hoy, tenemos algunas opciones ahora mismo:

  1. Co-Pilot: esto resulta ser muy exitoso tanto conceptualmente como comercialmente. por ejemplo, codificación con Cursor y GitHub Co-Pilot; Microsoft Co-Pilot para Office 365.
  2. Un patrón de diseño llamado Agent Inbox por LangChain, donde el agente puede interrumpir a los humanos cuando están atrapados o necesitan ayuda.El reto sigue siendo que si los agentes de IA pueden ser lo suficientemente inteligentes para decidir cuándo emitir las interrupciones.

Así que ahí lo tienes, la segunda ola de Agente de IA totalmente autónomo: desde la investigación profunda de OpenAI, Manus, GenSpark, y ahora hasta el agente II.

Postscriptos

Un día después de hacer las primeras pruebas y escribir el artículo, decidí dar la difícil prueba una oportunidad más.Esta vez funcionó (99%): creó el sitio web de mock-up, siguió con éxito las instrucciones para investigar los 5 mejores teléfonos, recogió toda la información e imágenes, y finalmente actualizó el sitio web!


¿Por qué 99% en lugar de 100%? El último paso después de modificar el sitio web: el lanzamiento para la prueba fracasó. Después de algún desgaste manual, parece que el agente II creó una nueva sesión y ya no puede encontrar los archivos del sitio original.

Esto suena como un pequeño bug que se puede corregir.



Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks