603 lecturas
603 lecturas

El modelo chino de IA promete Gemini 2.5 Pro a un cuarto del costo

Demasiado Largo; Para Leer

La startup china MiniMax está de vuelta en el centro de atención con su nuevo modelo de razonamiento abierto, MiniMax-M1, y es nada menos que impresionante.
featured image - El modelo chino de IA promete Gemini 2.5 Pro a un cuarto del costo
This Week in AI Engineering HackerNoon profile picture

¡Hola a los entusiastas!

Bienvenidos a la 24a edición de"This Week in AI Engineering"!

Esta semana, el foco brilla en MiniMax, la startup china de IA que acaba de lanzar un modelo de razonamiento abierto de nivel fronterizo, MiniMax-M1, con algunos benchmarks que caen en la mandíbula. También vimos a Google introducir una nueva variante de Flash-Lite que es más rápida y más barata. Mientras tanto, Kimi-Dev-72B emerge como uno de los modelos de codificación de código abierto más fuertes de todos los tiempos, apuntando a los flujos de trabajo de debug en el mundo real con una arquitectura de dos agentes.

Como siempre, vamos a envolver las cosas con herramientas y lanzamientos bajo el radar que merecen su atención.


MiniMax-M1 is INSANE

Inicio China MiniMaxestá de vuelta en el centro de atención con su nuevo modelo de razonamiento abierto, MiniMax-M1, y no es menos que impresionante. M1 admite una ventana de contexto de 1 millón de tokens, colocándolo en la misma clase que Gemini 2.5 Pro. Pero aquí está el kicker: gracias a su arquitectura híbrida Mixture-of-Experts y mecanismo de atención relámpago, logra la misma calidad de razonamiento que DeepSeek R1 a sólo el 25% del coste de computación.

Inicio China MiniMax
  • Variantes & BenchmarksMiniMax-M1 viene en dos variantes: M1-40K y M1-80K, refiriéndose a sus capacidades de salida de token. Ambos están construidos sobre la fundación del parámetro 456B MiniMax-Text-01, con sólo 45.9B activado por token.
  • On AIME 2024, M1-80K scored 86.0% accuracy. It also logged:
    • 65.0% on LiveCodeBench
    • 56.0% on SWE-bench Verified
    • 62.8% on TAU-bench
    • 73.4% on OpenAI MRCR (4-needle version)
  • Estos resultados lo sitúan por delante de Qwen3-235B y DeepSeek R1 en tareas de razonamiento de software y contexto a largo plazo.

Training Cost

  • El detalle más sorprendente es que fue entrenado con sólo 534,700 dólares de computación, utilizando 512 GPUs NVIDIA H800 durante tres semanas. Compare eso con los 5,6 millones de dólares de DeepSeek o los cientos de millones de dólares de pipelines de OpenAI, y usted se da cuenta de lo agresivamente MiniMax está optimizando para la eficiencia de costo sin comprometer el rendimiento.

Open Access and Developer Features

  • MiniMax-M1 incluye llamadas de funciones estructuradas, chatbots con capacidad de búsqueda en línea, generación de imagen/vídeo y clonación de voz a través de API. Para la implementación, soporta backends basados en vLLM y Transformers para el servicio listo para la empresa.
  • Este es un triunfo masivo para los modelos fronterizos de acceso abierto, especialmente para los flujos de trabajo de contexto largo y el desarrollo de agentes.

MiniMax Isn’t Done Yet: Meet Hailuo 02

  • Justo después de abandonar M1, también lanzaron Hailuo 02 , su modelo de texto a vídeo y imagen a vídeo más avanzado hasta la fecha, y está volviendo la cabeza.
  • Con clips de 6 segundos en 768p y soporte nativo para advertencias detalladas, Hailuo ofrece salidas físicamente coherentes, visualmente nítidas y basadas en la historia que compiten incluso con el Veo 3 de Google.
  • Lo que realmente lo distingue es el movimiento realista y el control de la cámara. Piensa en la gravedad precisa, las colisiones, los efectos de fluidos. Y el precio también es competitivo. A $ 0,25 por clip de 6s o $ 0,52 por 10s, es más barato que la mayoría de los modelos cerrados con este nivel de fidelidad.
  • MiniMax también envía una API con Hailuo, lo que facilita la integración para los desarrolladores.Si está construyendo para VFX, contenido cinematográfico o herramientas de historia interactiva, esta vale la pena una prueba.
Huelga 02

Gemini 2.5 Flash-Lite: Google’s Cheapest

Google anunció oficialmenteGemini 2.5 Pro y Flashgeneralmente disponibles para uso en producción. Estos modelos de razonamiento híbrido ya han sido implementados por socios como Snap, Rooms y SmartBear. Pero el verdadero destaco es el nuevo Gemini 2.5 Flash-Lite, ahora en previsión. Es el modelo más rápido y más barato de la familia 2.5. A pesar de eso, supera a Gemini 2.0 Flash-Lite en codificación, matemáticas, razonamiento, ciencia y referencias multimodales.

Gemini 2.5 Pro y Flash

Flash-Lite es compatible con:

  • Utilización de herramientas a través de ejecución de código y búsqueda de Google
  • Ingreso multimodal (texto, imágenes y audio)
  • Contexto de un millón de tokens
  • Tareas de baja latencia y alto rendimiento como clasificación, traducción y extracción de datos
  • El modelo ahora está en vivo en Google AI Studio, Vertex AI y la aplicación Gemini. Las primeras demostraciones incluyen la conversión de PDFs en dashboards interactivos y la automatización de informes de análisis de texto no estructurado.
  • Gemini 2.5 Flash-Lite es un competidor fuerte para los asistentes de IA en tiempo real y herramientas internas de alto volumen.

The Best Open Coding Model Yet?

El nuevo Kimi-Dev-72BSólo alcanzó el 60,4% en SWE-bench Verified, lo que lo convierte en el modelo de codificación de peso abierto más fuerte en este momento.Lo que diferencia a Kimi-Dev es su configuración de agente doble.

El nuevo Kimi-Dev-72B
  • BugFixer, que identifica y correcta el código defectuoso
  • TestWriter, que genera pruebas de unidades para confirmar y prevenir regresiones
  • Ambos agentes siguen una rutina de 2 pasos de localización de archivos y ediciones de código precisas.El modelo está entrenado en más de 150B de tokens de problemas y relaciones públicas del mundo real de GitHub, y luego se ajusta a fin con el aprendizaje de refuerzo y un mecanismo de autoplay para manejar tareas complejas de depuración.
  • Lo que destaca es su sistema de recompensas basado en los resultados y su tubería de capacitación de estilo curricular, que aumenta las tasas de éxito al filtrar las indicaciones débiles y reforzar las soluciones correctas.
  • Está disponible en GitHub y Hugging Face con los pesos del modelo, el código fuente y el informe de tecnología completo para seguir.Si está construyendo herramientas de revisión de código automatizado, desgaste o agente de desarrolladores, esto es un competidor serio.

AI Video Gets Wild: Kling & Midjourney

  • Si pensabas que el vídeo de AI no podía ser más cinematográfico, espere hasta que veas esto. la startup china KlingAI lanzó un corto de estilo Studio Ghibli, completo con texturas dibujadas a mano, movimientos soñadores. También compartieron algunos videos de ASMR.
  • Mientras tanto, Midjourney acaba de abrir su modelo de vídeo V1, convirtiendo cualquier imagen en una animación estilizada. Puedes controlar la intensidad del movimiento, seleccionar el movimiento “bajo” o “alto” e incluso ajustar el ritmo.
Un cortometraje de estilo Studio GhibliVídeo del modelo V1

Tools & Releases YOU Should Know About

Plataforma Unicornes un constructor de sitios web de primera generación diseñado para creadores independientes, startups y fundadores de SaaS. Viene con plantillas drag-and-drop, copywriting alimentado por IA y traducción integrada, todo optimizado para una implementación rápida. La plataforma también incluye SSL, CDN, herramientas de SEO e integraciones para formularios y boletines de noticias. El plan gratuito incluye un sitio en vivo, mientras que los planes pagados desbloquean características de equipo y múltiples proyectos.

Plataforma Unicorn

Codificación'Python Code Generator simplifica el desarrollo mediante la transformación de instrucciones de lenguaje natural en código listo para la producción a través de una interfaz intuitiva. La herramienta soporta más de 60 lenguajes de programación y marcos. Los usuarios simplemente describen sus requisitos en inglés simple, y CodingFleet proporciona fragmentos de código limpios y documentados con guía de implementación.Se construye para desarrolladores que desean resultados rápidos y precisos en las pilas.

Codificación

* ElAirCodum* Permite a los desarrolladores interactuar sin problemas con su entorno de codificación utilizando los comandos de toque, voz y teclado personalizado.Con AirCodum, los usuarios pueden transferir archivos, imágenes y fragmentos de código entre sus dispositivos móviles y VS Code sin esfuerzo.


Y eso envuelve esta cuestión de "This Week in AI Engineering."

¡Gracias por ajustar! asegúrese de compartir este boletín con sus compañeros entusiastas de la IA y siga para obtener más actualizaciones semanales.

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks