¿Los almacenes de datos tradicionales están siendo desviados por Agentic AI?

Desde una perspectiva de arquitectura técnica, creo que esta ola de IA va a remodelar profundamente todo el ecosistema de software. Los sistemas DSS están diseñados en torno a la lógica de la toma de decisiones humana como el consumidor final. Sin embargo, con el advenimiento de la era de la IA Agentic, el "consumidor" final es más probable que sea un agente. Esto llevará a un rediseño completo -o incluso la eliminación- de almacenes de datos tradicionales y tuberías ETL complejas. Los almacenes de datos convencionales enfatizan los patrones de estructura y consulta, pero serán reemplazados por las arquitecturas de la pila de datos de la Agentic centrándose en los patrones de semántica y respuesta. Abstract: Introducción: La señal detrás del cambio de CEO de Snowflake En la primavera de 2024, Snowflake, una estrella en el espacio de almacenamiento de datos en la nube, anunció un cambio en el liderazgo: Sridhar Ramaswamy, ex jefe del negocio de publicidad de Google, sucedió al legendario CEO Frank Slootman, quien había ayudado a Snowflake a alcanzar una valoración de 60 mil millones de dólares. Si usted piensa que esto es solo una rutina ejecutiva, no está viendo el cuadro completo.La verdadera implicación es que el paradigma del mundo del almacén de datos está sufriendo una transformación silenciosa pero profunda. Desde las bases de datos OLTP hasta los almacenes de datos MPP, desde la computación MPP localizada hasta los motores de datos en la nube vectorizada, cada etapa representa un salto hacia la próxima generación de tecnología, y de un producto dominante al siguiente. Desde las bases de datos OLTP hasta los almacenes de datos MPP, desde la computación MPP localizada hasta los motores de datos en la nube vectorizada, cada etapa representa un salto hacia la próxima generación de tecnología, y de un producto dominante al siguiente. Slootman representó la "era dorada del almacenamiento de datos." apostó por las arquitecturas nativas de la nube, multi-tenedores y posicionó Snowflake como el núcleo central de la plataforma de datos de próxima generación.Bajo su liderazgo, Snowflake interrumpió directamente a mi primer empleador -Teradata, el antiguo gigante del almacenamiento de datos- que vio su valor de mercado caer de $ 10,2 mil millones a sólo $ 2 mil millones. Justo cuando se retiró, las palabras clave en el blog oficial de Snowflake cambiaron sutilmente a: arquitectura de datos orientada a la inteligencia artificial, orientada a agentes y semánticamente. No es una coincidencia, es una señal de los tiempos. No es una coincidencia, es una señal de los tiempos. Al mismo tiempo, los VC más avanzados de Silicon Valley están apostando por un nuevo concepto: “IA agente”.En este nuevo paradigma, la IA ya no es solo un modelo, es un agente que puede percibir, actuar, establecer metas y colaborar. Así que aquí está la pregunta: Cuando la IA ya no es sólo una “herramienta de chat”, sino un agente inteligente capaz de detectar cambios en el negocio, comprender las intenciones y ejecutar acciones, ¿pueden los almacenes de datos tradicionales, diseñados para los humanos, todavía satisfacer las necesidades de los agentes? Cuando la IA ya no es sólo una “herramienta de chat”, sino un agente inteligente capaz de detectar cambios en el negocio, comprender las intenciones y ejecutar acciones, ¿pueden los almacenes de datos tradicionales, diseñados para los humanos, todavía satisfacer las necesidades de los agentes? Los almacenes de datos, una vez considerados “activos de datos” vitales de la empresa, ahora corren el riesgo de convertirse en meras “bibliotecas de material de datos” para los agentes. De hecho, incluso el término “material” está perdiendo valor, porque una pila de datos de agentes puede acceder directamente a los datos crudos y alimentarlos a agentes de ventas de capa superior, agentes de riesgo y otros en un formato semántico + de datos. El verdadero peligro no es simplemente ser eliminado, es que todavía estás operando por las viejas reglas mientras el mundo ya ha cambiado el guión. El verdadero peligro no es simplemente ser eliminado, es que todavía estás operando por las viejas reglas mientras el mundo ya ha cambiado el guión. No se trata de despreciar los almacenes de datos, se trata de los ciclos recurrentes de la historia de la tecnología. Al igual que Hadoop e Iceberg una vez remodelaron el paisaje del lago de datos, Agentic AI ahora está reescribiendo la arquitectura de grandes datos de la empresa. 1970-2024: La evolución de las arquitecturas de almacenamiento de datos 1970: El padre del almacenamiento de datos - Bill Inmon Bill Inmon, el “padre del almacenamiento de datos”, fue el primero en proponer el concepto de un EDW (Enterprise Data Warehouse) como una “colección de datos orientada al tema, integrada, variable en el tiempo y no volátil”, poniendo las bases para la arquitectura de datos corporativos durante el próximo medio siglo. He tenido la suerte de estudiar y participar en la traducción de la primera edición de Hace más de 20 años durante mi tiempo en la Universidad de Pekín bajo la guía del Profesor Tang Shiwei. las descripciones de áreas de tema, la arquitectura de la capa de datos y las dimensiones que cambian lentamente (tablas vinculadas a la historia) de este libro han durado desde el siglo pasado hasta hoy, convirtiéndose en conceptos fundamentales para el almacenamiento de datos. Construcción del Data Warehouse 1983: Teradata es nacido - MPP Architecture toma el escenario En 1983, Teradata fue fundada, la compañía que dominó la infraestructura de almacenamiento de datos corporativos durante los próximos 30 años. Este fue también mi primer trabajo después de graduarse. Teradata fue la primera en introducir la arquitectura MPP (Massively Parallel Processing) en los sistemas de datos. Con su software y hardware estrechamente integrados y el diseño MPP basado en Bynet, Teradata superó significativamente a Oracle y DB2 en el procesamiento de datos masivo y las consultas SQL complejas. La primera vez que usé Teradata, me sorprendió tanto como cuando más tarde probé ClickHouse para consultas de tabla amplia. Cuando me uní a Teradata, todavía era un departamento bajo NCR, y mi tarjeta de visita parecía así. . Adiós a mi alma mater de almacenamiento de datos: Teradata abandona oficialmente China 1996: Kimball propone el “Sistema de niebla”; los motores OLAP surgen Después de Bill Inmon, Ralph Kimball introdujo el concepto del “data mart” y redefinió la modelización de datos con el esquema de estrellas y esquema de rayas de nieve. Durante las siguientes varias décadas, los arquitectos de datos debatieron continuamente si construir primero un almacén de datos centralizado o marcos de datos separados. En la capa BI, comenzaron a surgir motores MOLAP como Hyperion Essbase y Cognos. Décadas más tarde, una nueva generación de empresas de almacenamiento de datos incluso adoptaron “Snowflake” como su nombre de marca, inspirado en el esquema de flocos de nieve. 2013: The Big Data Boom — Hadoop toma el mundo por tormenta Con el lanzamiento de Apache Hadoop en 2006, las empresas comenzaron a adoptar ampliamente sistemas de datos grandes con costes de almacenamiento bajos. Viktor Mayer-Schönberger definió los grandes datos con los “4Vs”: , de , de , y . Big Data: una revolución que transformará la forma en que vivimos, trabajamos y pensamos Volume Velocity Variety Value Esto marcó el comienzo de una ola masiva de la construcción de plataformas de datos grandes. Durante los próximos 10 años, surgió una nueva generación de tecnologías de datos grandes —Apache Hadoop, Hive, Spark, Kafka, DolphinScheduler, SeaTunnel, Iceberg, y más. Las plataformas de datos grandes comenzaron a sacudir el dominio de los almacenes de datos tradicionales. De hecho, después de 2015, la mayoría de las empresas chinas que se ocupan del almacenamiento de datos a escala de petabytes ya no utilizaban arquitecturas de almacenamiento de datos MPP tradicionales. 2015: Snowflake estalla en el escenario, la nueva pila de datos se eleva Con el surgimiento de la nube y el lanzamiento del artículo de Marcin Zukowski sobre motores “vectorizados”, Snowflake surgió con una arquitectura nativa de la nube que separaba la computación y el almacenamiento, interrumpiendo por completo el pensamiento tradicional de almacenamiento de datos. Snowflake transformó el “almacenamiento de datos” en la “nube de datos”. Esto llevó al surgimiento de una nueva generación de pilas de tecnología de almacenamiento de datos. Siguieron herramientas como Fivetran, Dagster, Airbyte, DBT y WhaleStudio, dando lugar a la De hecho, la generación anterior de ETL y herramientas de ingeniería de datos —Informatica, Talend, DataStage— se originó en la década de 1980. Nuevos datos Stack En general, a lo largo de las últimas décadas, ya se trate de almacenes de datos tradicionales, plataformas de datos grandes, almacenes de datos en la nube o lagos de datos, sus arquitecturas han seguido esencialmente la estructura mostrada en el diagrama a continuación: En la era Inmon, esta arquitectura se llamaba un sistema DSS (Sistema de Apoyo a la Decisión). Toda la pila de tecnología de almacenamiento de datos fue diseñada para usuarios humanos. the “support” was always intended for humans. La arquitectura del almacén de datos también fue diseñada para los ingenieros de datos.Por eso teníamos múltiples áreas de tema, capas atómicas, capas de agregación y capas métricas para ayudar a los ingenieros de ETL en el desarrollo.Las herramientas de BI también necesitaban definir esquemas de estrellas y manchas de nieve, con interfaces de arrastre y caída para informes y dashboards.Todos los consumidores eran humanos. But in the era of large-model agents, all of this is about to change dramatically. ¿Están los agentes devorando almacenes de datos tradicionales?! A finales de 2022, OpenAI lanzó ChatGPT, iniciando la era de los grandes modelos de idiomas. Desde 2023, Llama, Claude, Gemini, GPT-4o, DeepSeek... los modelos multimodales han evolucionado rápidamente. la IA ya no es sólo un modelo de lenguaje, sino un “motor de inteligencia general” capaz de comprender y tomar decisiones para tareas complejas. En 2024, la tecnología RAG (Retrieval-Augmented Generation) pasó al mainstream. Herramientas como LlamaIndex, LangChain y Dify ganaron amplia adopción. Para 2025, la arquitectura de agentes ha aumentado completamente. tecnologías y protocolos como AutoGPT, Function Calling y el protocolo MCP han surgido. la IA ya no es sólo una herramienta de chat - ahora tiene capacidades de percepción, planificación y ejecución, convirtiéndose en un "empleado digital". En el dominio de datos, la llegada de grandes modelos también ha traído grandes perturbaciones. ¿Has utilizado el Analista de Datos de ChatGPT? Si es así, probablemente te sorprendió su rendimiento. Puede ayudar a un usuario empresarial a generar un informe analítico detallado de un conjunto de datos desde múltiples perspectivas. Puede sustituir prácticamente a un analista de datos junior. En varias capas, también han surgido muchas herramientas de "automatización", como ChatBI y TXT2SQL, cada uno aprovechando grandes modelos y agentes para automatizar o semi-automatizar los procesos de desarrollo de almacenes de datos. En el futuro, aparecerán más y más agentes, no sólo en el análisis de datos, sino también en la optimización de campañas publicitarias, el servicio al cliente y la gestión de riesgos. Ultimately, AI will no longer be a “passive answering tool,” but an “intelligent agent proactively achieving goals.” Durante los últimos 20 años, los “usuarios” de las plataformas de datos han sido típicamente ingenieros de datos, analistas y profesionales de BI. En los próximos 20 años, every role—from analyst to supply chain operator—may be redefined by Agents: Marketers will have a Campaign Agent that automatically integrates multi-channel data, optimizes placements, and generates copy; Customer service reps will have a Support Agent that’s more than a chatbot—it will be a context-aware assistant with knowledge graphs and memory; The supply chain team will have a Procurement Agent that parses orders, tracks delivery timelines, fetches ERP data, and auto-replenishes inventory; Legal teams will have a Compliance Agent, HR will have a Hiring Agent, and even the board of directors could have a Board Agent… El SQL que escribiste todos los días, los informes que compilaste y las reuniones de operaciones que asistieras se están convirtiendo en acciones desencadenadas por agentes, comandos semánticos y respuestas automatizadas. Sin embargo, una realidad urgente sigue: Si los usuarios finales de los datos son agentes, e incluso el desarrollo del almacén de datos es hecho por agentes, y los tomadores de decisiones finales que utilizan los datos son agentes en lugar de "hombres", ¿tiene sentido la arquitectura del almacén de datos original de DSS (Sistema de Apoyo a la Decisión)? Si los usuarios finales de los datos son agentes, e incluso el desarrollo del almacén de datos es hecho por agentes, y los tomadores de decisiones finales que utilizan los datos son agentes en lugar de "hombres", ¿tiene sentido la arquitectura del almacén de datos original de DSS (Sistema de Apoyo a la Decisión)? Cualquiera que haya estudiado ingeniería de software sabe que el primer diagrama que dibujas al diseñar un sistema es el diagrama de "caso de uso" - define los usuarios, límites y escenarios de comportamiento del sistema. When the user of a data warehouse shifts from human to Agent, the DSS architecture envisioned by Bill Inmon no longer holds water. At least in my view, it doesn’t. When the user changes, the software must change too. The rise of Agents isn’t just a win for large models—it’s a complete disruption of how we perceive the user experience: Traditional data systems operated in a “pull model”: the user knew the problem, queried the data, and extracted conclusions. Future Agents operate in a “push model”: the system proactively senses changes, understands intent, and generates decision suggestions. Es como pasar de los mapas tradicionales a la navegación GPS: Ya no tienes que saber “dónde está el camino” – simplemente dices al sistema dónde quieres ir, y te lleva allí. Ya no tienes que saber “dónde está el camino” – simplemente dices al sistema dónde quieres ir, y te lleva allí. Traditional data warehouses focus on structure and querying, whereas Agentic architectures prioritize semantics and responsiveness. En pocas palabras: quien entienda el lenguaje de los negocios gobernará el mundo de los datos. Agentic Data Stack and Contextual Data Unit (CDU): Datos con semántica incorporada Para que los agentes desarrollen y utilicen datos automáticamente, el diseño de almacenamiento de datos de hoy no es adecuado —nunca se pensó en modelos grandes o agentes. Lo que se almacena dentro son datos “rayos” —sólo valores numéricos y nombres de columnas. Lo que estos valores o campos realmente significan se almacena en un sistema de gestión de “activo de datos” separado. Comprender cada valor o campo requiere un proyecto de “gobierno de datos” completo. Este diseño no es amigable con los modelos y agentes grandes, que dependen de razonamiento semántico. Yo llamo esto: data and semantics together Unidad de datos contextuales (CDU): una unidad de doble elemento que combina datos + explicación semántica - cada entrada de datos lleva su significado con ella. Unidad de datos contextuales (CDU): una unidad de doble elemento que combina datos + explicación semántica - cada entrada de datos lleva su significado con ella. Fusionan la información almacenada tradicionalmente en los catálogos de datos directamente en cada entrada de datos, reduciendo el tiempo de búsqueda y la tasa de error cuando los agentes o los grandes modelos acceden a ella. Mientras tanto, la semántica en CDU se deriva de los sistemas empresariales, son destilados y abstractos por los agentes de flujo de datos en la fuente. La CDU se forma durante la ingestión, fluyendo en un lago de datos de agentes, no generado después. En otras palabras, la gobernanza de datos y el lineado se enmarcan en el proceso de desarrollo impulsado por agentes, no se aplican retroactivamente después de que los datos hayan entrado en el almacén, evitando conflictos y ambigüedades. En este punto, usted debe entender mi pensamiento: en la era de la IA Agentic, todo, desde ETL a almacenamiento a la aplicación de datos, se redefinirá porque la Para servir a estos agentes inteligentes, las plataformas de datos tradicionales deben evolucionar a una arquitectura denominada agente, semánticamente consciente, orientada a eventos, lo que llamamos la arquitectura de agentes. . consumers are now Agents and models. Agentic Data Stack Agentic Data Stack: en la era de los agentes, una nueva pila de tecnología de datos que va desde herramientas para obtener "datos + semántica", a plataformas que computan y almacenan datos en formato CDU, y finalmente a la capa de interacción que entrega estos datos a los agentes. Agentic Data Stack: en la era de los agentes, una nueva pila de tecnología de datos que va desde herramientas para obtener "datos + semántica", a plataformas que computan y almacenan datos en formato CDU, y finalmente a la capa de interacción que entrega estos datos a los agentes. Aquí está mi audaz predicción de lo que la estaca de datos de agentes podría incluir: This is no longer a BI/dashboard interface, but the “brain” and “command center” of the Agentic architecture. With natural language understanding and semantic reasoning capabilities, it bridges other agents with underlying data assets, enabling intelligent, multi-round interactions and service generation. Semantic Orchestrator (Interaction Layer): No longer a traditional Data Warehouse or Data Lake—it’s a service-oriented, computation-friendly fusion layer that stores data with semantics. It can supply data for complex computations by LLMs while also supporting real-time processing. Data Mesh (Storage Layer): Not just “moving data,” but understanding and orchestrating data. Not scheduled periodically, but event-driven and intent-driven. Capable of detecting data changes, analyzing schemas, understanding business logic, and responding accordingly. Data Flow Agent (Processing Layer): Nuevos datos son descubiertos por los agentes de flujo de datos, pre- almacenados en la red de datos, e interpretados por el Semantic Orchestrator con definiciones alineadas con el negocio - finalmente permitiendo la "computacin instantánea" de la demanda de negocios a la salida de datos. LLMs provide the brainpower. Agents are the hands and feet. Agentic Data Stack gives them the data accessibility needed in the era of large models. Con el aumento de la Agentic Data Stack, el coste de la construcción de la próxima generación de “entrepos de datos” disminuye drásticamente. Tener capacidades de consulta en lengua natural y acceso a los datos relevantes no solo será el privilegio de las grandes empresas, sino que se convertirá en accesible para pequeñas empresas e incluso individuos. Puedes capturar tus archivos de Google Drive, NAS de casa, PDFs en tu portátil y pedidos de aplicaciones desde tu teléfono a tu almacenamiento de datos personales a través de un Agente de flujo de datos. Luego, pregunta una pregunta como “¿Cuánto gasté en visitar Disney el mes pasado?” – algo que antes requería exportar desde múltiples plataformas y construir manualmente hojas de Excel. Recientemente, bajo el liderazgo de WhaleOps, la comunidad de Apache SeaTunnel lanzó Apache SeaTunnel MCP Server, ya avanzando hacia convertirse en un agente de flujo de datos. Por supuesto, todavía hay obstáculos técnicos a superar, como los protocolos A2A inmaduros, modelos de almacenamiento de datos semánticos + no probados en la capa de Data Mesh, y la transformación de las salidas de gobernanza heredadas en entradas para el Semantic Orchestrator. Pero la llegada de la era del LLM y el Agente volverá a dar forma a la industria de análisis de datos al igual que la invención de SQL una vez lo hizo. Nunca es tu competidor “visible” quien te gana. Una historia: Cuando era niño, dos marcas populares de bicicletas eran Forever y Phoenix. Compitieron por la velocidad a través de “axilas aceleradas”.Pero lo que perturbó el mercado de bicicletas no fue una bicicleta mejor – era una compañía de entrega de alimentos que lanzó bicicletas compartidas, volviendo a toda la industria.A medida que los agentes crecían, algunos caminos básicos de productos en los que una vez creíamos podrían perder sentido. Conclusión: Vivir en el presente, ver el futuro When I shared this vision at AICon, AWS Community Day, and other tech summits, the audience always split into two camps. The “Believers” think I’m too conservative in saying Agentic Data Stack is 5–10 years away—they believe AI is evolving so fast that we’ll see it fully formed within 5 years. The “Skeptics” think the impact of AI Agents on data warehouse architecture is wildly exaggerated. They argue that today’s data warehouse designs are the highest-ROI format, and anything less efficient won’t scale commercially—it’s just a pie in the sky. Personalmente, soy un “centrista”: yo Esta ola de IA impactará la arquitectura de software de una manera que es fundamentalmente diferente de las olas anteriores. believe the emergence of the Agentic Data Stack is inevitable. We must look at the total cost and outcome of enterprise data warehouse construction and operations, not just storage or compute ROI alone. Actualmente, vemos tendencias: el aumento de almacenes de datos en tiempo real, la expansión de lagos de datos y la reducción de capas en el diseño de almacenes modernos. (Habría incluso argumentado que ahora que nuestra generación de arquitectos de modelado de datos capacitados por Teradata se está retirando, el mercado carece de profesionales que puedan seguir adelante con la lógica de negocio en rápida evolución). Dicho esto, la transición no ocurrirá de la noche a la noche. Me tomó de 2016 a 2020 para ayudar a ClickHouse a convertirse en el motor de OLAP en tiempo real de facto de China, y eso fue con un producto ya disponible. Agentic Data Stack, por otro lado, solo tiene algunos componentes de etapa temprana y startups. La mayoría de ellos aún no existen - definitivamente no dominarán el mercado en menos de 5 años. Si pensamos en etapas, probablemente seguirá después de que los almacenes y lagos en tiempo real obtengan una adopción empresarial más amplia. No es que los almacenes de datos estén siendo devorados, sino que su modelo estructural y centrado en preguntas está siendo reemplazado por una arquitectura centrada en la semántica y la respuesta. No es que los almacenes de datos estén siendo devorados, sino que su modelo estructural y centrado en preguntas está siendo reemplazado por una arquitectura centrada en la semántica y la respuesta. The gates to the Agentic Data Stack are opening. Are you ready?