Abstract:Ur ett tekniskt arkitekturperspektiv tror jag att denna våg av AI kommer att djupt omforma hela mjukvaruekosystemet. DSS-system är utformade kring logiken för mänskligt beslutsfattande som den ultimata konsumenten. Men med tillkomsten av Agentic AI-åldern är den ultimata "konsumenten" mer sannolikt att vara en agent. Detta kommer att leda till en fullständig omdesign - eller till och med eliminering - av traditionella data lager och komplexa ETL-rörledningar. Konventionella data lager betonar struktur och fråge mönster, men de kommer att ersättas av Agentic Data Stack-arkitekturer som fokuserar på semantik och responsmönster.
Introduktion: Signalen bakom Snowflakes VD-förändring
Under våren 2024 tillkännagav Snowflake, en stjärna i molnlagringsutrymmet, en förändring i ledarskapet: Sridhar Ramaswamy, tidigare chef för Googles reklamverksamhet, efterträdde den legendariska VD Frank Slootman, som hade hjälpt Snowflake att nå en värdering på 60 miljarder dollar.
Om du tror att detta bara är en rutinmässig verkställande shuffle, ser du inte hela bilden.Den verkliga innebörden är att paradigmet för datalagringsvärlden genomgår en tyst men djup transformation.
Från OLTP-databaser till MPP-datalager, från lokaliserad MPP-beräkning till vektoriserade molndatamotorer, representerar varje steg ett hopp till nästa generations teknik – och från en dominerande produkt till nästa.
Från OLTP-databaser till MPP-datalager, från lokaliserad MPP-beräkning till vektoriserade molndatamotorer, representerar varje steg ett hopp till nästa generations teknik – och från en dominerande produkt till nästa.
Slootman representerade "den gyllene tidsåldern för datalagring."Han satsade på molnbaserade, multi-leasing arkitekturer och positionerade Snowflake som den centrala hubben för nästa generations dataplattform.Under hans ledning störde Snowflake direkt min första arbetsgivare - Teradata, den tidigare datalagringsjätten - som såg sitt marknadsvärde sjunka från $ 10,2 miljarder till bara $ 2 miljarder.
Precis som han steg ner skiftade nyckelorden på Snowflakes officiella blogg subtilt till: AI-first, agentdriven och semantiskt orienterad dataarkitektur.
Det är ingen tillfällighet - det är ett tecken på tiderna.
Det är ingen tillfällighet - det är ett tecken på tiderna.
Samtidigt satsar de mest framåtriktade VC: erna i Silicon Valley på ett nytt koncept: ”Agent AI.”I detta nya paradigm är AI inte längre bara en modell – det är en agent som kan uppfatta, agera, sätta mål och samarbeta.
Så här är frågan:
När AI inte längre är bara ett "chattverktyg" utan en smart agent som kan upptäcka affärsförändringar, förstå avsikter och utföra åtgärder - kan traditionella datalager, utformade för människor, fortfarande möta behoven hos agenter?
När AI inte längre är bara ett "chattverktyg" utan en smart agent som kan upptäcka affärsförändringar, förstå avsikter och utföra åtgärder - kan traditionella datalager, utformade förMänniskanUppfyller de behoven hos agenterna?
Data warehouses, som en gång betraktades som viktiga företags "data tillgångar", riskerar nu att bli enkla "data material bibliotek" för agenter. Faktum är att även termen "material" förlorar värde, eftersom en Agentic Data Stack kan direkt få tillgång till rådata och mata den till överlägsna försäljningsagenter, Risk Agents och andra i ett semantiskt + dataformat. Samtidigt är de redundanta, icke-semantiska data i traditionella lager kvar för BI-verktyg och dataingenjörer att konsumera.
Den verkliga faran är inte bara att bli eliminerad – det är att du fortfarande arbetar enligt de gamla reglerna medan världen redan har vänt skriptet.
Den verkliga faran är inte bara att bli eliminerad – det är att du fortfarande arbetar enligt de gamla reglerna medan världen redan har vänt skriptet.
Det handlar inte om att försumma datalagringsplatser – det handlar om de återkommande cyklerna i teknikhistorien. Precis som Hadoop och Iceberg en gång omformade datasjölandskapet, skriver Agentic AI nu om företagets big data-arkitektur.
1970–2024: Utvecklingen av datalagringsarkitekturer
1970: Datalagringsfadern av Bill Inmon
Bill Inmon, "Fadern för Data Warehousing", var den första som föreslog konceptet med en EDW (Enterprise Data Warehouse) som en "ämnesorienterad, integrerad, tidsvariant och icke-volatil datainsamling", som lade grunden för företagsdataarkitektur under nästa halvt sekel.
Jag hade turen att studera och delta i översättningen av den första upplagan avAtt bygga datalagretMer än 20 år sedan under min tid vid Pekinguniversitetet under ledning av professor Tang Shiwei.Denna bok beskrivningar av ämnesområden, data lagerarkitektur, och långsamt förändrade dimensioner (historiskt länkade tabeller) har uthärdat från förra seklet till idag, blir grundläggande begrepp för data lagring.
1983: Teradata är född – MPP Architecture Takes the Stage
1983 grundades Teradata – företaget som dominerade företagsdatalagringsinfrastrukturen under de kommande 30 åren. Detta var också mitt första jobb efter examen. Teradata var den första som introducerade MPP (Massively Parallel Processing) arkitektur i datasystem. Med sin tätt integrerade programvara och hårdvara och Bynet-baserade MPP-design, överträffade Teradata Oracle och DB2 i massiv databehandling och komplexa SQL-frågor.
Första gången jag använde Teradata, var jag lika förvånad som när jag senare försökte ClickHouse för bredbordsfrågor.
När jag gick med i Teradata var det fortfarande en avdelning under NCR, och mitt visitkort såg ut så här.Farväl till min Alma Mater av datalagring – Teradata lämnar officiellt Kina.
1996: Kimball föreslår ”Snowflake Schema”; OLAP-motorer framträder
Efter Bill Inmon introducerade Ralph Kimball begreppet "data mart" och omdefinierade datamodellering med stjärnsystemet och snöflingesystemet.Under de följande decennierna diskuterade dataarkitekter kontinuerligt om man skulle bygga ett centraliserat datalagringsutrymme eller separata datamärken först.
I BI-skiktet började MOLAP-motorer som Hyperion Essbase och Cognos dyka upp.
Årtionden senare antog en ny generation datalagringsföretag till och med ”Snowflake” som sitt varumärke, inspirerat av snöflingesystemet.
2013: Big Data Boom – Hadoop tar världen av storm
Med lanseringen av Apache Hadoop 2006 började företagen i stor utsträckning anta stora datasystem med låga lagringskostnader.Big Data: En revolution som kommer att förändra hur vi lever, arbetar och tänkerViktor Mayer-Schönberger definierade big data med ”4Vs”:VolumeochVelocityochVarietyochValue.
Detta markerade början på en massiv våg av big data-plattformsbyggnad. Under de kommande 10 åren uppstod en ny generation av big data-tekniker – Apache Hadoop, Hive, Spark, Kafka, DolphinScheduler, SeaTunnel, Iceberg och mer. Big data-plattformar började skaka dominansen av traditionella datalagringsplatser. Faktum är att efter 2015 använde de flesta kinesiska företag som hanterar petabyte-skala datalagring inte längre traditionella MPP-datalagringsarkitekturer. Istället byggde de sina plattformar med Hadoop eller Iceberg-baserade big data/data lake-arkitekturer.
2015: Snowflake spricker på scenen, den nya datasatsen stiger
Med uppkomsten av molnet och utgivningen av Marcin Zukowskis papper om "vektoriserade" motorer, Snowflake dök upp med en moln-native arkitektur som separerade databehandling och lagring, helt störande traditionell data lager tänkande. för första gången kunde BI ingenjörer njuta av elastisk skalning "på begäran" utan att oroa sig för kluster schemaläggning eller resursallokering.
Det ledde till uppkomsten av en helt ny generation av datalagringsteknikstacker. Verktyg som Fivetran, Dagster, Airbyte, DBT och WhaleStudio följde, vilket gav upphov tillNya Data StackTrenden i Silicon Valley. Faktum är att den föregående generationen av ETL och datateknikverktyg – Informatica, Talend, DataStage – härstammar från 1980-talet.
Sammantaget, under de senaste decennierna, oavsett om det var traditionella data lager, stora data plattformar, moln data lager, eller data sjöar, deras arkitekturer alla i huvudsak följde strukturen som visas i diagrammet nedan:
Under Inmon-tiden kallades denna arkitektur ett DSS-system (Decision Support System).the “support” was always intended for humans.Hela data warehouse tech stack var utformad för mänskliga användare.
Arkitekturen i datalagret var också utformad för dataingenjörer. Därför hade vi flera ämnesområden, atomskikt, aggregeringsskikt och metriska lager – för att hjälpa ETL-ingenjörer i utvecklingen. BI-verktyg behövdes också för att definiera stjärn- och snöflingesystem, med drag-och-fall-gränssnitt för rapporter och instrumentpaneler.
But in the era of large-model agents, all of this is about to change dramatically.
Är agenter förtär traditionella datalager?!
I slutet av 2022 släppte OpenAI ChatGPT, vilket startade tiden för stora språkmodeller.
Sedan 2023 har Llama, Claude, Gemini, GPT-4o, DeepSeek... multimodala modeller snabbt utvecklats. AI är inte längre bara en språkmodell, utan en ”generell intelligensmotor” som kan förstå och fatta beslut för komplexa uppgifter.
År 2024 blev RAG-tekniken (Retrieval-Augmented Generation) mainstream. Verktyg som LlamaIndex, LangChain och Dify fick utbredd adoption. AI började integrera företagsdomänkunskap och blev en verklig "kännbar assistent".
Tekniker och protokoll som AutoGPT, Function Calling och MCP-protokollet har dykt upp. AI är inte längre bara ett chattverktyg - det har nu uppfattnings-, planerings- och utförandekapacitet, och blir en "digital anställd".
I datadomenet har ankomsten av stora modeller också medfört stora störningar. Har du använt ChatGPTs Data Analyst? Om så är fallet, var du förmodligen förvånad över dess prestanda. Det kan hjälpa en företagsanvändare att generera en detaljerad analytisk rapport från en datamängd från flera perspektiv. Det kan praktiskt taget ersätta en junior dataanalyst. På olika lager har många "automation" verktyg också dykt upp, såsom ChatBI och TXT2SQL - var och en utnyttjar stora modeller och agenter för att automatisera eller halvautomatisera datalagringsutvecklingsprocesser.
I framtiden kommer fler och fler agenter att dyka upp – inte bara i dataanalys, utan också i optimering av annonskampanjer, kundservice och riskhantering.
Ultimately, AI will no longer be a “passive answering tool,” but an “intelligent agent proactively achieving goals.”
Under de senaste 20+ åren har ”användarna” av dataplattformer vanligtvis varit dataingenjörer, analytiker och BI-proffs.
under de närmaste 20 åren,every role—from analyst to supply chain operator—may be redefined by Agents:
-
Marketers will have a Campaign Agent that automatically integrates multi-channel data, optimizes placements, and generates copy;
-
Customer service reps will have a Support Agent that’s more than a chatbot—it will be a context-aware assistant with knowledge graphs and memory;
-
The supply chain team will have a Procurement Agent that parses orders, tracks delivery timelines, fetches ERP data, and auto-replenishes inventory;
-
Legal teams will have a Compliance Agent, HR will have a Hiring Agent, and even the board of directors could have a Board Agent…
Den SQL du använde för att skriva varje dag, de rapporter du sammanställde och de operationsmöten du deltog blir alla Agent-utlösta åtgärder, semantiska kommandon och automatiska svar.
Men en pressande verklighet följer:
Om slutanvändarna av data är agenter, och även datalagringsutveckling görs av agenter - och de ultimata beslutsfattarna som använder data är agenter snarare än "människor" - gör den ursprungliga DSS (Decision Support System) datalagringsarkitekturen fortfarande mening?
Om slutanvändarna av data är agenter, och även datalagringsutveckling görs av agenter - och de ultimata beslutsfattarna som använder data är agenter snarare än "människor" - gör den ursprungliga DSS (Decision Support System) datalagringsarkitekturen fortfarande mening?
Alla som har studerat mjukvaruteknik vet att det första diagrammet du ritar när du utformar ett system är diagrammet "Användningsfall" - det definierar systemets användare, gränser och beteendesscenarier.
When the user of a data warehouse shifts from human to Agent, the DSS architecture envisioned by Bill Inmon no longer holds water. At least in my view, it doesn’t.
When the user changes, the software must change too.
Agenternas tillväxt är inte bara en seger för stora modeller – det är en fullständig störning av hur vi uppfattar användarupplevelsen:
-
Traditional data systems operated in a “pull model”: the user knew the problem, queried the data, and extracted conclusions.
-
Future Agents operate in a “push model”: the system proactively senses changes, understands intent, and generates decision suggestions.
Det är som att flytta från traditionella kartor till GPS-navigering:
Du behöver inte längre veta "var vägen är" - du säger bara till systemet vart du vill gå, och det tar dig dit.
Du behöver inte längre veta "var vägen är" - du säger bara till systemet vart du vill gå, och det tar dig dit.
Traditional data warehouses focus on structure and querying, whereas Agentic architectures prioritize semantics and responsiveness.
Enkelt uttryckt: den som förstår affärsspråket kommer att styra datavärlden.
Agentic Data Stack och Contextual Data Unit (CDU): Data med inbyggd semantik
För agenter att utveckla och använda data automatiskt är dagens datalagringsdesign inte lämplig – det var aldrig menat för stora modeller eller agenter. Det som lagras inuti är ”rå” data – bara numeriska värden och kolumnnamn. Vad dessa värden eller fält egentligen betyder lagras i ett separat ”dataasset”-hanteringssystem. Att förstå varje värde eller fält kräver ett fullständigt ”datastyrningsprojekt”. Denna design är inte vänlig mot stora modeller och agenter, som förlitar sig på semantisk resonemang.data and semantics togetherJag kallar det här:
Contextual Data Unit (CDU): en dubbelelementsenhet som kombinerar data + semantisk förklaring - varje datainmatning bär sin mening med den.
Contextual Data Unit (CDU): en dubbelelementsenhet som kombinerar data + semantisk förklaring - varje datainmatning bär sin mening med den.
Den integrerar den information som traditionellt lagras i datakataloger direkt i varje datainmatning, vilket minskar söktiden och felfrekvensen när agenter eller stora modeller får tillgång till den.
Samtidigt härrör semantiken i CDU från affärssystem – de destilleras och abstrakt av Data Flow Agents vid källan. CDU bildas under intag, flödar in i en Agent Data Lake – inte genereras därefter. Med andra ord är datastyrning och lineage inbäddade i agent-driven utvecklingsprocessen själv, inte retroaktivt tillämpas efter att data har kommit in i lagret, vilket undviker konflikt och tvetydighet.
Vid denna punkt bör du förstå mitt tänkande: i tiden för Agentic AI kommer allt från ETL till lagring till dataapplikationer att omformas eftersomconsumers are now Agents and models.För att tjäna dessa intelligenta agenter måste traditionella dataplattformar utvecklas till en agent-kallad, semantiskt medveten, händelsedriven arkitektur - vad vi kallarAgentic Data Stack.
Agent Data Stack: i Agent-era, en ny datateknikstack som sträcker sig från verktyg för att få "data + semantik", till plattformar som beräknar och lagrar CDU-formatdata, och slutligen till interaktionsskiktet som levererar dessa data till agenter.
Agent Data Stack: i Agent-era, en ny datateknikstack som sträcker sig från verktyg för att få "data + semantik", till plattformar som beräknar och lagrar CDU-formatdata, och slutligen till interaktionsskiktet som levererar dessa data till agenter.
Här är min djärva förutsägelse av vad Agentic Data Stack kan innehålla:
-
Semantic Orchestrator (Interaction Layer): This is no longer a BI/dashboard interface, but the “brain” and “command center” of the Agentic architecture. With natural language understanding and semantic reasoning capabilities, it bridges other agents with underlying data assets, enabling intelligent, multi-round interactions and service generation.
-
Data Mesh (Storage Layer): No longer a traditional Data Warehouse or Data Lake—it’s a service-oriented, computation-friendly fusion layer that stores data with semantics. It can supply data for complex computations by LLMs while also supporting real-time processing.
-
Data Flow Agent (Processing Layer): Not just “moving data,” but understanding and orchestrating data. Not scheduled periodically, but event-driven and intent-driven. Capable of detecting data changes, analyzing schemas, understanding business logic, and responding accordingly.
Nya data upptäcks av Data Flow Agents, förlagras i Data Mesh, och tolkas av Semantic Orchestrator med affärsinriktade definitioner - så småningom möjliggör "instant beräkning" från affärs efterfrågan till datautgång.
LLMs provide the brainpower. Agents are the hands and feet. Agentic Data Stack gives them the data accessibility needed in the era of large models.
Med uppkomsten av Agentic Data Stack minskar kostnaden för att bygga nästa generations ”data lager” dramatiskt. Att ha naturspråkiga frågefunktioner och tillgång till relevanta data kommer inte bara att vara ett privilegium för stora företag – det kommer att bli tillgängligt för små företag och till och med privatpersoner. Du kan fånga dina Google Drive-filer, hem NAS, PDF-filer på din bärbara dator och apporder från din telefon till din personliga datalagring via en Data Flow Agent. Sedan ställa en fråga som ”Hur mycket spenderade jag på att besöka Disney förra månaden?” – något som tidigare krävde export från flera plattformar och manuellt bygga Excel-ark. Ännu mer komplexa frågor som ”Hitta mitt försäkringsavtal från 5 år sedan” blir möjliga.
Och det här är ingen fantasi. Nyligen, under ledning av WhaleOps, släppte Apache SeaTunnel-samhället Apache SeaTunnel MCP Server – redan på väg mot att bli en Data Flow Agent. Naturligtvis finns det fortfarande tekniska hinder att övervinna – som de omogna A2A-protokollen, obevisa semantiska + datalagringsmodeller i Data Mesh-skiktet och omvandlingen av arvsstyrningsutgångar till ingångar för Semantic Orchestrator.
Men ankomsten av LLM och Agent-era kommer att omforma dataanalysindustrin precis som uppfinningen av SQL en gång gjorde.
Det är aldrig din ”synliga” konkurrent som slår dig. En berättelse: När jag var barn var två populära cykelmärken Forever och Phoenix. De tävlade över hastighet via ”accelererade axlar.” Men det som störde cykelmarknaden var inte en bättre cykel – det var ett livsmedelsleveransföretag som lanserade delade cyklar, vridande hela branschen. När agenterna stiger, kan vissa kärnproduktvägar vi en gång trodde på förlora mening.
Slutsats: Lev i nuet, se framtiden
När jag delade denna vision på AICon, AWS Community Day och andra tekniska toppmöten delades publiken alltid upp i två läger. ”Troende” tycker att jag är för konservativ när jag säger att Agentic Data Stack är 5–10 år borta – de tror att AI utvecklas så snabbt att vi kommer att se det fullt formade inom 5 år. ”Skeptikerna” tycker att AI-agenternas inverkan på datalagringsarkitekturen är vildt överdrivna. De hävdar att dagens datalagringsdesign är det högsta ROI-formatet, och något mindre effektivt kommer inte att skala kommersiellt – det är bara en tårta i himlen.
Personligen är jag en ”centrist”: jagbelieve the emergence of the Agentic Data Stack is inevitable.Denna våg av AI kommer att påverka mjukvaruarkitektur på ett sätt som är fundamentalt annorlunda än tidigare vågor.We must look at the total cost and outcome of enterprise data warehouse construction and operations, not just storage or compute ROI alone.
För närvarande ser vi trender: ökningen av realtidsdatalager, expansionen av data sjöar och minskningen av lager i modern lagerdesign. (Jag skulle till och med hävda att nu när vår generation av Teradata-utbildade datamodelleringsarkitekter går i pension, saknar marknaden yrkesverksamma som kan hålla jämna steg med den snabbt utvecklande affärslogiken).
That said, the transition won’t happen overnight. It took me from 2016 to 2020 to help ClickHouse become China’s de facto real-time OLAP engine—and that was with a product already available. Agentic Data Stack, on the other hand, only has a few early-stage components and startups. Most of it doesn’t exist yet—it definitely won’t dominate the market in under 5 years. If we think in stages, it’ll likely follow after real-time warehouses and lakes gain broader enterprise adoption.
Det är inte att datalager äts upp, utan snarare deras struktur-och-fråge-centrerade modell ersätts av en semantik-och-svarcentrerad arkitektur.
Det är inte att datalager äts upp, utan snarare deras struktur-och-fråge-centrerade modell ersätts av en semantik-och-svarcentrerad arkitektur.
The gates to the Agentic Data Stack are opening.
Are you ready?