493 čtení
493 čtení

Jsou tradiční datové sklady odvráceny agenturní AI?

podle William Guo13m2025/06/17
Read on Terminal Reader

Příliš dlouho; Číst

Dveře do agenturního datového zásobníku se otevírají.Jste připraveni?
featured image - Jsou tradiční datové sklady odvráceny agenturní AI?
William Guo HackerNoon profile picture
0-item

Abstract:Z pohledu technické architektury věřím, že tato vlna umělé inteligence hluboce přetvoří celý softwarový ekosystém. Systémy DSS jsou navrženy kolem logiky lidského rozhodování jako konečného spotřebitele. Nicméně, s příchodem éry agenturní AI, je pravděpodobnější, že konečný „spotřebitel“ bude agentem. To povede k úplnému přepracování - nebo dokonce k odstranění - tradičních datových skladů a složitých ETL potrubí. Konvenční datové sklady zdůrazňují strukturu a vzorce dotazu, ale budou nahrazeny architekturami agenturní datové sady se zaměřením na sémantiku a vzorce reakce.


Úvod: Signál za změnou generálního ředitele Snowflake

Na jaře roku 2024 Snowflake, hvězda cloudového datového úložiště, oznámila změnu vedení: Sridhar Ramaswamy, bývalý ředitel reklamního podniku Google, následoval legendárního generálního ředitele Franka Slootmana, který pomohl Snowflake dosáhnout hodnoty 60 miliard dolarů.


Pokud si myslíte, že se jedná pouze o rutinní exekutivní shuffle, nevidíte celý obraz.Skutečný důsledek je, že paradigma světa datového skladu prochází tichou, ale hlubokou transformací.


Od databází OLTP až po databáze MPP, od lokalizovaného výpočtu MPP až po vektorizované cloudové datové motory, každá fáze představuje skok do nové generace technologií – a od jednoho dominantního produktu k dalšímu.

Od databází OLTP až po databáze MPP, od lokalizovaného výpočtu MPP až po vektorizované cloudové datové motory, každá fáze představuje skok do nové generace technologií – a od jednoho dominantního produktu k dalšímu.


Slootman představoval „zlatý věk datového skladování.“ Sázel na cloud-native, multi-nájemce architektury a umístil Snowflake jako ústřední centrum datové platformy příští generace. Pod jeho vedením, Snowflake přímo narušil můj první zaměstnavatel – Teradata, bývalý datový skladový gigant – který viděl jeho tržní hodnota klesla z 10,2 miliardy dolarů na pouhé 2 miliardy dolarů.


Jakmile odstoupil, klíčová slova na oficiálním blogu Snowflake se jemně přesunula na: AI-first, agent-driven a sémanticky orientovaná datová architektura.


Není to náhoda, je to znamení doby.

Není to náhoda, je to znamení doby.


Současně nejvíce perspektivní VC v Silicon Valley sázejí na nový koncept: „Agentní AI.“ V tomto novém paradigmatu není AI už jen modelem – je to agent, který může vnímat, jednat, nastavovat cíle a spolupracovat.


A tady je otázka:


Když AI již není jen „chatovým nástrojem“, ale inteligentním agentem schopným detekovat obchodní změny, porozumět záměrům a provádět akce, mohou tradiční datové sklady, určené pro lidi, stále splňovat potřeby agentů?

Když AI již není jen „chatovým nástrojem“, ale inteligentním agentem schopným detekovat obchodní změny, porozumět záměrům a provádět akce, mohou tradiční datové sklady, určené pro lidi, stále splňovat potřeby agentů?


Data warehouses, kdysi považované za životně důležité podnikové „datové aktiva“, jsou nyní ohroženy tím, že se stanou pouhými „datovými materiálovými knihovnami“ pro agenty. Ve skutečnosti i termín „materiál“ ztrácí hodnotu, protože agentická datová hromada může přímo přistupovat k surovým datům a napájet je horní vrstvě prodejních agentů, rizikových agentů a dalších v sémantickém + datovém formátu.


Skutečné nebezpečí není jen v tom, že je odstraněno – je to, že stále pracujete podle starých pravidel, zatímco svět už scénář otočil.

Skutečné nebezpečí není jen v tom, že je odstraněno – je to, že stále pracujete podle starých pravidel, zatímco svět už scénář otočil.


Nejedná se o znehodnocování datových skladů – jde o opakující se cykly technologické historie. Stejně jako Hadoop a Iceberg kdysi přetvořili krajinu datového jezera, agenturní AI nyní přepisuje firemní architekturu velkých dat.


1970–2024: Evoluce architektury datových skladů

1970: Otec datového skladování - Bill Inmon

Bill Inmon, „otec datového skladování“, byl prvním, kdo navrhl koncept EDW (Enterprise Data Warehouse) jako „subjektově orientovaný, integrovaný, časově variabilní a nestálý sběr dat“, který položil základy pro architekturu podnikových dat během příštího půlstoletí.


Měl jsem to štěstí studovat a podílet se na překladu prvního vydáníVytvoření datového skladuPřed více než dvaceti lety během mého pobytu na Pekingské univerzitě pod vedením profesora Tanga Shiweieho.Tato kniha popisuje předmětové oblasti, architekturu datové vrstvy a pomalu se měnící rozměry (historicky propojené tabulky), které vydržely od minulého století až do současnosti a staly se základními pojmy pro skladování dat.


1983: Teradata is Born—MPP Architecture Takes the Stage

V roce 1983 byla založena společnost Teradata – společnost, která dominovala firemní datové skladové infrastruktuře po dobu následujících 30 let. To byla také moje první práce po ukončení studia. Teradata byla první, která zavedla architekturu MPP (Massively Parallel Processing) do datových systémů.S těsně integrovaným softwarem a hardwarem a designem MPP založeným na Bynet, Teradata výrazně předčila společnost Oracle a DB2 v masivním zpracování dat a složitých SQL dotazech.


Když jsem poprvé použil Teradata, byl jsem stejně překvapený, jako když jsem později vyzkoušel ClickHouse pro širokopásmové dotazy.


Když jsem se připojil k Teradata, bylo to stále oddělení pod NCR a moje vizitka vypadala takto.Rozloučení s mou Alma Mater datového skladování – Teradata oficiálně opouští Čínu.



1996: Kimball navrhuje „Snowflake Schema“; OLAP motory vznikají

Po Bill Inmon, Ralph Kimball představil koncept „data mart“ a redefinoval datové modelování pomocí hvězdného schématu a schématu sněhové vločky.Během následujících několika desetiletí, datoví architekti nepřetržitě debatovali o tom, zda nejprve vybudovat centralizovaný datový sklad nebo samostatný datový mart. „Dimenzionální modelování“ a „sněhový vloček schéma“ se staly volacími kartami pro datové inženýry.


V BI vrstvě se začaly objevovat motory MOLAP jako Hyperion Essbase a Cognos.


O desetiletí později, nová generace datových skladových společností dokonce přijala „Snowflake“ jako své obchodní jméno, inspirované schématem sněhových vloček.


2013: Big Data Boom – Hadoop vezme svět bouří

S vydáním Apache Hadoop v roce 2006 začaly podniky široce přijímat velké datové systémy s nízkými náklady na ukládání.Big data: revoluce, která změní způsob, jakým žijeme, pracujeme a myslímeViktor Mayer-Schönberger definoval velká data pomocí „4Vs“:Volume, ,Velocity, ,Variety, aValue.


Photo from 2015: The author with Viktor Mayer-Schönberger

To znamenalo začátek masivní vlny výstavby velkých datových platforem. Během následujících 10 let se objevila nová generace velkých datových technologií – Apache Hadoop, Hive, Spark, Kafka, DolphinScheduler, SeaTunnel, Iceberg a další. Velké datové platformy začaly otřásat dominantou tradičních datových skladů. Ve skutečnosti po roce 2015 většina čínských podniků zabývajících se ukládáním dat v petabajtovém měřítku již nepoužívala tradiční architektury datových skladů MPP. Namísto toho vybudovaly své platformy pomocí architektury velkých dat / datových jezer založených na Hadoop nebo Iceberg.


2015: Snowflake vypukne na jevišti, vzniká nová datová hromada

S vzestupem cloudu a vydáním článku Marcina Zukowského o „vektorizovaných“ motorech se Snowflake objevil s cloudově nativní architekturou, která odděluje výpočet a ukládání, což zcela narušilo tradiční myšlení datového skladu.


Snowflake změnil „data warehouse“ na „data cloud“. To vedlo k vzestupu zcela nové generace datových skladových technologií. Nástroje jako Fivetran, Dagster, Airbyte, DBT a WhaleStudio následovaly, což vedlo ke vznikuNový Data StackTrend v Silicon Valley. Předchozí generace ETL a datových inženýrských nástrojů – Informatica, Talend, DataStage – vznikla v 80. letech minulého století.


Celkově, v průběhu posledních desetiletí, ať už se jedná o tradiční datové sklady, velké datové platformy, cloudové datové sklady nebo datová jezera, jejich architektury všechny v podstatě následovaly strukturu zobrazenou v následujícím diagramu:



V době Inmon byla tato architektura nazývána systémem DSS (Decision Support System).the “support” was always intended for humans.Celý technologický stack datového skladu byl navržen pro lidské uživatele.


Architektura datového skladu byla také navržena pro datové inženýry.Proto jsme měli více oblastí předmětu, atomové vrstvy, agregační vrstvy a metrické vrstvy – aby pomohli inženýrům ETL ve vývoji. BI nástroje také potřebovaly definovat schémata hvězd a sněhových vloček, s přepínacími rozhraními pro zprávy a přístrojové desky.Všichni spotřebitelé byli lidé.


But in the era of large-model agents, all of this is about to change dramatically.


Jsou agenti požírající tradiční datové sklady?!

Na konci roku 2022 OpenAI vydal ChatGPT, který zahájil éru velkých jazykových modelů.


Od roku 2023 se Llama, Claude, Gemini, GPT-4o, DeepSeek... multimodální modely rychle vyvíjely.


V roce 2024 se technologie RAG (Retrieval-Augmented Generation) stala dominantou. Nástroje jako LlamaIndex, LangChain a Dify získaly rozšířené přijetí. AI začala integrovat znalosti podnikové domény a stala se skutečným „znalým asistentem“.


Technologie a protokoly jako AutoGPT, funkční volání a protokol MCP se objevily. AI již není jen chatovým nástrojem – nyní má schopnost vnímat, plánovat a provádět, čímž se stává „digitálním zaměstnancem“.


V oblasti dat přinesl příchod velkých modelů také velké narušení. Už jste použili ChatGPT Data Analyst? Pokud ano, pravděpodobně jste byli ohromeni jeho výkonem. Může pomoci podnikatelskému uživateli generovat podrobnou analytickou zprávu z datového souboru z více perspektiv. Může prakticky nahradit juniorského analytika dat. Na různých úrovních se objevilo také mnoho „automatizačních“ nástrojů, jako jsou ChatBI a TXT2SQL – z nichž každý využívá velké modely a agenty k automatizaci nebo poloautomatizaci procesů vývoje datového skladu.



V budoucnu se objeví stále více agentů – nejen v oblasti analýzy dat, ale také v oblasti optimalizace reklamních kampaní, zákaznických služeb a řízení rizik.


Ultimately, AI will no longer be a “passive answering tool,” but an “intelligent agent proactively achieving goals.”


Během posledních 20 let byli „uživateli“ datových platforem obvykle inženýři, analytici a BI profesionálové.

V příštích dvaceti letech,every role—from analyst to supply chain operator—may be redefined by Agents:

  • Marketers will have a Campaign Agent that automatically integrates multi-channel data, optimizes placements, and generates copy;

  • Customer service reps will have a Support Agent that’s more than a chatbot—it will be a context-aware assistant with knowledge graphs and memory;

  • The supply chain team will have a Procurement Agent that parses orders, tracks delivery timelines, fetches ERP data, and auto-replenishes inventory;

  • Legal teams will have a Compliance Agent, HR will have a Hiring Agent, and even the board of directors could have a Board Agent…


SQL, který jste psali každý den, zprávy, které jste sestavili, a schůzky operací, které jste navštěvovali, se stávají akcemi spouštěnými agentem, sémantickými příkazy a automatizovanými odpověďmi.



Ale naléhavá realita následuje:


Pokud koneční uživatelé dat jsou agenti, a dokonce i vývoj datového skladu provádí agenti – a koneční rozhodovatelé používající data jsou agenti spíše než „lidé“ – má původní architektura datového skladu DSS (Decision Support System) stále smysl?

Pokud koneční uživatelé dat jsou agenti, a dokonce i vývoj datového skladu provádí agenti – a koneční rozhodovatelé používající data jsou agenti spíše než „lidé“ – má původní architektura datového skladu DSS (Decision Support System) stále smysl?


Každý, kdo studoval softwarové inženýrství, ví, že prvním diagramem, který kreslíte při navrhování systému, je diagram "Použití případu" - definuje uživatele systému, hranice a scénáře chování.


When the user of a data warehouse shifts from human to Agent, the DSS architecture envisioned by Bill Inmon no longer holds water. At least in my view, it doesn’t.


When the user changes, the software must change too.

Vzestup agentů není jen vítězstvím pro velké modely – je to úplné narušení toho, jak vnímáme uživatelskou zkušenost:

  • Traditional data systems operated in a “pull model”: the user knew the problem, queried the data, and extracted conclusions.

  • Future Agents operate in a “push model”: the system proactively senses changes, understands intent, and generates decision suggestions.


Je to jako přechod z tradičních map na GPS navigaci:


Už nemusíte vědět „kde je cesta“ – stačí říct systému, kam chcete jít, a to vás tam zavede.

Už nemusíte vědět „kde je cesta“ – stačí říct systému, kam chcete jít, a to vás tam zavede.


Traditional data warehouses focus on structure and querying, whereas Agentic architectures prioritize semantics and responsiveness.


Jednoduše řečeno: každý, kdo rozumí obchodnímu jazyku, bude vládnout světu dat.


Agentická datová hromada a kontextuální datová jednotka (CDU): Data s vestavěnou semantikou

Pro agenty, aby automaticky vyvíjeli a používali data, není dnešní design datového skladu vhodný – nikdy nebyl určen pro velké modely nebo agenty. Co je uloženo uvnitř, jsou „surová“ data – jen číselné hodnoty a názvy sloupců. Co tyto hodnoty nebo pole ve skutečnosti znamenají, je uloženo v samostatném systému řízení „datového majetku“. Pochopení každé hodnoty nebo pole vyžaduje plnohodnotný projekt „governance dat“. Tento design je nepříjemný pro velké modely a agenty, které se spoléhají na sémantické uvažování.data and semantics togetherJá tomu říkám:


Kontextuální datová jednotka (CDU): dvojitá prvková jednotka kombinující data + sémantické vysvětlení - každý údajový záznam nese svůj význam.

Kontextuální datová jednotka (CDU): dvojitá prvková jednotka kombinující data + sémantické vysvětlení - každý údajový záznam nese svůj význam.


Slučuje informace, které jsou tradičně uloženy v datových katalogu přímo do každého datového vstupu, čímž snižuje čas vyhledávání a míru chyb při přístupu agentů nebo velkých modelů.


Mezitím jsou semantiky v CDU odvozeny z obchodních systémů – jsou destilovány a abstraktovány agenty datového toku u zdroje. CDU je tvořena během požití, proudí do agentického datového jezera – není generována poté. Jinými slovy, správa dat a lineage jsou začleněny do samotného procesu vývoje řízeného agentem, nejsou aplikovány zpětně poté, co data vstoupila do skladu, čímž se zabrání konfliktu a nejednoznačnosti.


V tomto bodě byste měli porozumět mému myšlení: v éře agenturní AI bude vše od ETL až po ukládání dat do aplikace přetvořeno, protožeconsumers are now Agents and models.Aby mohly sloužit těmto inteligentním agentům, musí se tradiční datové platformy vyvinout do architektury založené na událostech, která může být nazývána agentem, která je sémanticky uvědomělá.Agentic Data Stack.


Agentická datová hromada: v éře agentů, nová datová technologická hromada, která se pohybuje od nástrojů pro získání „data + sémantiky“, až po platformy, které vypočítávají a ukládají data ve formátu CDU, a konečně k interakční vrstvě, která dodává tato data agentům.

Agentická datová hromada: v éře agentů, nová datová technologická hromada, která se pohybuje od nástrojů pro získání „data + sémantiky“, až po platformy, které vypočítávají a ukládají data ve formátu CDU, a konečně k interakční vrstvě, která dodává tato data agentům.


Zde je moje odvážná předpověď toho, co by mohl agentní datový stoh zahrnovat:



  • Semantic Orchestrator (Interaction Layer): This is no longer a BI/dashboard interface, but the “brain” and “command center” of the Agentic architecture. With natural language understanding and semantic reasoning capabilities, it bridges other agents with underlying data assets, enabling intelligent, multi-round interactions and service generation.

  • Data Mesh (Storage Layer): No longer a traditional Data Warehouse or Data Lake—it’s a service-oriented, computation-friendly fusion layer that stores data with semantics. It can supply data for complex computations by LLMs while also supporting real-time processing.

  • Data Flow Agent (Processing Layer): Not just “moving data,” but understanding and orchestrating data. Not scheduled periodically, but event-driven and intent-driven. Capable of detecting data changes, analyzing schemas, understanding business logic, and responding accordingly.


Nová data jsou objevována agenty datového toku, předběžně uložena v datové síti a interpretována sémantickým orchestrátorem s definicemi, které jsou v souladu s podnikem - nakonec umožňující "okamžitý výpočet" od podnikové poptávky po výstup dat.


LLMs provide the brainpower. Agents are the hands and feet. Agentic Data Stack gives them the data accessibility needed in the era of large models.


S nárůstem Agentic Data Stack se náklady na budování další generace „datových skladů“ dramaticky snižují. Možnosti vyhledávání v přirozeném jazyce a přístup k příslušným datům nebudou jen výsadou velkých podniků – stanou se přístupnými malým podnikům a dokonce i jednotlivcům. Můžete zachytit soubory Google Drive, domácí NAS, PDF na notebooku a objednávky aplikací z telefonu do vašeho osobního datového skladu prostřednictvím agenta pro tok dat. Pak položte otázku jako „Kolik jsem minulý měsíc strávil návštěvou Disney?“ – něco, co předtím vyžadovalo exportování z více platforem a manuální budování listů Excelu. Stávají se proveditelnými ještě složitější dotazy, jako je „Nalezení mé pojistné smlouvy


A to není žádná fantazie.Nedávno, pod vedením společnosti WhaleOps, komunita Apache SeaTunnel vydala Apache SeaTunnel MCP Server – již se pohybuje směrem k tomu, aby se stal agentem datového toku.


Ale příchod éry LLM a agentů přetvoří průmysl analýzy dat, stejně jako vynález SQL kdysi udělal.


Nikdy to není váš „viditelný“ konkurent, který vás porazí. Příběh: Když jsem byl dítě, dvě populární značky jízdních kol byly Forever a Phoenix. Soutěžily o rychlost prostřednictvím „zrychlených náprav“. Ale to, co narušilo trh s jízdními koly, nebylo lepší kolo – to byla společnost pro doručování potravin, která spustila sdílená jízdní kola, čímž otočila celý průmysl. Jak agenti rostou, některé základní produktové cesty, o kterých jsme kdysi věřili, mohou ztratit smysl.


Závěr: Žít v přítomnosti, vidět budoucnost

Když jsem sdílel tuto vizi na AICon, AWS Community Day a dalších technologických summitech, diváci se vždy rozdělili do dvou táborů. „Věřící“ si myslí, že jsem příliš konzervativní, když říkám, že Agent Data Stack je 5–10 let daleko – věří, že AI se vyvíjí tak rychle, že ji uvidíme plně vytvořenou během 5 let. „Skeptici“ si myslí, že dopad agentů AI na architekturu datového skladu je divokě přehnaný.


Já osobně jsem „centrista“: Ibelieve the emergence of the Agentic Data Stack is inevitable.Tato vlna umělé inteligence ovlivní softwarovou architekturu způsobem, který se zásadně liší od předchozích vln.We must look at the total cost and outcome of enterprise data warehouse construction and operations, not just storage or compute ROI alone.


V současné době vidíme trendy: vzestup datových skladů v reálném čase, rozšiřování datových jezer a snižování vrstev v moderním skladovém designu. (Byl bych dokonce argumentoval, že nyní, když se naše generace architektů datového modelování vyškolených Teradata odchází do důchodu, na trhu chybí odborníci, kteří mohou držet krok s rychle se vyvíjející obchodní logikou).


To znamená, že přechod se nestane přes noc. Trvalo mi od roku 2016 do roku 2020, než jsem ClickHouse pomohl stát se čínským de facto real-time OLAP motorem – a to bylo s produktem, který byl již k dispozici. Agentic Data Stack na druhé straně má jen několik prvotřídních komponent a start-upů. Většina z nich ještě neexistuje – rozhodně nebude dominovat na trhu za méně než 5 let.


Nejedná se o to, že jsou sklady dat požírány, ale spíše jejich model struktury a dotazu je nahrazen sémantickou a odezvou orientovanou architekturou.

Nejedná se o to, že jsou sklady dat požírány, ale spíše jejich model struktury a dotazu je nahrazen sémantickou a odezvou orientovanou architekturou.


The gates to the Agentic Data Stack are opening.

Are you ready?

L O A D I N G
. . . comments & more!

About Author

William Guo HackerNoon profile picture
William Guo@williamguo
William Guo, WhaleOps CEO, Apache Software Foundation Member

ZAVĚŠIT ZNAČKY

TENTO ČLÁNEK BYL PŘEDSTAVEN V...

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks