Abstract:Iš techninės architektūros perspektyvos manau, kad ši AI banga iš esmės pakeis visą programinės įrangos ekosistemą. DSS sistemos yra suprojektuotos aplink žmogaus sprendimų priėmimo kaip galutinio vartotojo logiką. Tačiau, atsiradus Agentinio AI erai, galutinis „vartotojas“ greičiausiai bus agentas. Tai lems visišką tradicinių duomenų saugyklų ir sudėtingų ETL vamzdynų pertvarkymą ar net panaikinimą. Konvenciniai duomenų saugyklos pabrėžia struktūrą ir užklausų modelius, tačiau juos pakeis Agentinio duomenų rinkinio architektūros, orientuotos į semantiką ir atsakymo modelius.
Įvadas: Signalas už „Snowflake“ generalinio direktoriaus pasikeitimo
2024 m. pavasarį „Snowflake“, debesų duomenų saugyklų erdvės žvaigždė, paskelbė apie lyderystės pasikeitimą: Sridhar Ramaswamy, buvęs „Google“ reklamos verslo vadovas, pakeitė legendinį generalinį direktorių Franką Slootmaną, kuris padėjo „Snowflake“ pasiekti 60 mlrd. JAV dolerių vertę.
Jei manote, kad tai tik įprastas vykdomojo shuffle, jūs nematote visą vaizdą.
Nuo OLTP duomenų bazių iki MPP duomenų saugyklų, nuo lokalizuotos MPP skaičiavimo iki vektorizuotų debesų duomenų variklių, kiekvienas etapas yra šuolis į kitą technologijos kartą ir nuo vieno dominuojančio produkto į kitą.
Nuo OLTP duomenų bazių iki MPP duomenų saugyklų, nuo lokalizuotos MPP skaičiavimo iki vektorizuotų debesų duomenų variklių, kiekvienas etapas yra šuolis į kitą technologijos kartą ir nuo vieno dominuojančio produkto į kitą.
Slootmanas atstovavo „duomenų saugojimo auksiniam amžiui“. „Slootman“ lažydavosi dėl debesies kilmės, daugiašalių nuomininkų architektūrų ir „Snowflake“ pozicionavo kaip pagrindinį naujos kartos duomenų platformos centrą.
Kai jis nusileido, raktiniai žodžiai oficialiame "Snowflake" tinklaraštyje subtiliai pasikeitė į: AI-pirmasis, agentas pagrįstas ir semantiškai orientuotas duomenų architektūra.
Tai nėra atsitiktinumas – tai laiko ženklas.
Tai nėra atsitiktinumas – tai laiko ženklas.
Tuo pačiu metu, labiausiai į ateitį orientuoti VC Silicio slėnyje lažina apie naują koncepciją: „Agentinis AI.“ Šioje naujoje paradigmoje, AI nebėra tik modelis – tai agentas, kuris gali suvokti, veikti, nustatyti tikslus ir bendradarbiauti.
Štai ir klausimas:
Kai AI nebėra tik pokalbių įrankis, bet protingas agentas, galintis aptikti verslo pokyčius, suprasti ketinimus ir vykdyti veiksmus, ar tradicinės duomenų saugyklos, skirtos žmonėms, vis dar gali patenkinti agentų poreikius?
Kai AI nebėra tik pokalbių įrankis, bet protingas agentas, galintis aptikti verslo pokyčius, suprasti ketinimus ir vykdyti veiksmus, tradiciniai duomenų sandėliai, skirtiŽmogusAr jie atitinka agentų poreikius?
Duomenų sandėliai, kadaise laikomi gyvybiškai svarbiais įmonės „duomenų turtais“, dabar rizikuoja tapti paprasčiausiais „duomenų medžiagų bibliotekomis“ agentams. Iš tiesų net terminas „materialinė“ praranda vertę, nes agentinis duomenų rinkinys gali tiesiogiai pasiekti žaliuosius duomenis ir maitinti juos aukščiausio lygio pardavimo agentams, rizikos agentams ir kitiems semantiniu + duomenų formatu.
Tikrasis pavojus yra ne tik pašalinamas - tai, kad jūs vis dar veikiate pagal senas taisykles, o pasaulis jau pakeitė scenarijų.
Tikrasis pavojus yra ne tik pašalinamas - tai, kad jūs vis dar veikiate pagal senas taisykles, o pasaulis jau pakeitė scenarijų.
Kalbama ne apie duomenų saugyklų nuvertinimą, o apie pasikartojančius technologijų istorijos ciklus.Kaip Hadoop ir Iceberg kažkada pertvarkė duomenų ežero kraštovaizdį, Agentinis AI dabar perrašinėja įmonės didelių duomenų architektūrą.
1970–2024 m.: Duomenų saugyklų architektūrų evoliucija
1970: Duomenų saugojimo tėvas / Bill Inmon
Bill Inmon, „duomenų saugyklos tėvas“, pirmasis pasiūlė EDW (įmonių duomenų saugyklos) koncepciją kaip „į objektą orientuotą, integruotą, laiko kintamą ir nepastovų duomenų rinkimą“, kuris per kitą pusę amžiaus padėjo pagrindą įmonių duomenų architektūrai.
Man pasisekė studijuoti ir dalyvauti pirmojo leidinio vertime.Duomenų sandėlio kūrimasDaugiau nei prieš 20 metų per mano laiką Pekino universitete vadovaujant profesoriui Tang Shiwei.Šios knygos teminių sričių aprašymai, duomenų sluoksnių architektūra ir lėtai besikeičiantys matmenys (istorijos susietos lentelės) išliko nuo praėjusio šimtmečio iki šių dienų, tapdami pagrindinėmis duomenų saugojimo koncepcijomis.
1983 Teradata yra gimęs - MPP architektūra eina į sceną
1983 m. buvo įkurta „Teradata“ – įmonė, kuri per ateinančius 30 metų dominavo įmonių duomenų saugyklų infrastruktūroje. Tai taip pat buvo mano pirmasis darbas po baigimo. „Teradata“ buvo pirmasis, įdiegęs MPP (Massively Parallel Processing) architektūrą į duomenų sistemas. Su savo glaudžiai integruota programine ir aparatine įranga bei „Bynet“ pagrįstu MPP dizainu, „Teradata“ žymiai pralenkė „Oracle“ ir „DB2“ didelių duomenų apdorojimo ir sudėtingų SQL užklausų srityse.
Pirmą kartą aš naudoju Teradata, buvau toks pat nustebintas, kaip ir tada, kai vėliau bandžiau ClickHouse plataus stalo užklausoms.
Kai prisijungiau prie Teradata, tai vis dar buvo NCR skyrius, o mano vizitinė kortelė atrodė taip.Atsisveikinimas su mano Alma Mater duomenų saugojimo - Teradata oficialiai išeina iš Kinijos.
1996: Kimballas siūlo „Snowflake schema“; atsiranda OLAP varikliai
Po Bill Inmon, Ralph Kimball pristatė „data mart“ koncepciją ir iš naujo apibrėžė duomenų modeliavimą naudojant žvaigždžių schemą ir snieglenčių schemą.Per ateinančius kelis dešimtmečius duomenų architektai nuolat diskutuodavo, ar pirmiausia statyti centralizuotą duomenų saugyklą, ar atskirą duomenų saugyklą. „Dimensinis modeliavimas“ ir „snieglentės schema“ tapo duomenų inžinierių skambučių kortelėmis.
BI sluoksnyje pradėjo atsirasti „MOLAP“ varikliai, tokie kaip „Hyperion Essbase“ ir „Cognos“.
Decades later, a new generation of data warehouse companies even adopted “Snowflake” as their brand name, inspired by the snowflake schema.
2013: Didžiųjų duomenų bumas – „Hadoop“ užima pasaulį audra
Su "Apache Hadoop" išleidimu 2006 m. Įmonės pradėjo plačiai priimti didelių duomenų sistemas su mažomis saugojimo sąnaudomis.Dideli duomenys: revoliucija, kuri pakeis tai, kaip mes gyvename, dirbame ir galvojameViktor Mayer-Schönberger apibrėžė didelius duomenis su „4Vs“:Volume,Velocity,VarietyirValue.
Per ateinančius 10 metų atsirado naujos kartos didžiųjų duomenų technologijos – „Apache Hadoop“, „Hive“, „Spark“, „Kafka“, „DolphinScheduler“, „SeaTunnel“, „Iceberg“ ir kt. Didžiosios duomenų platformos pradėjo sukrėsti tradicinių duomenų saugyklų dominavimą. Iš tikrųjų po 2015 m. dauguma Kinijos įmonių, užsiimančių petabaito dydžio duomenų saugojimu, nebenaudojo tradicinių MPP duomenų saugyklų architektūrų.
2015: „Snowflake“ sprogsta scenoje, kyla naujas duomenų rinkinys
Su debesies atsiradimu ir Marcin Zukowski straipsnio apie „vektorių“ variklius išleidimu, „Snowflake“ atsirado su debesies architektūra, kuri atskyrė skaičiavimą ir saugojimą, visiškai sutrikdydama tradicinį duomenų sandėlio mąstymą.
„Snowflake“ pavertė „duomenų sandėlį“ į „duomenų debesį“. Tai lėmė visiškai naujos kartos duomenų saugyklų technologijų rinkinių atsiradimą. Po to sekė tokie įrankiai kaip „Fivetran“, „Dagster“, „Airbyte“, „DBT“ ir „WhaleStudio“.Naujas duomenų rinkinysTiesą sakant, ankstesnės kartos ETL ir duomenų inžinerijos įrankiai – „Informatica“, „Talend“, „DataStage“ – atsirado aštuntajame dešimtmetyje.
Apskritai, per pastaruosius dešimtmečius, nesvarbu, ar tai buvo tradicinės duomenų saugyklos, didelės duomenų platformos, debesų duomenų saugyklos ar duomenų ežerai, jų architektūros iš esmės sekė žemiau esančioje diagramoje pateiktą struktūrą:
Inmon epochoje ši architektūra buvo vadinama DSS sistema (sprendimų palaikymo sistema).the “support” was always intended for humans.Visas duomenų sandėlio technologijų rinkinys buvo skirtas žmonėms.
Duomenų sandėlio architektūra taip pat buvo sukurta duomenų inžinieriams.Todėl turėjome keletą temų sričių, atominius sluoksnius, agregacijos sluoksnius ir metrinius sluoksnius, kad ETL inžinieriai galėtų juos kurti.BI įrankiai taip pat reikalingi žvaigždžių ir sniego plaktukų schemoms apibrėžti, su traukimo ir nuleidimo sąsaja ataskaitoms ir skydeliams.Visi vartotojai buvo žmonės.
But in the era of large-model agents, all of this is about to change dramatically.
Ar agentai valgo tradicines duomenų saugyklas?!
2022 m. pabaigoje „OpenAI“ išleido „ChatGPT“, pradėdama didelių kalbų modelių erą.
Nuo 2023 m. Llama, Claude, Gemini, GPT-4o, DeepSeek... daugiarūšiai modeliai sparčiai vystosi.
2024 m. RAG (Retrieval-Augmented Generation) technologija tapo pagrindine. Tokie įrankiai kaip LlamaIndex, LangChain ir Dify įgijo plačią pripažinimą.
Iki 2025 m. Agentų architektūra visiškai išaugo. atsirado technologijų ir protokolų, tokių kaip „AutoGPT“, „Function Calling“ ir MCP protokolas. „AI“ nebėra tik pokalbių įrankis – dabar jis turi suvokimo, planavimo ir vykdymo galimybes, tapdamas „skaitmeniniu darbuotoju“.
Duomenų srityje didelių modelių atsiradimas taip pat sukėlė didelių sutrikimų. Ar naudojote „ChatGPT“ duomenų analitiką? Jei taip, jūs tikriausiai nustebino jo našumas. Jis gali padėti verslo vartotojui sukurti išsamią analitinę ataskaitą iš duomenų rinkinio iš kelių perspektyvų. Jis gali praktiškai pakeisti jaunesniojo duomenų analitiko. Įvairiuose sluoksniuose taip pat atsirado daug „automatizavimo“ įrankių, tokių kaip „ChatBI“ ir „TXT2SQL“ – kiekvienas pasinaudojęs dideliais modeliais ir agentais, kad automatizuotų arba pusiau automatizuotų duomenų sandėlio kūrimo procesus.
Ateityje vis daugiau agentų pasirodys – ne tik duomenų analizėje, bet ir reklamos kampanijų optimizavimo, klientų aptarnavimo ir rizikos valdymo srityse.
Ultimately, AI will no longer be a “passive answering tool,” but an “intelligent agent proactively achieving goals.”
Per pastaruosius 20 metų duomenų platformų „naudotojai“ paprastai buvo duomenų inžinieriai, analitikai ir BI specialistai.
Per artimiausius 20 metų,every role—from analyst to supply chain operator—may be redefined by Agents:
-
Marketers will have a Campaign Agent that automatically integrates multi-channel data, optimizes placements, and generates copy;
-
Customer service reps will have a Support Agent that’s more than a chatbot—it will be a context-aware assistant with knowledge graphs and memory;
-
The supply chain team will have a Procurement Agent that parses orders, tracks delivery timelines, fetches ERP data, and auto-replenishes inventory;
-
Legal teams will have a Compliance Agent, HR will have a Hiring Agent, and even the board of directors could have a Board Agent…
SQL, kurį rašėte kiekvieną dieną, ataskaitos, kurias sukūrėte, ir posėdžiai, kuriuose dalyvavote, tampa Agentų sukeltais veiksmais, semantinėmis komandomis ir automatiniais atsakymais.
Tačiau skubanti realybė yra tokia:
Jei galutiniai duomenų naudotojai yra agentai, o net duomenų sandėlio plėtrą atlieka agentai, o galutiniai sprendimų priėmėjai, naudojantys duomenis, yra agentai, o ne „žmonės“, ar originali DSS (sprendimų palaikymo sistemos) duomenų sandėlio architektūra vis dar turi prasmę?
Jei galutiniai duomenų naudotojai yra agentai, o net duomenų sandėlio plėtrą atlieka agentai, o galutiniai sprendimų priėmėjai, naudojantys duomenis, yra agentai, o ne „žmonės“, ar originali DSS (sprendimų palaikymo sistemos) duomenų sandėlio architektūra vis dar turi prasmę?
Kiekvienas, kuris studijavo programinės įrangos inžineriją, žino, kad pirmoji diagrama, kurią jūs piešiate projektuojant sistemą, yra „naudojimo atvejo“ diagrama - ji apibrėžia sistemos naudotojus, ribas ir elgesio scenarijus.
When the user of a data warehouse shifts from human to Agent, the DSS architecture envisioned by Bill Inmon no longer holds water. At least in my view, it doesn’t.
When the user changes, the software must change too.
Agentų atsiradimas yra ne tik didelių modelių pergalė - tai visiškai sutrikdo tai, kaip mes suvokiame naudotojo patirtį:
-
Traditional data systems operated in a “pull model”: the user knew the problem, queried the data, and extracted conclusions.
-
Future Agents operate in a “push model”: the system proactively senses changes, understands intent, and generates decision suggestions.
Tai tarsi perėjimas nuo tradicinių žemėlapių prie GPS navigacijos:
Jums nebereikia žinoti „kur yra kelias“ – tiesiog pasakykite sistemai, kur norite eiti, ir ji jus ten nuves.
Jums nebereikia žinoti „kur yra kelias“ – tiesiog pasakykite sistemai, kur norite eiti, ir ji jus ten nuves.
Traditional data warehouses focus on structure and querying, whereas Agentic architectures prioritize semantics and responsiveness.
Paprasčiau tariant: kas supranta verslo kalbą, valdys duomenų pasaulį.
Agentinių duomenų rinkinys ir kontekstinis duomenų vienetas (CDU): duomenys su įmontuota semantika
Kad agentai galėtų automatiškai kurti ir naudoti duomenis, šiandienos duomenų sandėlio dizainas netinka – jis niekada nebuvo skirtas dideliems modeliams ar agentams. Kas yra saugoma viduje, yra „grūdūs“ duomenys – tik skaitmeninės vertės ir stulpelio pavadinimai. Ką šios vertės ar laukai iš tikrųjų reiškia, yra saugoma atskiroje „duomenų turto“ valdymo sistemoje. Kiekvienos vertės ar lauko supratimas reikalauja visapusiško „duomenų valdymo“ projekto. Šis dizainas nesuderinamas su dideliais modeliais ir agentais, kurie remiasi semantiniu motyvu.data and semantics togetherAš tai vadinu:
Kontekstinis duomenų vienetas (CDU): dviejų elementų vienetas, jungiantis duomenis + semantinį paaiškinimą - kiekvienas duomenų įrašas turi savo reikšmę.
Kontekstinis duomenų vienetas (CDU): dviejų elementų vienetas, jungiantis duomenis + semantinį paaiškinimą - kiekvienas duomenų įrašas turi savo reikšmę.
Jis sujungia informaciją, tradiciškai saugomą duomenų kataloguose, tiesiogiai į kiekvieną duomenų įrašą, sumažindamas paieškos laiką ir klaidų lygį, kai prie jo prieina agentai ar dideli modeliai.
Tuo tarpu CDU semantika yra kilusi iš verslo sistemų – jos distiliuojamos ir išgaunamos duomenų srauto agentų šaltinyje. CDU yra suformuota suvartojimo metu, teka į agentų duomenų ežerą, o ne generuojama vėliau. Kitaip tariant, duomenų valdymas ir linijinis suskirstymas yra įterpti į patį agentų valdomą plėtros procesą, o ne taikomi atgaline data po to, kai duomenys pateko į sandėlį, išvengiant konfliktų ir dviprasmiškumo.
Šiuo metu turėtumėte suprasti mano mąstymą: Agentinio AI amžiuje viskas nuo ETL iki saugojimo iki duomenų taikymo bus pertvarkyta, nesconsumers are now Agents and models.Norėdami aptarnauti šiuos protingus agentus, tradicinės duomenų platformos turi išsivystyti į agentų vadinamą, semantiškai sąmoningą, įvykiais pagrįstą architektūrą - tai, ką mes vadinameAgentic Data Stack.
Agentų duomenų rinkinys: Agentų amžiuje naujas duomenų technologijų rinkinys, kuris apima nuo įrankių, skirtų gauti „duomenis + semantiką“, iki platformų, kurios apskaičiuoja ir saugo CDU formato duomenis, ir galiausiai į sąveikos sluoksnį, kuris perduoda šiuos duomenis agentams.
Agentų duomenų rinkinys: Agentų amžiuje naujas duomenų technologijų rinkinys, kuris apima nuo įrankių, skirtų gauti „duomenis + semantiką“, iki platformų, kurios apskaičiuoja ir saugo CDU formato duomenis, ir galiausiai į sąveikos sluoksnį, kuris perduoda šiuos duomenis agentams.
Štai mano drąsi prognozė, ką Agentinių duomenų rinkinys gali apimti:
-
Semantic Orchestrator (Interaction Layer): This is no longer a BI/dashboard interface, but the “brain” and “command center” of the Agentic architecture. With natural language understanding and semantic reasoning capabilities, it bridges other agents with underlying data assets, enabling intelligent, multi-round interactions and service generation.
-
Data Mesh (Storage Layer): No longer a traditional Data Warehouse or Data Lake—it’s a service-oriented, computation-friendly fusion layer that stores data with semantics. It can supply data for complex computations by LLMs while also supporting real-time processing.
-
Data Flow Agent (Processing Layer): Not just “moving data,” but understanding and orchestrating data. Not scheduled periodically, but event-driven and intent-driven. Capable of detecting data changes, analyzing schemas, understanding business logic, and responding accordingly.
Duomenų srauto agentų atrasti nauji duomenys, iš anksto saugomi duomenų tinklelyje, o Semantic Orchestrator interpretuoja verslo suderintus apibrėžimus, galiausiai leidžiančius „kartinį skaičiavimą“ nuo verslo paklausos iki duomenų išeigos.
LLMs provide the brainpower. Agents are the hands and feet. Agentic Data Stack gives them the data accessibility needed in the era of large models.
Su „Agent Data Stack“ atsiradimu, naujos kartos „duomenų sandėlių“ statybos kaina smarkiai sumažėja. Turint natūralios kalbos užklausų galimybes ir prieigą prie atitinkamų duomenų bus ne tik didelių įmonių privilegija – ji taps prieinama mažoms įmonėms ir net asmenims. Galite užfiksuoti savo „Google Drive“ failus, namų NAS, PDF failus savo nešiojamame kompiuteryje ir programų užsakymus iš savo telefono į savo asmeninę duomenų saugyklą per duomenų srauto agentą. Tada užduokite tokį klausimą kaip „Kiek aš praleidau apsilankydamas „Disney“ praėjusį mėnesį?“ – kažką, kas anksčiau reikėjo eksportuoti iš kelių platformų ir rankiniu būdu kurti „Excel“ lapus. Dar sudė
Neseniai, vadovaujant WhaleOps, „Apache SeaTunnel“ bendruomenė išleido „Apache SeaTunnel MCP Server“ – jau juda link tapti duomenų srauto agentu.
Tačiau LLM ir Agent eros atėjimas iš naujo formuos duomenų analizės pramonę, kaip ir SQL išradimas.
Istorija: Kai buvau vaikas, du populiarūs dviračių prekių ženklai buvo „Forever“ ir „Phoenix“. Jie konkuravo dėl greičio per „paspartintas ašis“. Tačiau tai, kas sutrikdė dviračių rinką, nebuvo geresnis dviračių rinka – tai buvo maisto pristatymo kompanija, pradėjusi bendrus dviračius, apversdama visą pramonę. Kai agentai kyla, kai kurie pagrindiniai produktų keliai, kuriais kadaise tikėjomės, gali prarasti prasmę.
Išvada: gyventi dabartyje, pažvelgti į ateitį
Kai aš pasidalinau šia vizija „AICon“, „AWS Community Day“ ir kituose technologijų aukščiausiojo lygio susitikimuose, žiūrovai visada susiskirstė į dvi stovyklas. „Tikintys“ mano, kad esu pernelyg konservatyvus sakydamas, kad „Agentic Data Stack“ yra 5–10 metų – jie mano, kad AI vystosi taip greitai, kad per 5 metus pamatysime, kad ji bus visiškai suformuota. „Skeptikai“ mano, kad AI agentų poveikis duomenų sandėlio architektūrai yra beprotiškai perdėtas.
Asmeniškai aš esu „centristas“: ašbelieve the emergence of the Agentic Data Stack is inevitable.Ši AI banga turės įtakos programinės įrangos architektūrai taip, kad iš esmės skiriasi nuo ankstesnių bangų.We must look at the total cost and outcome of enterprise data warehouse construction and operations, not just storage or compute ROI alone.
Šiuo metu matome tendencijas: realaus laiko duomenų saugyklų augimą, duomenų ežerų plėtrą ir šiuolaikinio sandėlio dizaino sluoksnių sumažėjimą. (Aš netgi teigčiau, kad dabar, kai mūsų kartos Teradata apmokyti duomenų modeliavimo architektai išeina į pensiją, rinkoje trūksta specialistų, kurie galėtų sekti sparčiai besivystančią verslo logiką).
Tai sakė, kad perėjimas neįvyks per naktį. Man prireikė nuo 2016 iki 2020 metų, kad ClickHouse taptų Kinijos de facto realaus laiko OLAP varikliu – ir tai buvo su produktu, kuris jau buvo prieinamas. Agentinis duomenų rinkinys, kita vertus, turi tik keletą ankstyvojo etapo komponentų ir pradinių įmonių. Dauguma jo dar neegzistuoja – jis tikrai nevaldys rinkos per mažiau nei 5 metus.
Tai ne tai, kad duomenų saugyklos yra suvartojamos, o jų struktūriniu ir užklausos centru pagrįstas modelis yra pakeičiamas semantikos ir atsakymo centre pagrįsta architektūra.
Tai ne tai, kad duomenų saugyklos yra suvartojamos, o jų struktūriniu ir užklausos centru pagrįstas modelis yra pakeičiamas semantikos ir atsakymo centre pagrįsta architektūra.
The gates to the Agentic Data Stack are opening.
Are you ready?