Abstract:テクニカルアーキテクチャの観点から、私は、このAIの波がソフトウェアのエコシステム全体を深く再構築すると信じています。 DSSシステムは、究極の消費者として人間の意思決定の論理を中心に設計されています。しかし、エージェント AI時代の到来と共に、最終的な「消費者」はエージェントになる可能性が高くなります。これは伝統的なデータ倉庫と複雑なETLパイプラインの完全な再設計、あるいは排除につながります。従来のデータ倉庫は構造とクエリパターンを強調しますが、セマンティクスと応答パターンに焦点を当てたエージェントデータスタックアーキテクチャによって置き換えられます。
原題:The Signal Behind Snowflake's CEO Change
2024年の春、クラウドデータストアのスターであるSnowflakeは、リーダーシップの変化を発表しました:Googleの広告事業の元責任者であるSridhar Ramaswamyは、Snowflakeが6000億ドルの評価を達成するのを助けた伝説的なCEOであるFrank Slootmanに次ぐ。
もしあなたがこれが単なる日常的なエグゼクティブ・シャフルだと考えるならば、あなたは全体像を見ていない。本当の意味は、データ・ストア・ワールドのパラダイムが静かで深い変革を遂げているということです。
OLTPデータベースからMPPデータ倉庫、ローカライズされたMPPコンピューティングからベクトリ化されたクラウドデータエンジンまで、それぞれの段階は、次世代の技術への飛躍を象徴し、一つの主導的な製品から次の製品へと進む。
OLTPデータベースからMPPデータ倉庫、ローカライズされたMPPコンピューティングからベクトリ化されたクラウドデータエンジンまで、それぞれの段階は、次世代の技術への飛躍を象徴し、一つの主導的な製品から次の製品へと進む。
スロットマンは「データストレージの黄金時代」を代表していました。彼は、クラウドネイティブ、マルチレンタルアーキテクチャーに賭けて、Snowflakeを次世代データプラットフォームの中心地として位置づけました。
彼が退場したとき、Snowflakeの公式ブログのキーワードは微妙に「AIファースト、エージェント駆動、セマンティック指向のデータアーキテクチャ」に変更されました。
これは偶然ではなく、時代のしるしです。
これは偶然ではなく、時代のしるしです。
同時に、シリコンバレーの最も前向きなVCは、「エージェントAI」という新しいコンセプトに賭けています。この新しいパラダイムでは、AIはもはや単なるモデルではなく、認識し、行動し、目標を設定し、協力できるエージェントです。
さて、ここが質問です:
AIがもはや単なる「チャットツール」ではなく、ビジネス変化を検出し、意図を理解し、行動を実行できるスマートエージェントになるとき、人間向けに設計された伝統的なデータストアは、依然としてエージェントのニーズを満たすことができるだろうか。
AIがもはや単なる「チャットツール」ではなく、ビジネス変化を検出し、意図を理解し、行動を実行できるスマートエージェントになると、従来のデータストアは、人間エージェントの需要を満たすには?
かつて重要な企業「データ資産」とみなされていたデータ倉庫は、現在、エージェントのための単なる「データ素材ライブラリ」になる危険にさらされています。実際には、「材料」という用語さえも価値を失っているため、エージェントデータステックは、原料データに直接アクセスし、上層のセールスエージェント、リスクエージェント、および他のデータ形式でそれを供給することができます。
本当の危険は、単に排除されるだけではなく、世界がすでに脚本を変えている間に、あなたはまだ古いルールに従って動いているということです。
本当の危険は、単に排除されるだけではなく、世界がすでに脚本を変えている間に、あなたはまだ古いルールに従って動いているということです。
これはデータ倉庫を軽視するのではなく、テクノロジーの歴史の繰り返しのサイクルについてです. Hadoop と Iceberg がかつてデータ湖の景観を再構築したように、Agentic AI は現在、エンタープライズのビッグデータアーキテクチャを再構成しています。
1970年~2024年:データ倉庫アーキテクチャの進化
1970: The Father of Data Warehousing – Bill Inmon
ビル・インモンは「データストレージの父」で、EDW(エンタープライズ・データ・ストレージ)の概念を「主題型、統合型、時間変動型、非変動型のデータ収集」として提案し、今後半世紀にわたりエンタープライズ・データ・アーキテクチャの基礎を築いた。
私は幸運に勉強し、第1版の翻訳に参加しました。Data Warehouseの構築20年以上前、北京大学のTang Shiwei教授の指導のもとで、この本の主題領域、データ層構造、そして徐々に変化する次元(歴史関連のテーブル)の説明は、前世紀から今日まで続いており、データ倉庫の基本的な概念となっています。
1983 Teradata is Born - MPP Architecture Takes the Stage (テラダダが誕生)
1983年にTeratataは設立され、今後30年間企業データ倉庫インフラストラクチャを支配した会社でもあり、卒業後初めての仕事でもありました。Teratataは、データシステムにMPP(Massively Parallel Processing)アーキテクチャを導入した最初の企業です。
Teradata を使用した最初のとき、私は後に広いテーブルのクエリ用の ClickHouse を試したときと同じくらい驚きました。
私がTeratataに加わったとき、それはまだNCRの下の部門であり、私の名刺はこのように見えました。My Alma Mater of Data Storage - テラダタが正式に中国を離脱.
1996年:Kimballが「Snowflake Schema」を提案し、OLAPエンジンが登場
ビル・インモンに続いて、ラルフ・キンバルは「データマーチ」の概念を導入し、スター・スケジュールとスノーフラック・スケジュールでデータモデリングを再定義しました。
BI 層では、Hyperion Essbase と Cognos のような MOLAP エンジンが登場し始めました。
数十年後、新しい世代のデータ倉庫企業は、スノーフレイクのスケジュールにインスピレーションを与えた「Snowflake」をブランド名に採用した。
2013年 ビッグデータブーム - Hadoop Takes the World by Storm
2006年にApache Hadoopがリリースされたことで、企業は低ストレージコストのビッグデータシステムを広く採用し始めました。ビッグデータ:私たちが生き、働き、考える方法を変える革命ウィクトル・メイヤー・シュンバーガーは、ビッグデータを「4V」と定義した。Volumeで、Velocityで、Varietyそして、Value.
これにより、ビッグデータプラットフォーム建設の大規模な波の始まりとなりました。次の10年間で、新しい世代のビッグデータ技術が現れました──Apache Hadoop、Hive、Spark、Kafka、DolphinScheduler、SeaTunnel、Icebergなど。ビッグデータプラットフォームは伝統的なデータ倉庫の支配を揺さぶり始めました。実際には、2015年以降、ペタバイト規模のデータストレージを扱うほとんどの中国企業は、もはや伝統的なMPPデータ倉庫アーキテクチャを使用していません。
2015年:Snowflake Bursts On The Scene、The New Data Stack Rises
クラウドの出現と「ベクトリ化」エンジンに関するマルシン・ズコフスキーの論文のリリースに伴い、Snowflakeは、コンピューティングとストレージを分離するクラウドネイティブアーキテクチャを開発し、伝統的なデータ倉庫思考を完全に妨げました。
Snowflake は「データ ストア」を「データ クラウド」に変え、完全に新しい世代のデータ ストア テクノロジー スタックの出現につながりました。新しいデータステック実際、前世代のETLとデータエンジニアリングツール(Informatica、Talend、DataStage)は、1980年代に発祥しました。
全体として、過去数十年間にわたって、伝統的なデータ倉庫、ビッグデータプラットフォーム、クラウドデータ倉庫、またはデータ湖であろうと、そのアーキテクチャは基本的に以下の図に示す構造に従った。
Inmon時代、このアーキテクチャはDSS(Decision Support System)と呼ばれていました。the “support” was always intended for humans.データ倉庫のテクノロジースタック全体は、人間のユーザー向けに設計されました。
データ倉庫のアーキテクチャは、データエンジニア向けにも設計されたので、さまざまなトピック領域、原子層、集計層、およびメトリック層があり、ETLエンジニアの開発を支援しました。
But in the era of large-model agents, all of this is about to change dramatically.
エージェントは伝統的なデータ倉庫を食べるのか!?
2022年末、OpenAIはChatGPTをリリースし、大きな言語モデルの時代をスタートさせた。
2023年以来、Llama、Claude、Gemini、GPT-4o、DeepSeek...多形モデルは急速に進化し、AIはもはや単なる言語モデルではなく、複雑なタスクを理解し、意思決定できる「一般的なインテリジェンスエンジン」です。
2024年にはRAG(Retrieval-Augmented Generation)技術が主流となり、LlamaIndex、LangChain、Difyなどのツールが広く採用された。
2025年までに、エージェントアーキテクチャは完全に上昇しました。AutoGPT、Function Calling、およびMCPプロトコルのようなテクノロジーとプロトコルが現れました。AIはもはや単なるチャットツールではなく、今では感知、計画、および実行能力を持っており、「デジタル従業員」となっています。
データドメインでは、大規模なモデルの登場も大きな混乱をもたらしました。あなたはChatGPTのデータアナリストを使用しましたか? もしそうなら、そのパフォーマンスに驚いたかもしれません。 ビジネスユーザーが複数の視点からデータセットから詳細な分析レポートを生成するのに役立ちます。 実際には、ジュニアデータアナリストを置き換えることができます。 さまざまな層で、チャットBIやTXT2SQLなどの多くの「自動化」ツールが現れ、それぞれ大きなモデルやエージェントを活用してデータ倉庫開発プロセスを自動化または半自動化します。
将来、データ分析だけでなく、広告キャンペーンの最適化、顧客サービス、リスク管理の分野でも、ますます多くのエージェントが現れるでしょう。
Ultimately, AI will no longer be a “passive answering tool,” but an “intelligent agent proactively achieving goals.”
過去20年以上にわたり、データプラットフォームの「ユーザー」は、通常、データエンジニア、アナリスト、BIプロでした。
次の20年間は、every role—from analyst to supply chain operator—may be redefined by Agents:
-
Marketers will have a Campaign Agent that automatically integrates multi-channel data, optimizes placements, and generates copy;
-
Customer service reps will have a Support Agent that’s more than a chatbot—it will be a context-aware assistant with knowledge graphs and memory;
-
The supply chain team will have a Procurement Agent that parses orders, tracks delivery timelines, fetches ERP data, and auto-replenishes inventory;
-
Legal teams will have a Compliance Agent, HR will have a Hiring Agent, and even the board of directors could have a Board Agent…
毎日書いたSQL、作成したレポート、参加したOpsミーティングは、すべてエージェントによって引き起こされるアクション、セマンティックコマンド、自動応答になります。
しかし、緊迫した現実は次のようなものだ。
データのエンドユーザーがエージェントであり、データ倉庫の開発もエージェントによって行われ、データを使用する最終的な意思決定者はエージェントではなく「人間」であるとすれば、元のDSS(意思決定サポートシステム)データ倉庫アーキテクチャはまだ意味があるのでしょうか。
データのエンドユーザーがエージェントであり、データ倉庫の開発もエージェントによって行われ、データを使用する最終的な意思決定者はエージェントではなく「人間」であるとすれば、元のDSS(意思決定サポートシステム)データ倉庫アーキテクチャはまだ意味があるのでしょうか。
ソフトウェアエンジニアリングを学んだ人は誰でも、システムを設計するときに描く最初の図は「使用例」の図であり、システムのユーザー、境界、行動シナリオを定義します。
When the user of a data warehouse shifts from human to Agent, the DSS architecture envisioned by Bill Inmon no longer holds water. At least in my view, it doesn’t.
When the user changes, the software must change too.
エージェントの出現は、大きなモデルの勝利だけではなく、私たちがユーザー体験をどのように認識するかを完全に妨げている。
-
Traditional data systems operated in a “pull model”: the user knew the problem, queried the data, and extracted conclusions.
-
Future Agents operate in a “push model”: the system proactively senses changes, understands intent, and generates decision suggestions.
伝統的な地図からGPSナビゲーションに移行するのと同じです。
あなたはもはや「道がどこにあるか」を知る必要はありません - あなたは単にシステムにあなたがどこへ行きたいかを伝えます。
あなたはもはや「道がどこにあるか」を知る必要はありません - あなたは単にシステムにあなたがどこへ行きたいかを伝えます。
Traditional data warehouses focus on structure and querying, whereas Agentic architectures prioritize semantics and responsiveness.
単純に言えば、ビジネス言語を理解する者がデータの世界を支配する。
Agentic Data Stack and Contextual Data Unit (CDU): Data with Built-In Semantics(エージェント・データ・スタックと文脈データ・ユニット)
エージェントがデータを自動的に開発し、使用するには、現在のデータ倉庫設計は適切ではない――それは大きなモデルやエージェントのために決して意図されていなかった。内部に保存されているのは「原料」データ─ただの数値値と列名だけです。これらの値やフィールドの実際の意味は別々の「データ資産」管理システムに格納されています。それぞれの値やフィールドを理解するには、完全な「データ管理」プロジェクトが必要です。data and semantics togetherわたしはこれを呼ぶ:
コンテキストデータユニット(CDU):データ + セマンティック説明を組み合わせた二元素ユニット - それぞれのデータ入力にはその意味が伴います。
コンテキストデータユニット(CDU):データ + セマンティック説明を組み合わせた二元素ユニット - それぞれのデータ入力にはその意味が伴います。
伝統的にデータカタログに保存されている情報を各データ入力に直接統合し、エージェントや大規模なモデルがアクセスした場合の検索時間とエラー率を削減します。
同時に、CDUのセマンティクスはビジネスシステムから引き出されており、源泉のデータフローエージェントによって蒸留され抽出されます。CDUは摂取中に形成され、エージェントデータ湖に流れ込んでいますが、その後生成されません。言い換えれば、データガバナンスとラインニングは、エージェント駆動の開発プロセスそのものに組み込まれ、データが倉庫に入ってから後ろ向きに適用されません。
この時点で、あなたは私の考えを理解すべきです:エージェントAIの時代には、ETLからストレージ、データアプリケーションまですべてが再構成されます。consumers are now Agents and models. To serve these intelligent agents, traditional data platforms must evolve into an Agent-callable, semantically-aware, event-driven architecture—what we call the Agentic Data Stack.
エージェント時代には、「データ+セマンティクス」を取得するツールから、CDU形式のデータを計算および保存するプラットフォーム、そして最後にエージェントにこれらのデータを提供する相互作用層にまで広がる新しいデータテクノロジースタック。
エージェント時代には、「データ+セマンティクス」を取得するツールから、CDU形式のデータを計算および保存するプラットフォーム、そして最後にエージェントにこれらのデータを提供する相互作用層にまで広がる新しいデータテクノロジースタック。
以下は、Agentic Data Stack が含める可能性についての私の大胆な予測です。
-
Semantic Orchestrator (Interaction Layer): This is no longer a BI/dashboard interface, but the “brain” and “command center” of the Agentic architecture. With natural language understanding and semantic reasoning capabilities, it bridges other agents with underlying data assets, enabling intelligent, multi-round interactions and service generation.
-
Data Mesh (Storage Layer): No longer a traditional Data Warehouse or Data Lake—it’s a service-oriented, computation-friendly fusion layer that stores data with semantics. It can supply data for complex computations by LLMs while also supporting real-time processing.
-
Data Flow Agent (Processing Layer): Not just “moving data,” but understanding and orchestrating data. Not scheduled periodically, but event-driven and intent-driven. Capable of detecting data changes, analyzing schemas, understanding business logic, and responding accordingly.
データ・フロー・エージェントによって新しいデータが発見され、データ・メッシュに事前に保存され、セマンティック・オーケストラターによってビジネスに合わせた定義で解釈され、最終的にビジネス需要からデータ出力までの「インスタント・コンピューティング」が可能になります。
LLMs provide the brainpower. Agents are the hands and feet. Agentic Data Stack gives them the data accessibility needed in the era of large models.
Agentic Data Stack が登場すると、次世代の「データストア」の構築コストが劇的に低下します。自然言語のクエリ機能と関連データへのアクセスは、大企業の特権になるだけでなく、小規模企業や個人でもアクセスできるようになります。Google Drive ファイル、ホーム NAS、ラップトップの PDF やアプリケーション注文を電話からデータフローエージェントを通じて個人データストアにキャプチャできます。その後、「先月ディズニーを訪問していくら使ったのですか?」という質問を聞いて、以前は複数のプラットフォームから輸出し、手動で Excel シートを作成する必要がありました。
最近、WhaleOpsのリーダーシップの下で、Apache SeaTunnel コミュニティは Apache SeaTunnel MCP Serverをリリースし、すでにデータフローエージェントになる方向に進んでいます。
しかし、LLMとエージェントの時代の到来は、かつてのSQLの発明と同様に、データ分析業界を再構築します。
あなたの「目に見える」競争相手があなたを打つことは決してありません。物語:私が子供の頃、人気のバイクブランドの2つはForeverとPhoenixでした。彼らは「加速軸」を通じてスピードで競争しました。しかし、バイク市場を妨げたのは、より良いバイクではなく、共有バイクを立ち上げた食品配達会社でした。 エージェントが上昇するにつれて、私たちがかつて信じていたいくつかのコア製品パスは意味を失うかもしれません。
結論:現在に生き、未来を見る
私がAICon、AWS Community Day、その他のテクノロジーサミットでこのビジョンを共有したとき、観客は常に2つのキャンプに分かれました。「信じる人」は、Agentic Data Stackが5~10年離れたところにあると私はあまりにも保守的だと思っている――彼らはAIが急速に進化していると信じているので、5年以内に完全に形成されると見るでしょう。
個人的には、私は「中心主義者」です:Ibelieve the emergence of the Agentic Data Stack is inevitable.このAIの波は、以前の波とは根本的に異なる方法でソフトウェアアーキテクチャに影響を与えるでしょう。We must look at the total cost and outcome of enterprise data warehouse construction and operations, not just storage or compute ROI alone.
現時点では、リアルタイムデータ倉庫の増加、データ湖の拡大、現代の倉庫設計における層の減少といった傾向が見られています(テラダタトレーニングのデータモデリングアーキテクチャの世代が引退している今、市場には急速に進化するビジネスロジックに追いつくことができる専門家が不足しています)。
つまり、移行は一晩で起こることはありません。ClickHouseが中国の事実上リアルタイムOLAPエンジンになるのを手助けするのに、2016年から2020年までかかりましたが、それはすでに利用可能な製品でした。Agentic Data Stackは、一方で、初期段階のコンポーネントやスタートアップのほんの一部しか持っていません。そのほとんどはまだ存在していません――5年以内に市場を支配することは間違いありません。
AIがあなたを置き換えるのではなく、AIを使用する方法を知っている人です. データ倉庫が食われているのではなく、構造とクエリ中心のモデルがセマンティクスと応答中心のアーキテクチャに置き換えられています。
It’s not AI that replaces you—it’s the person who knows how to use AI. It’s not that data warehouses are being devoured, but rather their structure-and-query-centric model is being replaced by a semantics-and-response-centric architecture. Just like how once you’ve used GPS, you won’t go back to a paper map.
The gates to the Agentic Data Stack are opening.
Are you ready?