Abstract:Từ quan điểm kiến trúc kỹ thuật, tôi tin rằng làn sóng AI này sẽ định hình lại toàn bộ hệ sinh thái phần mềm. Các hệ thống DSS được thiết kế xung quanh logic của việc ra quyết định của con người như là người tiêu dùng cuối cùng. Tuy nhiên, với sự xuất hiện của thời đại Agentic AI, "người tiêu dùng" cuối cùng có nhiều khả năng trở thành một đại lý. Điều này sẽ dẫn đến việc thiết kế lại hoàn toàn - hoặc thậm chí loại bỏ - các kho dữ liệu truyền thống và các đường ống ETL phức tạp. Các kho dữ liệu thông thường nhấn mạnh các mô hình cấu trúc và truy vấn, nhưng chúng sẽ được thay thế bởi các kiến trúc Agentic Data Stack tập trung vào các mô hình ngữ học và phản ứng.
Giới thiệu: Tín hiệu đằng sau sự thay đổi CEO của Snowflake
Vào mùa xuân năm 2024, Snowflake, một ngôi sao trong không gian lưu trữ dữ liệu đám mây, đã công bố một sự thay đổi trong lãnh đạo: Sridhar Ramaswamy, cựu giám đốc kinh doanh quảng cáo của Google, đã kế nhiệm CEO huyền thoại Frank Slootman, người đã giúp Snowflake đạt được giá trị 60 tỷ USD.
Nếu bạn nghĩ rằng đây chỉ là một sự lúng túng của các giám đốc điều hành thường xuyên, bạn không thấy toàn bộ bức tranh.Tác động thực sự là mô hình của thế giới kho dữ liệu đang trải qua một sự biến đổi yên tĩnh nhưng sâu sắc.
Từ các cơ sở dữ liệu OLTP đến kho dữ liệu MPP, từ máy tính MPP cục bộ đến các công cụ dữ liệu đám mây vectorized, mỗi giai đoạn đại diện cho một bước nhảy vọt đến thế hệ công nghệ tiếp theo - và từ một sản phẩm thống trị đến sản phẩm tiếp theo.
Từ các cơ sở dữ liệu OLTP đến kho dữ liệu MPP, từ máy tính MPP cục bộ đến các công cụ dữ liệu đám mây vectorized, mỗi giai đoạn đại diện cho một bước nhảy vọt đến thế hệ công nghệ tiếp theo - và từ một sản phẩm thống trị đến sản phẩm tiếp theo.
Slootman đại diện cho "thời đại vàng của lưu trữ dữ liệu."Ông đặt cược vào các kiến trúc đa thuê bao có nguồn gốc từ đám mây và đặt Snowflake vào vị trí trung tâm của nền tảng dữ liệu thế hệ tiếp theo.Dưới sự lãnh đạo của ông, Snowflake trực tiếp phá vỡ nhà tuyển dụng đầu tiên của tôi - Teradata, cựu gã khổng lồ kho dữ liệu - người đã chứng kiến giá trị thị trường của nó giảm từ 10,2 tỷ đô la xuống còn 2 tỷ đô la.
Ngay khi ông bước xuống, các từ khóa trên blog chính thức của Snowflake tinh tế chuyển sang: kiến trúc dữ liệu AI-first, được điều khiển bởi đại lý và định hướng ngữ nghĩa.
Đây không phải là sự trùng hợp ngẫu nhiên - đó là một dấu hiệu của thời đại.
Đây không phải là sự trùng hợp ngẫu nhiên - đó là một dấu hiệu của thời đại.
Đồng thời, các VC hướng tới tương lai nhất ở Thung lũng Silicon đang đặt cược vào một khái niệm mới: “Agent AI.” Trong mô hình mới này, AI không còn chỉ là một mô hình – nó là một đại lý có thể nhận thức, hành động, đặt mục tiêu và hợp tác.
Vậy thì đây là câu hỏi:
Khi AI không còn chỉ là một "công cụ trò chuyện" mà là một đại lý thông minh có khả năng phát hiện thay đổi kinh doanh, hiểu ý định và thực hiện hành động - liệu kho dữ liệu truyền thống, được thiết kế cho con người, vẫn có thể đáp ứng nhu cầu của các đại lý?
Khi AI không còn chỉ là một "công cụ trò chuyện" mà là một đại lý thông minh có khả năng phát hiện thay đổi kinh doanh, hiểu ý định và thực hiện hành động - liệu kho dữ liệu truyền thống, được thiết kế cho con người, vẫn có thể đáp ứng nhu cầu của các đại lý?
Kho dữ liệu, từng được coi là “tài sản dữ liệu” quan trọng của doanh nghiệp, hiện đang có nguy cơ trở thành “thư viện tài liệu dữ liệu” cho các đại lý. Trên thực tế, ngay cả thuật ngữ “vật liệu” cũng đang mất giá trị, bởi vì một Stack dữ liệu đại lý có thể truy cập trực tiếp vào dữ liệu thô và cung cấp cho đại lý bán hàng cấp trên, đại lý rủi ro và những người khác trong định dạng dữ liệu ngữ nghĩa +.
The real danger isn't just being eliminated—it's that you're still operating by the old rules while the world has already flipped the script.
Sự nguy hiểm thực sự không chỉ được loại bỏ - đó là bạn vẫn đang hoạt động theo các quy tắc cũ trong khi thế giới đã lật ngược kịch bản.
Đây không phải là về việc hạ thấp kho dữ liệu - đó là về các chu kỳ lặp đi lặp lại của lịch sử công nghệ.Cũng giống như Hadoop và Iceberg đã định hình lại cảnh quan hồ dữ liệu, Agentic AI hiện đang viết lại kiến trúc dữ liệu lớn của doanh nghiệp.
1970-2024: Sự tiến hóa của kiến trúc kho dữ liệu
1970: The Father of Data Warehousing (Người cha của lưu trữ dữ liệu) - Bill Inmon
Bill Inmon, “cha đẻ của Data Warehousing”, là người đầu tiên đề xuất khái niệm của một EDW (Enterprise Data Warehouse) như là một “tập hợp dữ liệu theo chủ đề, tích hợp, thay đổi theo thời gian và không biến động”, đặt nền tảng cho kiến trúc dữ liệu doanh nghiệp trong nửa thế kỷ tới.
Tôi đã may mắn được nghiên cứu và tham gia phiên dịch của phiên bản đầu tiên củaXây dựng Data Warehousehơn 20 năm trước trong thời gian của tôi tại Đại học Bắc Kinh dưới sự hướng dẫn của Giáo sư Tang Shiwei. các mô tả của cuốn sách này về các lĩnh vực chủ đề, kiến trúc lớp dữ liệu, và các kích thước thay đổi chậm (bảng liên kết lịch sử) đã tồn tại từ thế kỷ trước cho đến ngày nay, trở thành các khái niệm cơ bản cho kho dữ liệu.
1983: Teradata is Born—MPP Architecture Takes the Stage - Kiến trúc MPP
Năm 1983, Teradata được thành lập – công ty đã thống trị cơ sở hạ tầng kho dữ liệu doanh nghiệp trong 30 năm tiếp theo. Đây cũng là công việc đầu tiên của tôi sau khi tốt nghiệp. Teradata là người đầu tiên giới thiệu kiến trúc MPP (Massively Parallel Processing) vào các hệ thống dữ liệu. Với phần mềm và phần cứng tích hợp chặt chẽ và thiết kế MPP dựa trên Bynet, Teradata vượt xa đáng kể Oracle và DB2 trong xử lý dữ liệu lớn và truy vấn SQL phức tạp.
Lần đầu tiên tôi sử dụng Teradata, tôi cũng ngạc nhiên như khi sau đó tôi thử ClickHouse cho các truy vấn bảng rộng.
Khi tôi gia nhập Teradata, nó vẫn là một bộ phận dưới NCR, và danh thiếp của tôi trông như thế này.Tạm biệt Alma Mater của tôi về lưu trữ dữ liệu - Teradata chính thức rời Trung Quốc.
1996: Kimball đề xuất chương trình “Snowflake Schema”; các động cơ OLAP xuất hiện
Theo Bill Inmon, Ralph Kimball đã giới thiệu khái niệm “data mart” và định nghĩa lại mô hình dữ liệu với biểu đồ sao và biểu đồ bông tuyết.Trong vài thập kỷ tiếp theo, các kiến trúc sư dữ liệu liên tục tranh luận về việc xây dựng kho dữ liệu tập trung hoặc biểu đồ dữ liệu riêng biệt đầu tiên.
Ở tầng BI, các công cụ MOLAP như Hyperion Essbase và Cognos bắt đầu xuất hiện. công nghệ OLAP cuối cùng đã có một phương pháp hệ thống để làm theo.
Nhiều thập kỷ sau, một thế hệ các công ty kho dữ liệu mới thậm chí đã áp dụng “Snowflake” làm tên thương hiệu của họ, lấy cảm hứng từ chương trình snowflake.
2013: Sự bùng nổ dữ liệu lớn - Hadoop Takes the World by Storm
Với việc phát hành Apache Hadoop vào năm 2006, các doanh nghiệp bắt đầu áp dụng rộng rãi các hệ thống dữ liệu lớn với chi phí lưu trữ thấp.Big Data: Một cuộc cách mạng sẽ thay đổi cách chúng ta sống, làm việc và suy nghĩViktor Mayer-Schönberger đã định nghĩa dữ liệu lớn với “4Vs”:Volume,Velocity,VarietyvàValue.
Điều này đánh dấu sự khởi đầu của một làn sóng lớn của xây dựng nền tảng dữ liệu lớn. Trong 10 năm tiếp theo, một thế hệ công nghệ dữ liệu lớn mới đã xuất hiện – Apache Hadoop, Hive, Spark, Kafka, DolphinScheduler, SeaTunnel, Iceberg, và nhiều hơn nữa. Các nền tảng dữ liệu lớn bắt đầu làm rung chuyển sự thống trị của các kho dữ liệu truyền thống. Trên thực tế, sau năm 2015, hầu hết các doanh nghiệp Trung Quốc đối phó với lưu trữ dữ liệu quy mô petabyte không còn sử dụng kiến trúc kho dữ liệu MPP truyền thống.
2015: Snowflake bùng nổ trên sân khấu, bộ dữ liệu mới nổi lên
Với sự trỗi dậy của đám mây và việc phát hành bài báo của Marcin Zukowski về các động cơ “vectorized”, Snowflake xuất hiện với một kiến trúc có nguồn gốc từ đám mây phân tách tính toán và lưu trữ, phá vỡ hoàn toàn suy nghĩ kho dữ liệu truyền thống.
Snowflake đã biến “cửa hàng dữ liệu” thành “mây dữ liệu.” Nó đã dẫn đến sự nổi lên của một thế hệ công nghệ kho dữ liệu hoàn toàn mới. Các công cụ như Fivetran, Dagster, Airbyte, DBT, và WhaleStudio đã theo sau, dẫn đến sự phát triển của công nghệ kho dữ liệu.Data Stack mớiThật vậy, thế hệ trước của công cụ ETL và kỹ thuật dữ liệu – Informatica, Talend, DataStage – bắt nguồn từ những năm 1980.
Nhìn chung, trong suốt những thập kỷ qua, cho dù đó là kho dữ liệu truyền thống, nền tảng dữ liệu lớn, kho dữ liệu đám mây hoặc hồ dữ liệu, kiến trúc của họ tất cả về cơ bản đều tuân theo cấu trúc được hiển thị trong biểu đồ dưới đây:
Trong thời đại Inmon, kiến trúc này được gọi là hệ thống DSS (Hệ thống hỗ trợ quyết định).the “support” was always intended for humans.Toàn bộ bộ công nghệ kho dữ liệu được thiết kế dành cho người dùng.
Kiến trúc của kho dữ liệu cũng được thiết kế cho các kỹ sư dữ liệu. đó là lý do tại sao chúng tôi có nhiều khu vực chủ đề, các lớp nguyên tử, các lớp tổng hợp và các lớp số liệu – để hỗ trợ các kỹ sư ETL trong việc phát triển. các công cụ BI cũng cần thiết để xác định các sơ đồ sao và bông tuyết, với giao diện kéo và thả cho báo cáo và bảng điều khiển.
But in the era of large-model agents, all of this is about to change dramatically.
Các đại lý đang nuốt chửng kho dữ liệu truyền thống?!
Vào cuối năm 2022, OpenAI đã phát hành ChatGPT, khởi động kỷ nguyên của các mô hình ngôn ngữ lớn.
Từ năm 2023, Llama, Claude, Gemini, GPT-4o, DeepSeek... các mô hình đa phương thức đã phát triển nhanh chóng. AI không còn chỉ là một mô hình ngôn ngữ, mà là một “động cơ thông minh chung” có khả năng hiểu và đưa ra quyết định cho các nhiệm vụ phức tạp.
Vào năm 2024, công nghệ RAG (Retrieval-Augmented Generation) đã trở nên phổ biến.Các công cụ như LlamaIndex, LangChain và Dify đã đạt được sự chấp nhận rộng rãi. AI bắt đầu tích hợp kiến thức lĩnh vực doanh nghiệp, trở thành một trợ lý thực sự có thể hiểu được.
Đến năm 2025, kiến trúc Agent đã hoàn toàn phát triển. các công nghệ và giao thức như AutoGPT, Function Calling và giao thức MCP đã xuất hiện. AI không còn chỉ là một công cụ trò chuyện - nó bây giờ có khả năng nhận thức, lập kế hoạch và thực hiện, trở thành một "người lao động kỹ thuật số".
Trong lĩnh vực dữ liệu, sự xuất hiện của các mô hình lớn cũng đã gây ra sự gián đoạn lớn. Bạn đã sử dụng Nhà phân tích dữ liệu của ChatGPT chưa? Nếu vậy, bạn có thể đã ngạc nhiên về hiệu suất của nó. Nó có thể giúp người dùng doanh nghiệp tạo ra một báo cáo phân tích chi tiết từ một bộ dữ liệu từ nhiều quan điểm. Nó thực tế có thể thay thế một nhà phân tích dữ liệu trẻ. Ở các lớp khác nhau, nhiều công cụ "tự động hóa" cũng đã xuất hiện, chẳng hạn như ChatBI và TXT2SQL - mỗi người sử dụng các mô hình và đại lý lớn để tự động hóa hoặc tự động hóa các quy trình phát triển kho dữ liệu.
Trong tương lai, ngày càng có nhiều đại lý xuất hiện – không chỉ trong phân tích dữ liệu, mà còn trong tối ưu hóa chiến dịch quảng cáo, dịch vụ khách hàng và quản lý rủi ro.
Ultimately, AI will no longer be a “passive answering tool,” but an “intelligent agent proactively achieving goals.”
For the past 20+ years, the “users” of data platforms have typically been data engineers, analysts, and BI professionals.
Trong 20 năm tới,every role—from analyst to supply chain operator—may be redefined by Agents:
-
Marketers will have a Campaign Agent that automatically integrates multi-channel data, optimizes placements, and generates copy;
-
Customer service reps will have a Support Agent that’s more than a chatbot—it will be a context-aware assistant with knowledge graphs and memory;
-
The supply chain team will have a Procurement Agent that parses orders, tracks delivery timelines, fetches ERP data, and auto-replenishes inventory;
-
Legal teams will have a Compliance Agent, HR will have a Hiring Agent, and even the board of directors could have a Board Agent…
SQL bạn từng viết mỗi ngày, các báo cáo bạn đã biên soạn và các cuộc họp ops bạn đã tham dự đều trở thành hành động kích hoạt bởi Agent, lệnh ngữ nghĩa và phản hồi tự động.
Nhưng một thực tế cấp bách sau đây:
Nếu người dùng cuối của dữ liệu là đại lý, và ngay cả việc phát triển kho dữ liệu được thực hiện bởi các đại lý - và những người ra quyết định cuối cùng sử dụng dữ liệu là đại lý chứ không phải là "con người" - thì kiến trúc kho dữ liệu DSS (Hệ thống Hỗ trợ Quyết định) ban đầu vẫn có ý nghĩa?
Nếu người dùng cuối của dữ liệu là đại lý, và ngay cả việc phát triển kho dữ liệu được thực hiện bởi các đại lý - và những người ra quyết định cuối cùng sử dụng dữ liệu là đại lý chứ không phải là "con người" - thì kiến trúc kho dữ liệu DSS (Hệ thống Hỗ trợ Quyết định) ban đầu vẫn có ý nghĩa?
Bất cứ ai đã nghiên cứu kỹ thuật phần mềm đều biết sơ đồ đầu tiên bạn vẽ khi thiết kế một hệ thống là sơ đồ “Sử dụng trường hợp” – nó xác định người dùng, ranh giới và kịch bản hành vi của hệ thống.
When the user of a data warehouse shifts from human to Agent, the DSS architecture envisioned by Bill Inmon no longer holds water. At least in my view, it doesn’t.
When the user changes, the software must change too.
Sự trỗi dậy của Agent không chỉ là một chiến thắng cho các mô hình lớn - đó là một sự gián đoạn hoàn toàn trong cách chúng ta nhận thức được trải nghiệm người dùng:
-
Traditional data systems operated in a “pull model”: the user knew the problem, queried the data, and extracted conclusions.
-
Future Agents operate in a “push model”: the system proactively senses changes, understands intent, and generates decision suggestions.
Nó giống như chuyển từ bản đồ truyền thống sang định vị GPS:
Bạn không còn cần phải biết “con đường ở đâu” – bạn chỉ đơn giản nói với hệ thống nơi bạn muốn đi, và nó sẽ đưa bạn đến đó.
Bạn không còn cần phải biết “con đường ở đâu” – bạn chỉ đơn giản nói với hệ thống nơi bạn muốn đi, và nó sẽ đưa bạn đến đó.
Traditional data warehouses focus on structure and querying, whereas Agentic architectures prioritize semantics and responsiveness.
Nói một cách đơn giản: bất cứ ai hiểu ngôn ngữ kinh doanh sẽ thống trị thế giới dữ liệu.
Agentic Data Stack and Contextual Data Unit (CDU): Dữ liệu với Semantics tích hợp
Đối với các đại lý để phát triển và sử dụng dữ liệu tự động, thiết kế kho dữ liệu ngày nay không phù hợp – nó không bao giờ được dự định cho các mô hình lớn hoặc đại lý. Những gì được lưu trữ bên trong là dữ liệu “thuốc” – chỉ là các giá trị số và tên cột. Những gì các giá trị hoặc trường thực sự có nghĩa là được lưu trữ trong một hệ thống quản lý “tài sản dữ liệu” riêng biệt. Hiểu từng giá trị hoặc trường đòi hỏi một dự án “quản trị dữ liệu” đầy đủ. Thiết kế này không thân thiện với các mô hình và đại lý lớn, dựa trên lý luận ngữ nghĩa. Vì vậy, nếu chúng ta phải thiết kế lại một hệ thống lưu trữ dữ liệu cho các đại lý và mô hình lớn, chúng ta sẽ phải lưu trữdata and semantics togetherTôi gọi là này:
Contextual Data Unit (CDU): Một đơn vị hai yếu tố kết hợp dữ liệu + giải thích ngữ nghĩa - mỗi mục nhập dữ liệu mang ý nghĩa của nó.
Contextual Data Unit (CDU): Một đơn vị hai yếu tố kết hợp dữ liệu + giải thích ngữ nghĩa - mỗi mục nhập dữ liệu mang ý nghĩa của nó.
Nó kết hợp thông tin được lưu trữ truyền thống trong các danh mục dữ liệu trực tiếp vào mỗi mục nhập dữ liệu, giảm thời gian tìm kiếm và tỷ lệ lỗi khi các đại lý hoặc mô hình lớn truy cập vào nó.
Trong khi đó, ngữ nghĩa trong CDU bắt nguồn từ các hệ thống kinh doanh - chúng được chưng cất và trừu tượng bởi các đại lý lưu lượng dữ liệu ở nguồn. CDU được hình thành trong quá trình nuốt, chảy vào hồ dữ liệu đại lý - không được tạo ra sau đó. Nói cách khác, quản trị dữ liệu và dòng được nhúng trong quá trình phát triển do đại lý thúc đẩy, không được áp dụng ngược lại sau khi dữ liệu đã vào kho, tránh xung đột và mơ hồ.
Tại thời điểm này, bạn nên hiểu suy nghĩ của tôi: trong thời đại của Agentic AI, mọi thứ từ ETL đến lưu trữ đến ứng dụng dữ liệu sẽ được định hình lại bởi vìconsumers are now Agents and models.Để phục vụ các đại lý thông minh này, các nền tảng dữ liệu truyền thống phải phát triển thành một kiến trúc có thể được gọi là Agent, có ý thức về ngữ nghĩa, được thúc đẩy bởi sự kiện - những gì chúng ta gọi làAgentic Data Stack.
Agentic Data Stack: trong thời đại Agent, một tập hợp công nghệ dữ liệu mới bao gồm từ các công cụ để có được "dữ liệu + ngữ nghĩa", đến các nền tảng tính toán và lưu trữ dữ liệu định dạng CDU, và cuối cùng đến lớp tương tác cung cấp dữ liệu này cho Agent.
Agentic Data Stack: trong thời đại Agent, một tập hợp công nghệ dữ liệu mới bao gồm từ các công cụ để có được "dữ liệu + ngữ nghĩa", đến các nền tảng tính toán và lưu trữ dữ liệu định dạng CDU, và cuối cùng đến lớp tương tác cung cấp dữ liệu này cho Agent.
Dưới đây là dự đoán táo bạo của tôi về những gì Stack dữ liệu đại lý có thể bao gồm:
-
Semantic Orchestrator (Interaction Layer): This is no longer a BI/dashboard interface, but the “brain” and “command center” of the Agentic architecture. With natural language understanding and semantic reasoning capabilities, it bridges other agents with underlying data assets, enabling intelligent, multi-round interactions and service generation.
-
Data Mesh (Storage Layer): No longer a traditional Data Warehouse or Data Lake—it’s a service-oriented, computation-friendly fusion layer that stores data with semantics. It can supply data for complex computations by LLMs while also supporting real-time processing.
-
Data Flow Agent (Processing Layer): Not just “moving data,” but understanding and orchestrating data. Not scheduled periodically, but event-driven and intent-driven. Capable of detecting data changes, analyzing schemas, understanding business logic, and responding accordingly.
Dữ liệu mới được phát hiện bởi Data Flow Agents, được lưu trữ sẵn trong Data Mesh, và được giải thích bởi Semantic Orchestrator với các định nghĩa phù hợp với doanh nghiệp - cuối cùng cho phép "tính toán tức thời" từ nhu cầu kinh doanh đến sản lượng dữ liệu.
LLMs provide the brainpower. Agents are the hands and feet. Agentic Data Stack gives them the data accessibility needed in the era of large models.
Với sự gia tăng của Agentic Data Stack, chi phí xây dựng các "cung cấp dữ liệu" thế hệ tiếp theo giảm đáng kể. Có khả năng truy vấn ngôn ngữ tự nhiên và truy cập dữ liệu có liên quan sẽ không chỉ là đặc quyền của các doanh nghiệp lớn - nó sẽ trở nên dễ tiếp cận với các doanh nghiệp nhỏ và thậm chí cả cá nhân. Bạn có thể nắm bắt các tệp Google Drive, NAS gia đình, PDF trên máy tính xách tay của bạn và đơn đặt hàng ứng dụng từ điện thoại của bạn vào cửa hàng dữ liệu cá nhân của bạn thông qua một đại lý lưu lượng dữ liệu. Sau đó hỏi một câu hỏi như "Tôi đã chi tiêu bao nhiêu vào Disney tháng trước?" - một cái gì đó trước đây đòi hỏi phải xuất khẩu từ nhiều nền tảng và xây dựng thủ công các bảng tính Excel.
Gần đây, dưới sự lãnh đạo của WhaleOps, cộng đồng Apache SeaTunnel đã phát hành Apache SeaTunnel MCP Server – đã tiến tới việc trở thành một Data Flow Agent. Tất nhiên, vẫn còn những trở ngại kỹ thuật để vượt qua – chẳng hạn như các giao thức A2A chưa trưởng thành, các mô hình lưu trữ dữ liệu + ngữ nghĩa chưa được chứng minh trong lớp Data Mesh, và việc chuyển đổi các đầu ra quản lý truyền thống thành đầu vào cho Semantic Orchestrator.
Nhưng sự xuất hiện của thời đại LLM và Agent sẽ định hình lại ngành công nghiệp phân tích dữ liệu giống như sự phát minh của SQL một lần đã làm.
Một câu chuyện: Khi tôi còn là một đứa trẻ, hai thương hiệu xe đạp phổ biến là Forever và Phoenix. Họ cạnh tranh về tốc độ thông qua "các trục tăng tốc". Nhưng điều làm gián đoạn thị trường xe đạp không phải là một chiếc xe đạp tốt hơn - đó là một công ty phân phối thực phẩm ra mắt xe đạp chia sẻ, lật ngược toàn bộ ngành công nghiệp. Khi các đại lý nổi lên, một số con đường sản phẩm cốt lõi mà chúng tôi từng tin tưởng có thể mất ý nghĩa.
Conclusion: Live in the Present, See the Future
Khi tôi chia sẻ tầm nhìn này tại AICon, AWS Community Day và các hội nghị thượng đỉnh công nghệ khác, khán giả luôn chia thành hai trại. “Những người tin tưởng” nghĩ rằng tôi quá bảo thủ khi nói rằng Agentic Data Stack cách đây 5-10 năm – họ tin rằng AI đang phát triển nhanh đến mức chúng ta sẽ thấy nó được hình thành đầy đủ trong 5 năm. “Những người hoài nghi” nghĩ rằng tác động của các đại lý AI đối với kiến trúc kho dữ liệu là quá phóng đại. Họ lập luận rằng các thiết kế kho dữ liệu ngày nay là định dạng ROI cao nhất, và bất cứ điều gì kém hiệu quả sẽ không mở rộng thương mại – đó chỉ là một chiếc bánh trên bầu trời.
Cá nhân, tôi là một “centrist”: Ibelieve the emergence of the Agentic Data Stack is inevitable.Sóng AI này sẽ ảnh hưởng đến kiến trúc phần mềm theo cách cơ bản khác với các làn sóng trước đó.We must look at the total cost and outcome of enterprise data warehouse construction and operations, not just storage or compute ROI alone.
Hiện tại, chúng ta thấy xu hướng: sự gia tăng của kho dữ liệu thời gian thực, sự mở rộng của hồ dữ liệu, và giảm các lớp trong thiết kế kho hiện đại. (Tôi thậm chí sẽ lập luận rằng bây giờ khi thế hệ kiến trúc sư mô hình dữ liệu được đào tạo bởi Teradata của chúng tôi đang nghỉ hưu, thị trường thiếu các chuyên gia có thể theo kịp với logic kinh doanh phát triển nhanh chóng). Vì vậy, mô hình hóa truyền thống chính nó đang lặp đi lặp lại - kho thời gian thực bây giờ thường sử dụng 2 lớp thay vì 3-4.
Điều đó nói rằng, quá trình chuyển đổi sẽ không xảy ra qua đêm. Tôi đã mất từ năm 2016 đến năm 2020 để giúp ClickHouse trở thành công cụ OLAP thời gian thực của Trung Quốc - và đó là với một sản phẩm đã có sẵn. Mặt khác, Agentic Data Stack chỉ có một vài thành phần giai đoạn đầu và các công ty khởi nghiệp. Hầu hết nó chưa tồn tại - nó chắc chắn sẽ không thống trị thị trường trong vòng 5 năm.
Không phải là AI thay thế bạn – đó là người biết cách sử dụng AI. Không phải là kho dữ liệu đang bị nuốt chửng, mà là mô hình cấu trúc và truy vấn của họ đang được thay thế bằng kiến trúc ngữ nghĩa và phản ứng.Cũng giống như một khi bạn đã sử dụng GPS, bạn sẽ không quay trở lại một bản đồ giấy.
Không phải là AI thay thế bạn – đó là người biết cách sử dụng AI. Không phải là kho dữ liệu đang bị nuốt chửng, mà là mô hình cấu trúc và truy vấn của họ đang được thay thế bằng kiến trúc ngữ nghĩa và phản ứng.Cũng giống như một khi bạn đã sử dụng GPS, bạn sẽ không quay trở lại một bản đồ giấy.
The gates to the Agentic Data Stack are opening.
Are you ready?