LTAP hướng tới mục tiêu hợp nhất các khối lượng công việc này trên một bản sao dữ liệu duy nhất nằm trong data lake (hồ dữ liệu). Theo Databricks, kiến trúc này giúp loại bỏ hoàn toàn các pipeline ETL, dữ liệu trùng lặp và mọi sự di chuyển dữ liệu không cần thiết . Dữ liệu giao dịch ngay khi được ghi vào sẽ sẵn sàng cho mục đích phân tích tức thì, không cần qua bước biến đổi hay bảo trì pipeline nào.
Nền tảng cho giấc mơ này chính là Lakebase – dịch vụ Postgres phi máy chủ (serverless) của Databricks được xây dựng trên nền tảng lưu trữ đối tượng mở. Lakebase vốn đã phục vụ hàng nghìn khách hàng và xử lý tới 12 triệu lần khởi chạy cơ sở dữ liệu mỗi ngày . Dưới mô hình LTAP, Lakebase lưu trữ dữ liệu trực tiếp vào Unity Catalog sử dụng các định dạng mở như Delta Lake và Apache Iceberg, để dữ liệu giao dịch đã được quản trị có thể truy vấn ngay lập tức cho các tác vụ phân tích
.
Databricks mô tả kiến trúc mới với một vài đặc tính 'vàng': quản trị thống nhất với một nguồn sự thật duy nhất, khả năng mở rộng quy mô độc lập cho cả hai loại tải, ngữ nghĩa ACID đầy đủ cho các tác vụ Postgres, và quan trọng nhất là không còn các pipeline hay connector ẩn giấu cần bảo trì .
Bên cạnh tuyên bố về LTAP, Databricks cũng hé lộ một loạt cải tiến cho chính Lakebase:
Những tính năng này cho thấy Databricks không chỉ muốn biến serverless Postgres thành một 'lớp tiện lợi' cho phân tích, mà là một cơ sở dữ liệu vận hành chính thống cho các ứng dụng và AI Agent .
Thông báo hạ tầng lớn thứ hai là Lakehouse//RT, một lakehouse thời gian thực được cung cấp sức mạnh bởi một công cụ tính toán mới tên là Reyden (viết tắt cho “Reynold’s Dream Engine,” đặt theo tên của đồng sáng lập Reynold Xin) . Databricks cho biết Reyden có thể mang lại độ trễ truy vấn ở mức mili giây cho hàng chục nghìn người dùng và tác nhân đồng thời, chạy trực tiếp trên các bảng Delta Lake và Apache Iceberg đã được quản trị
.
Ý nghĩa rất lớn: các doanh nghiệp sẽ không còn cần thiết lập các cơ sở hạ tầng phục vụ riêng biệt – như các lớp bộ nhớ đệm (caching), khung nhìn vật chất hóa (materialized views) hay công cụ truy vấn ngoài – để đạt được hiệu năng thời gian thực. Sigma Computing đã tham gia với tư cách là đối tác ra mắt, kết nối trực tiếp với Lakehouse//RT cho các ứng dụng phân tích nhúng . Đồng sáng lập Reynold Xin nhận định đây "có lẽ là lần giới thiệu sản phẩm lớn nhất mà chúng tôi từng thực hiện kể từ khi ra mắt Lakehouse"
.
Databricks đã sử dụng hội nghị thượng đỉnh này để định vị nền tảng của mình như một 'bệ phóng' cho các AI Agent trong doanh nghiệp. Các công bố bao gồm:
Bức tranh tổng quan, như các nhà phân tích trong ngành đã nắm bắt, đó là LTAP và Lakehouse//RT chính là các lớp 'phục vụ dữ liệu' bên dưới một kiến trúc doanh nghiệp 'tác nhân'. Bằng cách đặt dữ liệu vận hành dưới dạng định dạng mở trên bộ nhớ được quản trị, Databricks tin rằng AI Agent có thể truy cập, suy luận và hành động trên cơ sở dữ liệu sản xuất mà không cần di chuyển hay sao chép dữ liệu .
Databricks cũng tăng cường tích hợp hệ sinh thái Azure với một số khả năng được công bố chung:
Các tích hợp này cho thấy một chiến lược nhúng năng lực quản trị và AI của Databricks vào các công cụ cộng tác nơi các quyết định kinh doanh diễn ra, thay vì yêu cầu người dùng phải chuyển đổi qua một giao diện phân tích riêng biệt. Nói cách khác, AI sẽ đến với bạn, chứ không phải bạn phải đi tìm AI.
Một cách tổng thể, những công bố tại hội nghị thượng đỉnh là một 'cược lớn' về nền tảng: rằng thế hệ ứng dụng doanh nghiệp tiếp theo sẽ mang tính tác nhân, thời gian thực và được quản trị chặt chẽ. LTAP xóa bỏ ranh giới giao dịch - phân tích, Lakehouse//RT loại bỏ sự thỏa hiệp về độ trễ cho các truy vấn phân tích, và gia đình Genie cung cấp lớp điều phối tác nhân.
Nếu thành công, kiến trúc này có thể giúp giảm mạnh số lượng các thành phần trong một 'ngăn xếp' dữ liệu doanh nghiệp điển hình – ít cơ sở dữ liệu rời rạc hơn, ít đường ống dẫn hơn, ít lớp phục vụ hơn – trong khi vẫn cung cấp cho các AI Agent bối cảnh thống nhất, thời gian thực mà chúng cần để tự động hành động trên dữ liệu kinh doanh .
Databricks không đơn độc trong cuộc đua hội tụ này, nhưng với 12 triệu lần khởi chạy cơ sở dữ liệu mỗi ngày trên Lakebase và một hội nghị với 30.000 người tham dự củng cố hệ sinh thái, thông báo LTAP đánh dấu một cột mốc quan trọng trong hành trình phát triển của kiến trúc Lakehouse từ nền tảng phân tích trở thành 'xương sống' vận hành dữ liệu.
Comments
0 comments