Trong nỗ lực phát triển quan hệ đối tác nguồn mở, Microsoft sẽ hợp tác với Google và Onehouse để hỗ trợ OneTable, dự án có thể định hình lại cảnh quan hồ dữ liệu đám mây nhiều năm tới.

Microsoft và Google hợp tác phát triển OneTable, định hình lại cảnh quan hồ dữ liệu đám mây

Sơn Vân | 15/11/2023, 22:55

Trong nỗ lực phát triển quan hệ đối tác nguồn mở, Microsoft sẽ hợp tác với Google và Onehouse để hỗ trợ OneTable, dự án có thể định hình lại cảnh quan hồ dữ liệu đám mây nhiều năm tới.

Hồ dữ liệu là kho lưu trữ tập trung chứa dữ liệu thô và dữ liệu phi cấu trúc. Bạn có thể lưu trữ dữ liệu trước và xử lý dữ liệu đó sau.

Trong vài năm qua, các tổ chức đã phải đưa ra quyết định về việc sử dụng định dạng bảng hồ dữ liệu nào. Đó là một quyết định có thể dẫn đến việc bị ràng buộc bởi nhà cung cấp và gặp khó khăn về tương thích cho các công việc phân tích dữ liệu cũng như trải nghiệm trí tuệ nhân tạo (AI). Trong số các định dạng bảng hồ dữ liệu chính có công nghệ Apache Iceberg và Apache Hudi cũng như Delta Lake do hãng Databricks dẫn đầu.

Dự án OneTable do Onehouse kích hoat là nỗ lực nhằm tạo ra một lớp mới nằm trên các định dạng bảng hồ dữ liệu cho phép chuyển đổi đa hướng và truy cập trên Apache Iceberg, Apache Hudi cùng Delta Lake.

Onehouse lần đầu tiên công bố OneTable vào tháng 2 cùng chiến dịch gọi vốn 25 triệu USD. Nỗ lực này đang được mở rộng đáng kể như một dự án nguồn mở có sự hỗ trợ từ Microsoft và Google. Các nhà cung cấp khác, gồm cả Amazon, để thảo luận về việc tham gia trong tương lai.

“Trong suốt năm nay, chúng tôi đã làm việc với các khách hàng của mình cũng như với Google, Microsoft và nhiều người khác để mở rộng ý tưởng cũng như làm cho nó trở nên cụ thể và rõ ràng hơn. Tôi nghĩ rằng chúng tôi đang ở thời điểm sẵn sàng mở nguồn OneTable để đóng góp cho cộng đồng và đảm bảo có một nơi dành cho định dạng chéo, khả năng tương tác được hỗ trợ bởi một số hãng có ảnh hưởng chính áp dụng các định dạng bảng hồ dữ liệu này”, Vinoth Chandar, người sáng lập kiêm Giám đốc điều hành Onehouse, nói với trang VentureBeat.

microsoft-va-google-hop-tac-phat-trien-onetable-dinh-hinh-lai-canh-quan-ho-du-lieu-dam-may.jpg
Microsoft, Google và Onehouse hợp tác phát triển OneTable, giải pháp nguồn mở cho các thách thức về hồ dữ liệu - Ảnh: Internet

Microsoft hỗ trợ OneTable để giúp kích hoạt tính mở

Microsoft có phương pháp tiếp cận hồ dữ liệu riêng có tên Fabric, hỗ trợ định dạng bảng Delta Lake và là một phần quan trọng trong nỗ lực của công ty nhằm tạo ra một khuôn khổ mở, duy nhất cho khách hàng của mình. Việc Microsoft tham gia nỗ lực hỗ trợ OneTable nhằm giúp kích hoạt tính mở.

Raghu Ramakrishnan, Giám đốc công nghệ về dữ liệu tại Microsoft, nói với VentureBeat: “Chúng tôi muốn có một lối vào mà người dùng có thể tham gia vào hệ sinh thái của chúng tôi mà không cảm thấy bị chặn”.

Raghu Ramakrishnan lưu ý rằng cảnh quan hồ dữ liệu ngày nay có sự đa dạng. Delta Lake của Databricks có lượng người dùng ngày càng tăng. Iceberg được hỗ trợ bởi nhiều nhà cung cấp, gồm cả Snowflake và Cloudera. Hudi cũng có tỷ lệ người dùng và người ủng hộ khá lớn, trong đó có gã khổng lồ bán lẻ Walmart. Việc có thể sử dụng và truy vấn dữ liệu qua các định dạng bảng hồ dữ liệu là một khả năng quan trọng.

“Việc không để OneTable trở thành độc quyền sẽ rất hữu ích cho khách hàng của chúng tôi và với cả Microsoft. Cuối cùng, hy vọng thực sự của tôi ở đây là cùng nhau, chúng ta có thể tạo ra một hệ sinh thái nơi khách hàng có thể truy cập bất cứ giải pháp nào tốt nhất mà không bị ràng buộc bởi dữ liệu cơ bản”, Raghu Ramakrishnan nói.

Google coi OneTable là hồ dữ liệu "Babelfish"

Google đã và đang phát triển công nghệ nền tảng hồ dữ liệu của riêng mình với các bảng BigLake cùng những nỗ lực khác. Việc hỗ trợ OneTable như nỗ lực mã nguồn mở được Google xem là chìa khóa để thực hiện mục tiêu có kiến trúc dữ liệu mở.

“Chúng tôi xây dựng BigLake vì thực sự thấy được lợi ích của kiến trúc dữ liệu mở”, Gerrit Kazmaier, Phó chủ tịch dữ liệu và phân tích tại Google Cloud, nói với VentureBeat.

Gerrit Kazmaier lưu ý rằng đến nay đã có thách thức thực sự khi các tổ chức phải đưa ra lựa chọn khó khăn về định dạng bảng mà họ chọn. Tùy thuộc vào công nghệ, một tổ chức có thể bị ràng buộc trong cách quản lý, truy cập và quản lý dữ liệu gây ra hậu quả lâu dài.

Ông nói: “Có những định dạng mở và miễn phí như Iceberg, nhưng sau đó có thể có những khối lượng công việc khác đang chạy phụ thuộc vào một định dạng khác không phải là định dạng file chính mà bạn đã chọn. Đó chính là lúc OneTable trợ giúp. Nó giống như Babelfish vậy”.

Babelfish là sự sáng tạo hư cấu từ tác phẩm khoa học viễn tưởng kinh điển Hitchhiker’s Guide to the Galaxy, cho phép mọi người tự động dịch và hiểu các ngôn ngữ khác nhau. Gerrit Kazmaier cho biết OneTable sẽ không thay thế các định dạng bảng hồ dữ liệu khác nhau, nhưng sẽ loại bỏ gánh nặng cho các tổ chức về việc phải chọn định dạng mà họ có thể bị ràng buộc.

Khả năng kích hoạt khả năng tương tác giữa các định dạng là rất quan trọng với Google khi mở rộng sự sẵn có công nghệ phân tích dữ liệu BigQuery Omni của mình.

Gerrit Kazmaier nói rằng OneTable cơ bản là sự mở rộng của BigQuery Omni sang Amazon Web Services và Microsoft Azure. Đây là một dịch vụ đang phát triển nhanh chóng. Khi các tổ chức tìm cách xử lý và phân tích dữ liệu trên các đám mây, có thể có các định dạng khác nhau và một câu hỏi thường gặp được đặt ra là làm cách nào để cảnh quan dữ liệu có thể được kết nối với nhau và ngăn chặn sự phân mảnh tiềm ẩn.

“Chúng tôi cho rằng OneTable là một cách tiếp cận tuyệt vời và thực sự phù hợp với nguyên tắc cởi mở của Google”, Gerrit Kazmaier nhấn mạnh.

Kho dữ liệu, hồ dữ liệu và tập hợp dữ liệu khác nhau như thế nào?

Kho dữ liệu, hồ dữ liệu và tập hợp dữ liệu là các giải pháp lưu trữ đám mây khác nhau.

Kho dữ liệu lưu trữ dữ liệu ở định dạng có cấu trúc. Đó là kho lưu trữ tập trung chứa dữ liệu đã được xử lý trước cho hoạt động phân tích và cung cấp thông tin kinh doanh.

Tập hợp dữ liệu là kho dữ liệu phục vụ nhu cầu của một đơn vị cụ thể trong doanh nghiệp, chẳng hạn như bộ phận tài chính, tiếp thị hoặc kinh doanh của công ty.

Hồ dữ liệu là kho lưu trữ tập trung chứa dữ liệu thô và dữ liệu phi cấu trúc. Bạn có thể lưu trữ dữ liệu trước và xử lý dữ liệu đó sau.

Điểm tương đồng giữa kho dữ liệu, tập hợp dữ liệu và hồ dữ liệu

Ngày nay, các tổ chức có quyền truy cập vào khối lượng dữ liệu ngày càng tăng. Tuy nhiên, họ phải sắp xếp, xử lý, lọc và phân tích dữ liệu thô để thu được lợi ích thiết thực. Ngoài ra, họ cũng phải tuân theo các biện pháp bảo mật và bảo vệ dữ liệu nghiêm ngặt để tuân thủ quy định. Ví dụ đây là các hoạt động mà các tổ chức phải tuân theo:

Thu thập dữ liệu từ các nguồn khác nhau như ứng dụng, nhà cung cấp, cảm biến internet vạn vật (IoT) và các bên thứ ba khác.

Xử lý dữ liệu thành một định dạng nhất quán, đáng tin cậy và hữu ích. Ví dụ các tổ chức có thể xử lý dữ liệu để đảm bảo rằng tất cả các ngày trên hệ thống có cùng định dạng ngày tháng hoặc tổng hợp báo cáo hàng ngày.

Chuẩn bị dữ liệu bằng cách định dạng tệp XML cho phần mềm học máy hoặc tạo báo cáo cho con người.

Các tổ chức sử dụng các công cụ và giải pháp khác nhau để có được kết quả phân tích dữ liệu.

Bài liên quan
Quan chức Microsoft sợ các công ty đa quốc gia đóng cửa hoạt động R&D ở Israel
Một quan chức cấp cao Microsoft ở Israel bày tỏ lo ngại về tương lai của lĩnh vực công nghệ cao nước này do cuộc chiến với Hamas, cảnh báo các công ty đa quốc gia có thể đóng cửa hoạt động R&D (nghiên cứu và phát triển).

(0) Bình luận
Nổi bật Một thế giới
Thủ tướng Phạm Minh Chính: Chuyển đổi số một cách sâu rộng, toàn diện, thực chất và hiệu quả
1 giờ trước Khoa học - công nghệ
Ngày 12.10, Thủ tướng Phạm Minh Chính, Chủ tịch Ủy ban Quốc gia về chuyển đổi số (Ủy ban) chủ trì sự kiện chào mừng ngày Chuyển đổi số quốc gia năm 2024 nhằm điểm lại thành tựu, nghi nhận kết quả hoạt động của Tổ công nghệ số cộng đồng, thúc đẩy quá trình chuyển đổi số quốc gia, nâng cao chất lượng phục vụ cộng đồng, người dân, doanh nghiệp.
Đừng bỏ lỡ
Mới nhất
POWERED BY ONECMS - A PRODUCT OF NEKO
Microsoft và Google hợp tác phát triển OneTable, định hình lại cảnh quan hồ dữ liệu đám mây