Nhịp đập khoa học

CEO Google DeepMind: Trình chuyển văn bản thành video Lumiere khó sánh kịp Sora của OpenAI

Sơn Vân • 09/04/2024 23:07

Demis Hassabis cho rằng Sora, mô hình trí tuệ nhân tạo (AI) chuyển văn bản thành video của OpenAI, tiên tiến hơn công cụ Lumiere do Google DeepMind của ông sản xuất.

Theo trang The Information, Demis Hassabis (Giám đốc điều hành Google DeepMind) gần đây đã nói với một đồng nghiệp rằng Lumiere khó có thể sánh ngang Sora.

Trình làng vào năm 2010, công ty khởi nghiệp DeepMind được Google mua lại hồi năm 2014 với giá 500 triệu USD. Google xem DeepMind là tài sản ngày càng quan trọng và cho phép công ty con này hoạt động độc lập trong nhiều năm.

Năm ngoái, để đối phó với áp lực ngày càng tăng từ các đối thủ như OpenAI, Google đã sáp nhập DeepMind với đơn vị AI trung tâm Brain, tạo thành Google DeepMind mới.

Có hơn 2.000 nhân viên, Google DeepMind đang dẫn đầu công việc về Gemini, mô hình ngôn ngữ lớn cạnh tranh với GPT-4 của OpenAI. Gemini trở thành một phần quan trọng trong chiến lược AI của Google.

Việc tạo video từ văn bản đã trở thành một chủ đề nóng kể từ khi OpenAI giới thiệu Sora vào ngày 15.2. Sora có thể tạo video tối đa 1 phút với hình ảnh ấn tượng, chân thực dựa trên gợi ý từ người dùng. Mô hình AI này tạo ra các cảnh phức tạp với nhiều nhân vật, các kiểu chuyển động cụ thể cũng như chi tiết chính xác về chủ đề và hậu cảnh dựa trên những gì người dùng yêu cầu.

"Sora sử dụng mô hình khuếch tán, tạo video bằng cách bắt đầu với một video nhiễu, độ phân giải thấp sau đó loại bỏ nhiễu qua nhiều bước cho đến khi đầu ra đạt kết quả ưng ý", OpenAI nói về cách thức hoạt động của Sora.

Nhờ vậy, Sora có khả năng tạo toàn bộ video cùng lúc thay vì từng đoạn ngắn và ghép lại như các công cụ khác. Thuật toán cho phép mô hình dự đoán nhiều khung hình cùng lúc để đảm bảo chủ thể giữ nguyên vẹn trong khi các chi tiết khác được tái hiện.

Giới chuyên gia đánh giá Sora là công cụ AI tạo ra những thước phim chất lượng tốt nhất hiện nay. Bản demo các video do Sora tạo đã lan truyền trên mạng vào tháng 2 và gây ấn tượng với nhiều người.

Trong khi đó, Lumiere chỉ có thể tạo các video ngắn 5 giây cũng bằng lời nhắc văn bản. Google tiết lộ Lumiere trong một bài nghiên cứu vào tháng 1.

Gần đây phát hành mô hình AI thử nghiệm Gemini phiên bản 1.5, Google cho biết trong tài liệu nghiên cứu rằng điều quan trọng là tạo ra các công cụ có thể phát hiện “các thành kiến và trường hợp sử dụng độc hại” để đảm bảo an toàn. Điều này là vì có "nguy cơ sử dụng sai mục đích để tạo nội dung giả mạo hoặc có hại" bằng Lumiere và Google đã gặp phải vấn đề tương tự với trình tạo hình ảnh AI của Gemini hồi tháng 2. Google đã tạm dừng triển khai công cụ AI này sau khi nó tạo ra hình ảnh về người da màu trong bối cảnh không chính xác về mặt lịch sử.

ong-chu-google-deepmind-ai-manh-nhu-nao-nguoi-co-the-xuat-hien-vai-nam-toi.jpg

ceo-google-deepmind-trinh-chuyen-van-ban-thanh-video-lumiere-kho-bat-kip-sora-cua-openai.jpg — Demis Hassabis cho rằng Sora tiên tiến hơn Lumiere của Google DeepMind - Ảnh: Internet

Việc Demis Hassabis so sánh Lumiere với Sora diễn ra khi các hãng công nghệ lớn tiếp tục cuộc chạy đua trong lĩnh vực AI bằng các sản phẩm cạnh tranh nhau. Ai giành chiến thắng phụ thuộc vào việc có được một lượng dữ liệu đáng kể để cung cấp cho hệ thống AI của họ và thúc đẩy công nghệ phát triển.

Cộng đồng AI cho rằng OpenAI sử dụng số lượng lớn video YouTube để đào tạo các mô hình AI, gồm cả Sora. Nó gần như là một bí mật đã được công khai. Điều bí ẩn là làm thế nào OpenAI truy cập đủ nội dung YouTube để thực hiện công việc này.

YouTube thuộc Google cấm việc thu thập video của mình bằng bot và các phương pháp tự động khác, đồng thời cấm tải xuống vì mục đích thương mại. YouTube cũng sẽ hạn chế các nỗ lực tải xuống video trên nền tảng của mình với số lượng lớn.

OpenAI cần lượng lớn văn bản, hình ảnh và video để đào tạo các mô hình AI của mình. Điều này có nghĩa là OpenAI, công ty khởi nghiệp Mỹ được Microsoft đầu tư hàng tỉ USD, nếu muốn vượt qua các giới hạn thì phải tải xuống khối lượng lớn video YouTube hoặc truy cập dữ liệu này theo cách nào đó.

Video YouTube được cung cấp miễn phí trực tuyến, nên việc tải xuống một lượng nhỏ nội dung này cho mục đích nghiên cứu có vẻ vô hại. Thế nhưng, khai thác hàng triệu video để xây dựng các mô hình AI mạnh mẽ có thể là việc hoàn toàn khác.

Trang Insider đã hỏi OpenAI liệu họ có tải xuống video YouTube trên quy mô lớn hay không và liệu công ty này có sử dụng nội dung này làm dữ liệu để đào tạo mô hình AI hay không. Insider cũng hỏi OpenAI về những hạn chế của YouTube về việc tải xuống video với số lượng lớn. Người phát ngôn của OpenAI cho biết: “Chương trình đào tạo của Sora bao gồm tài liệu từ các nguồn được cấp phép cũng như nội dung có sẵn công khai trên internet”. Người này từ chối bình luận về các câu hỏi cụ thể từ Insider.

Mira Murati, Giám đốc Công nghệ OpenAI, nói trong một cuộc phỏng vấn với tờ Wall Street Journal vào tháng trước rằng bà không chắc liệu Sora có được đào tạo bằng video do người dùng tạo từ YouTube, Facebook và Instagram hay không.

Wall Street Journal vừa đưa tin OpenAI đã thảo luận về việc đào tạo mô hình ngôn ngữ lớn thế hệ tiếp theo, GPT-5, dựa trên các bản trích dẫn từ video công khai trên YouTube.

Vào tuần trước, Neal Mohan (Giám đốc điều hành YouTube) nói với hãng tin Bloomberg rằng ông không biết liệu OpenAI có sử dụng nội dung YouTube để đào tạo Sora hay không. Ông nói thêm rằng nếu OpenAI làm như vậy thì sẽ "vi phạm rõ ràng" các điều khoản dịch vụ của YouTube.

Neal Mohan cho hay: “Theo góc nhìn của người sáng tạo, khi tải tác phẩm lên nền tảng của chúng tôi, họ có những kỳ vọng nhất định. Một trong những kỳ vọng đó là các điều khoản dịch vụ sẽ được tuân thủ. Điều khoản không cho phép tải xuống các bản sao chép hoặc đoạn video, vì đó là hành vi vi phạm rõ ràng các điều khoản dịch vụ của YouTube. Đây là những quy tắc cơ bản với nội dung trên nền tảng của chúng tôi”.

Tờ New York Times đưa tin OpenAI đã sử dụng các video YouTube để giúp cải thiện công cụ nhận dạng giọng nói Whisper, trích dẫn các nguồn giấu tên.

Theo New York Times, OpenAI đã chuyển thể hơn 1 triệu giờ video YouTube thành văn bản để đưa vào mô hình ngôn ngữ lớn GPT-4 của mình.

Google cũng chuyển thể video YouTube thành văn vản để đào tạo các mô hình AI của mình, New York Times cho biết. Làm như vậy có thể vi phạm bản quyền của người sáng tạo nội dung dù YouTube thuộc Google.

Về điều này, Neal Mohan nói Google tuân thủ các hợp đồng cá nhân của YouTube với người sáng tạo trước khi quyết định có sử dụng video từ nền tảng này để đào tạo mô hình AI mạnh mẽ Gemini hay không.

Ông lý giải: “Rất nhiều người sáng tạo có các loại hợp đồng cấp phép khác nhau về nội dung của họ trên nền tảng của chúng tôi. Dù một phần trong kho dữ liệu YouTube đó có thể đang được sử dụng để đào tạo các mô hình như Gemini, Google và YouTube đảm bảo rằng việc sử dụng video làm dữ liệu đào tạo cho AI là phù hợp với bất kỳ điều khoản dịch vụ hoặc hợp đồng nào mà người sáng tạo đã ký trước đó”.