Thế giới số

CEO Neal Mohan nói về tin đồn OpenAI đào tạo Sora bằng video trên YouTube, nhắc đến Gemini của Google

Sơn Vân • 05/04/2024 17:35

Theo Neal Mohan - Giám đốc điều hành YouTube, nếu OpenAI sử dụng video trên YouTube để đào tạo Sora thì sẽ vi phạm các điều khoản dịch vụ của nền tảng này.

Trong bài phát biểu công khai đầu tiên về chủ đề trên, Neal Mohan cho biết ông không biết liệu OpenAI có thực sự sử dụng video YouTube để tinh chỉnh Sora, mô hình trí tuệ nhân tạo (AI) chuyển văn bản thành video chân thực, hay không. Nếu có thì đó sẽ là “vi phạm rõ ràng” các điều khoản sử dụng của YouTube, Neal Mohan nói.

Neal Mohan cho biết một cuộc phỏng vấn của Emily Chang, người dẫn chương trình Bloomberg Originals: “Theo góc nhìn của người sáng tạo, khi tải tác phẩm lên nền tảng của chúng tôi, họ có những kỳ vọng nhất định. Một trong những kỳ vọng đó là các điều khoản dịch vụ sẽ được tuân thủ. Điều khoản không cho phép tải xuống các bản sao chép hoặc đoạn video, vì đó là hành vi vi phạm rõ ràng các điều khoản dịch vụ của YouTube. Đây là những quy tắc cơ bản với nội dung trên nền tảng của chúng tôi”.

Đã có nhiều cuộc tranh luận công khai về việc OpenAI sử dụng dữ liệu nào để đào tạo các mô hình AI làm nền tảng cho các sản phẩm tạo nội dung phổ biến như ChatGPT, DALL-E và Sora.

Sora và các ứng dụng AI tạo sinh khác hoạt động bằng cách thu thập tất cả loại nội dung từ khắp nơi trên web và sử dụng dữ liệu đó làm nền tảng để tạo ra nội dung mới, như video, ảnh, văn bản tường thuật...

Khi OpenAI, Google và các công ty khác chạy đua để phát triển AI mạnh mẽ hơn, họ đang tìm cách tìm nguồn càng nhiều nội dung càng tốt để đào tạo các mô hình AI của mình nhằm đạt được kết quả chất lượng tốt hơn. Google và YouTube là hai đơn vị của Alphabet.

Cộng đồng AI cho rằng OpenAI sử dụng số lượng lớn video YouTube để đào tạo các mô hình AI, gồm cả sản phẩm mới của họ là Sora. Nó gần như là một bí mật đã được công khai. Điều bí ẩn là làm thế nào OpenAI truy cập đủ nội dung YouTube để thực hiện công việc này.

YouTube cấm việc thu thập video của mình bằng bot và các phương pháp tự động khác, đồng thời cấm tải xuống vì mục đích thương mại.

YouTube cũng sẽ hạn chế các nỗ lực tải xuống video trên nền tảng của mình với số lượng lớn.

OpenAI cần lượng lớn văn bản, hình ảnh và video để đào tạo các mô hình AI của mình. Điều này có nghĩa là OpenAI, công ty khởi nghiệp Mỹ được Microsoft đầu tư hàng tỉ USD, nếu muốn vượt qua các giới hạn thì phải tải xuống khối lượng lớn video YouTube hoặc truy cập dữ liệu này theo cách nào đó.

Video YouTube được cung cấp miễn phí trực tuyến, nên việc tải xuống một lượng nhỏ nội dung này cho mục đích nghiên cứu có vẻ vô hại. Thế nhưng, khai thác hàng triệu video để xây dựng các mô hình AI mạnh mẽ có thể là việc hoàn toàn khác.

Trang Insider đã hỏi OpenAI liệu họ có tải xuống video YouTube trên quy mô lớn hay không và liệu công ty này có sử dụng nội dung này làm dữ liệu để đào tạo mô hình AI hay không. Insider cũng hỏi OpenAI về những hạn chế của YouTube về việc tải xuống video với số lượng lớn.

Người phát ngôn của OpenAI cho biết: “Chương trình đào tạo của Sora bao gồm tài liệu từ các nguồn được cấp phép cũng như nội dung có sẵn công khai trên internet”. Người này từ chối bình luận về các câu hỏi cụ thể từ Insider.

Mira Murati, Giám đốc Công nghệ OpenAI, cho biết trong một cuộc phỏng vấn với tờ Wall Street Journal vào tháng trước rằng bà không chắc liệu Sora có được đào tạo bằng video do người dùng tạo từ YouTube, Facebook và Instagram hay không.

Wall Street Journal vừa đưa tin OpenAI đã thảo luận về việc đào tạo mô hình ngôn ngữ lớn thế hệ tiếp theo, GPT-5, dựa trên các bản trích dẫn từ video công khai trên YouTube.

neal-mohan-noi-ve-tin-don-openai-dao-tao-sora-bang-cac-video-tren-youtube-nhac-den-gemini-cua-google.jpg — Neal Mohan nói nếu OpenAI đào tạo Sora bằng video trên YouTube thì sẽ vi phạm các quy tắc - Ảnh: Bloomberg

Neal Mohan cho biết Google tuân thủ các hợp đồng cá nhân của YouTube với người sáng tạo trước khi quyết định có sử dụng video từ nền tảng này để đào tạo mô hình AI mạnh mẽ Gemini hay không.

Ông nói: “Rất nhiều người sáng tạo có các loại hợp đồng cấp phép khác nhau về nội dung của họ trên nền tảng của chúng tôi. Dù một phần trong kho dữ liệu YouTube đó có thể đang được sử dụng để đào tạo các mô hình như Gemini, Google và YouTube đảm bảo rằng việc sử dụng video làm dữ liệu đào tạo cho AI là phù hợp với bất kỳ điều khoản dịch vụ hoặc hợp đồng nào mà người sáng tạo đã ký trước đó”.

"Cột mốc quan trọng để đạt được AGI"

Việc tạo video từ văn bản đã trở thành một chủ đề nóng kể từ khi OpenAI giới thiệu Sora vào ngày 15.2. Sora có thể tạo video tối đa 1 phút với hình ảnh ấn tượng, chân thực dựa trên gợi ý từ người dùng. Mô hình AI này tạo ra các cảnh phức tạp với nhiều nhân vật, các kiểu chuyển động cụ thể cũng như chi tiết chính xác về chủ đề và hậu cảnh dựa trên những gì người dùng yêu cầu.

Giới chuyên gia đánh giá Sora là công cụ AI tạo sinh tạo ra những thước phim chất lượng tốt nhất hiện nay.

Video về những con vật không có thật được nghệ sĩ kỹ thuật số Don Allen Stevenson III tạo ra bằng Sora

OpenAI chưa công khai mô hình tạo video từ văn bản của mình với công chúng. Trong phần mô tả, OpenAI cũng đề cập rất ít về công nghệ phía sau Sora và nguồn dữ liệu dùng để đào tạo.

"Sora sử dụng mô hình khuếch tán, tạo video bằng cách bắt đầu với một video nhiễu, độ phân giải thấp sau đó loại bỏ nhiễu qua nhiều bước cho đến khi đầu ra đạt kết quả ưng ý", OpenAI nói về cách thức hoạt động của Sora. Nhờ vậy, mô hình AI này có khả năng tạo toàn bộ video cùng lúc thay vì từng đoạn ngắn và ghép lại như các công cụ khác. Thuật toán cho phép mô hình dự đoán nhiều khung hình cùng lúc để đảm bảo chủ thể giữ nguyên vẹn trong khi các chi tiết khác được tái hiện.

Theo OpenAI, Sora được xây dựng dựa trên những nghiên cứu trước đây về mô hình AI tạo ảnh Dall-E và chabot tạo văn bản ChatGPT. Tuy nhiên, tiến sĩ Jim Fan, nhà nghiên cứu cấp cao về AI tại Nvidia, nhận định: "Nếu bạn vẫn cho rằng Sora chỉ là món đồ chơi sáng tạo như Dall-E, hãy nghĩ lại. Nó là mô hình vật lý học hệ thống dựa trên dữ liệu, có thể mô phỏng cả thế giới thực lẫn ảo".

Jim Fan lưu ý Sora là mô hình biến áp khuếch tán từ đầu đến cuối. Bí mật của Sora nằm ở khả năng hiểu sâu sắc văn bản trước khi chuyển đổi thành các dạng hình ảnh 3D. Từ đây, Sora tiếp tục đưa ra dự đoán dựa trên quy tắc chuyển động vật lý để biến đổi từng pixel cho video đến mức chính xác nhất có thể.

"Trình mô phỏng của Sora không chỉ dựa trên những dữ liệu được học, nó còn có thể tự đào tạo, tìm ra kết quả đúng nhất để tiếp tục sáng tác", Jim Fan phân tích. Ông cho rằng điều khiến Sora trở nên khác biệt là nó không tạo video bằng cách lắp ghép chuỗi hình ảnh rời rạc mà kết xuất tập hợp pixel theo thời gian thực.

Trong phần mô tả về kỹ thuật hoạt động của Sora, OpenAI cũng khẳng định mô hình này sẽ đóng vai trò làm nền tảng cho AI hiểu và mô phỏng thế giới thực.

"Chúng tôi tin đây sẽ là cột mốc quan trọng để đạt được AGI", OpenAI tuyên bố.

AGI là AI siêu thông minh, tiên tiến đến mức có thể làm được nhiều việc ngang bằng hoặc tốt hơn con người.

Theo trang Medium, tổng hợp văn bản thành video là nhiệm vụ thách thức vì đòi hỏi mô hình AI phải hiểu ý nghĩa và ngữ cảnh của văn bản cũng như các khía cạnh khác của hình ảnh, video và chuyển động vật lý. Một trong những lý do OpenAI giới hạn Sora cho nhóm nhỏ dùng thử là vì nó vẫn còn một số nhược điểm.

"Sora có thể gặp khó khăn khi mô phỏng chính xác tính chất vật lý của một cảnh phức tạp. Nó có thể không hiểu đúng về các mệnh đề mang tính nguyên nhân - kết quả", OpenAI thừa nhận.

OpenAI ví dụ Sora có thể sáng tạo video một người cắn bánh quy nhưng sau đó chiếc bánh còn nguyên và không có vết cắn. Sora cũng có thể nhầm lẫn các chi tiết trái phải, trước sau, ví dụ hình ảnh người đàn ông chạy ngược trên máy tập.

Song theo các nhà phân tích, điểm gây lo ngại lớn nhất của Sora nằm ở chính đột phá của OpenAI.

Những video được tạo ra quá giống thật khiến nhiều người sợ Sora có thể bị lạm dụng để phát tán nội dung sai lệch, vi phạm quyền riêng tư, phân biệt chủng tộc, thậm chí có thể tác động đến kết quả của các cuộc bầu cử. Dù cấm sử dụng Sora tạo nội dung xấu, OpenAI hiện chưa tìm được cách nhận biết đâu là hình ảnh do AI tạo ra, đâu là thật để gắn nhãn và phân loại.

Fred Havemeyer, người đứng đầu bộ phận nghiên cứu về AI của Macquarie, cho rằng khả năng đáng kinh ngạc của Sora sẽ gây ra nhiều lo lắng liên quan đến vấn đề đạo đức và ảnh hưởng tới xã hội. Theo ông, tác động tiêu cực của AI sẽ là chủ đề được tranh luận nhiều nhất trong 2024 và Sora là phát súng mở màn.

Theo tờ New York Times, OpenAI vẫn giấu kỹ thông tin về những nội dung sử dụng để đào tạo Sora đến từ đâu, bao nhiêu phần trăm trong số đó có bản quyền. "Có thể OpenAI muốn giữ bí mật để duy trì lợi thế cạnh tranh, nhưng cũng có thể họ sợ bị kiện liên quan đến bản quyền, tương tự rắc rối ChatGPT đang đối mặt", New York Times viết.

Tuy nhiên, giới phân tích đều chung nhận định Sora đang mở ra một kỷ nguyên mới của AI tạo video, tương tự cách ChatGPT xuất hiện. Khi chính thức thương mại hóa, Sora có thể tác động trực tiếp đến ngành điện ảnh, truyền thông và thiết kế game.

Reece Hayden, nhà phân tích cấp cao tại hãng ABI Research, nói trên CBS News rằng trong tương lai, những công cụ AI như Sora thậm chí sẽ thay đổi mô hình hoạt động của các nền tảng như Netflix khi người dùng có thể sửa đoạn kết câu chuyện hoặc tự tạo bộ phim theo ý mình chỉ với những dòng văn bản.