Nhịp đập khoa học

Các nhà nghiên cứu Trung Quốc đặt tham vọng tái tạo Sora với sự trợ giúp từ cộng đồng nguồn mở

Sơn Vân • 04/03/2024 22:00

Nhóm các nhà nghiên cứu đang thực hiện một nỗ lực mới để phát triển phiên bản Trung Quốc của mô hình chuyển văn bản thành video Sora do OpenAI (Mỹ) phát triển, dấu hiệu mới nhất cho thấy cơn sốt trí tuệ nhân tạo (AI) tạo sinh ở nước này.

Các giáo sư từ Đại học Bắc Kinh và Rabbitpre (công ty AI có trụ sở tại thành phố Thâm Quyến, Trung Quốc) vào ngày 1.3 đã cùng nhau đưa ra kế hoạch Open-Sora thông qua một trang trên nền tảng lưu trữ mã nguồn GitHub, với sứ mệnh “tái tạo mô hình tạo video từ văn bản của OpenAI”. OpenAI chính là công ty kích hoạt cơn sốt AI toàn cầu vào cuối năm 2023 với việc ra mắt chabot ChatGPT.

Kế hoạch Open-Sora nhằm mục đích tái tạo một phiên bản “đơn giản và có thể mở rộng” của Sora với sự trợ giúp từ cộng đồng nguồn mở.

Theo trang GitHub của dự án này, nhóm nghiên cứu đã phát triển một khung công việc gồm 3 phần và trình chiếu 4 bản demo của các video được tái tạo ở các độ phân giải và tỷ lệ khung hình khác nhau, từ 3 giây đến 24 giây.

Các nhiệm vụ tiếp theo của nhóm gồm tinh chỉnh công nghệ để tạo ra độ phân giải cao hơn cũng như đào tạo với nhiều dữ liệu hơn và nhiều bộ xử lý đồ họa (GPU) hơn.

Được OpenAI giới thiệu vào ngày 15.2, Sora có thể tạo video tối đa 1 phút với hình ảnh ấn tượng, chân thực dựa trên gợi ý từ người dùng. Sora có thể tạo ra các cảnh phức tạp với nhiều nhân vật, những kiểu chuyển động cụ thể cũng như chi tiết chính xác về chủ đề và hậu cảnh dựa trên những gì người dùng yêu cầu.

Kể từ khi OpenAI tung ra các video demo đáng kinh ngạc do Sora tạo, cộng đồng doanh nghiệp và công nghệ Trung Quốc đã bày tỏ những cảm xúc lẫn lộn về sự phát triển mới nhất của công ty khởi nghiệp Mỹ được Microsoft hậu thuẫn.

Trong khi một số hãng tỏ ra quan tâm mạnh mẽ đến việc sử dụng mô hình AI chuyển văn bản thành video, những công ty khác lại bày tỏ lo ngại về khả năng cạnh tranh của Trung Quốc ở lĩnh vực này. Chính quyền Biden tiếp tục thắt chặt hạn chế thương mại, cấm xuất khẩu chip tiên tiến có nguồn gốc từ Mỹ và công nghệ liên quan sang Trung Quốc.

Vào tháng 1, gã khổng lồ game Tencent (Trung Quốc) đã phát hành hộp công cụ chỉnh sửa và tạo video nguồn mở VideoCrafter2, có khả năng tạo video từ văn bản. Đây là phiên bản cập nhật của VideoCrafter1, được phát hành vào tháng 10.2023 nhưng chỉ giới hạn ở các video chỉ 2 giây.

Gần như cùng thời gian đó, ByteDance (chủ sở hữu TikTok) đã phát hành mô hình chuyển văn bản thành video MagicVideo-V2. Theo trang GitHub của dự án, MagicVideo-V2 kết hợp “mô hình chuyển văn bản thành hình ảnh, trình tạo chuyển động video, mô đun nhúng hình ảnh tham chiếu và mô đun nội suy khung vào một đường dẫn tạo video từ đầu đến cuối”.

ModelScope, đơn vị của Damo Vision Intelligence Lab thuộc gã khổng lồ thương mại điện tử Alibaba, cũng giới thiệu mô hình chuyển văn bản thành video nhưng hiện chỉ hỗ trợ đầu vào tiếng Anh và đầu ra video bị giới hạn trong 2 giây.

Kế hoạch Open-Sora được đưa ra bởi Rabbitpre AIGC Joint Lab, là sự hợp tác giữa Trường Cao học Thâm Quyến của Đại học Bắc Kinh và Rabbitpre, được thành lập vào tháng 6.2023. Rabbitpre AIGC Joint Lab chuyên nghiên cứu trong lĩnh vực nội dung do AI sản xuất.

Dự án Open-Sora liệt kê 13 thành viên là nhóm ban đầu, gồm cả trợ lý Giáo sư Yuan Li từ khoa Kỹ thuật Điện và Máy tính của Đại học Bắc Kinh và Giáo sư Tian Yonghong từ Trường Khoa học Máy tính. Danh sách này còn có Dong Shaoling (người sáng lập kiêm Giám đốc điều hành Rabbitpre) và Chu Xing (Giám đốc công nghệ Rabbitpre).

cac-nha-nghien-cuu-trung-quoc-dat-tham-vong-tai-tao-sora-voi-su-tro-giup-tu-cong-dong-nguon-mo.jpg — Các giáo sư từ Đại học Bắc Kinh và Rabbitpre đưa ra kế hoạch Open-Sora - Ảnh: AFP

Tại OpenAI, Jing Li và Ricky Wang Yu, 2 trong số 13 thành viên của nhóm phát triển Sora, được xác định là đến từ Trung Quốc. Cả hai gần đây đã được vinh danh ở quê nhà vì những nỗ lực của họ.

Jing Li gia nhập OpenAI vào tháng 10.2022, trong khi Ricky Wang Yu mới làm việc tại công ty có trụ sở tại thành phố San Francisco (Mỹ) được khoảng hai tháng, theo hồ sơ LinkedIn tương ứng của họ.

Jing Li được Trường Trung học số 2 Vũ Hán ở trung tâm tỉnh Hồ Bắc (Trung Quốc) ca ngợi vì “tỏa sáng trên trường quốc tế”, theo bài đăng hôm 26.2 trên tài khoản WeChat chính thức của trường này.

Ricky Wang Yu tốt nghiệp năm 2013 tại NSFZ, trường trung học liên kết với Đại học Sư phạm Nam Kinh ở tỉnh Giang Tô (Trung Quốc), theo bản tin trên Modern Express và Yangtze Evening Post - hai tờ báo đều được chính quyền tỉnh Giang Tô hậu thuẫn.

“Sự đổi mới của Wang và nhóm của anh ấy đã trở thành chủ đề nóng, tiếp tục thu hút sự chú ý của thanh thiếu niên, gồm cả sinh viên NSFZ”, tích nội dung bài viết trên Modern Express.

Sự chú ý mà Jing Li, Ricky Wang Yu nhận được phản ánh cách cộng đồng doanh nghiệp và công nghệ Trung Quốc bày tỏ sự phấn khích với việc Sora đưa các ứng dụng AI tiến xa một bước nữa, dù vẫn còn lo ngại rằng các lệnh trừng phạt từ Mỹ có thể ngăn cản Trung Quốc bắt kịp với sự tiến triển này.

Theo MacroPolo, tổ chức tư vấn nội bộ của Viện Paulson ở thành phố Chicago (Mỹ), những tài năng được đào tạo tại Trung Quốc được coi là một trong những nguồn lực chính để thúc đẩy công nghệ thế hệ tiếp theo ở Mỹ. Tổ chức này phát hiện ra rằng 27% các nhà nghiên cứu AI tại các tổ chức của Mỹ đến từ Trung Quốc, tạo thành nhóm địa lý lớn thứ hai sau Mỹ (chiếm 31%).

Là một trong những nhà phát triển chính đằng sau Dall-E 3 (mô hình tạo hình ảnh từ văn bản mạnh mẽ của OpenAI), Jing Li được trường cũ khen ngợi vì đã lọt vào danh sách 30 Under 30 (vinh danh những người dưới 30 tuổi có ảnh hưởng lớn trong các lĩnh vực khác nhau) năm 2019 của tạp chí Forbes tại Trung Quốc và giành huy chương vàng năm 2010 Olympic Vật lý Quốc tế, theo bài đăng trên WeChat của Trường Trung học Số 2 Vũ Hán.

Trước khi gia nhập OpenAI, Jing Li đã làm việc hơn hai năm tại Meta Platforms (chủ sở hữu Facebook), theo hồ sơ LinkedIn cá nhân. Anh đồng sáng lập công ty khởi nghiệp về điện toán quang học Lightelligence một năm sau khi lấy bằng tiến sĩ vật lý tại Viện Công nghệ Massachusetts (Mỹ) vào năm 2019. Jing Li tốt nghiệp Đại học Bắc Kinh (Trung Quốc) hồi năm 2014 với bằng cử nhân vật lý.

Trong khi đó, Ricky Wang Yu bắt đầu sự nghiệp chuyên nghiệp của mình tại Meta Platforms và Instagram, theo hồ sơ LinkedIn của anh. Ricky Wang Yu nhận bằng đại học tại Đại học California – Berkeley (Mỹ) ngay sau khi hoàn thành trung học.

Guo Yufei là một nhà phát triển Trung Quốc khác có thể tham gia quá trình tạo ra Sora. Song có rất ít thông tin về Guo Yufei, người cũng thuộc nhóm phát triển Dall-E 3.

Xie Saining, giáo sư khoa học máy tính người Trung Quốc tại Viện Toán học Khoa học Courant thuộc Đại học New York (Mỹ), phủ nhận ông có liên quan đến việc phát triển Sora và nhấn mạnh tầm quan trọng của tài năng, dữ liệu, sức mạnh tính toán. Trong một bài đăng trên mạng xã hội được đưa tin rộng rãi, Xie Saining hỏi liệu Trung Quốc đã sẵn sàng đối đầu với Sora hay chưa, nói rằng cường quốc châu Á nên đảm bảo công nghệ này “sẽ không bị lạm dụng để làm công cụ trục lợi và thao túng bởi một số người hoặc nhóm”.

Quyền truy cập Sora hiện bị hạn chế. Không giống một số mô hình AI trước đây của OpenAI, Sora không phải là nguồn mở và chỉ một số ít người có quyền truy cập vào bản dùng thử mô hình AI này.

Ở Trung Quốc, Cục Quản lý Không gian mạng Quốc gia yêu cầu tất cả mô hình ngôn ngữ lớn có sẵn công khai phải đăng ký với cơ quan có thẩm quyền. OpenAI không cung cấp dịch vụ của mình trực tiếp ở Trung Quốc hoặc Hồng Kông, Google cũng không cung cấp mô hình ngôn ngữ lớn Gemini tại các thị trường đó. Microsoft Copilot, sử dụng mô hình ngôn ngữ lớn GPT của OpenAI, đã có mặt ở Hồng Kông.

Với sự vắng mặt của hãng công nghệ lớn nước ngoài ở Trung Quốc, một số gã khổng lồ công nghệ địa phương phải tranh giành vị trí trong một thị trường đông đúc với hơn 200 mô hình ngôn ngữ lớn. Baidu (hã khổng lồ tìm kiếm internet), Tencent và Alibaba đều đã phát hành mô hình ngôn ngữ lớn riêng. Tuy nhiên, các mô hình ngôn ngữ lớn của Trung Quốc khó sánh bằng Sora, một phần vì chưa sử dụng kiến trúc Diffusion Transformer (DiT) mới lạ.

Stability AI (kỳ lân công nghệ có trụ sở tại London, thủ đô Anh) đã phát hành mô hình chuyển văn bản thành hình ảnh Stable Diffusion 3, cũng sử dụng DiT, vì kiến trúc này có thể trở thành xu hướng chủ đạo để xây dựng AI tạo sinh sau sự phổ biến của Sora.

Một nhà phát triển Trung Quốc (từ chối nêu tên) nói con đường khả dĩ dành cho các kỹ sư AI nước này là “trước tiên hãy giải mã Sora và huấn luyện nó bằng dữ liệu của chính họ để tạo ra một sản phẩm tương tự”.

Xu Liang, doanh nhân AI ở thành phố Hàng Châu (tỉnh Chiết Giang, Trung Quốc), cho biết sẽ không lâu nữa nước này sẽ có các dịch vụ tương tự Sora. Ông nói: “Trong 1 hoặc 2 tháng tới, sẽ có những mô hình giống Sora xuất hiện tại thị trường Trung Quốc và nhiều hơn nữa vào 6 tháng tới”. Thế nhưng, Xu Liang lưu ý rằng vẫn có thể có một khoảng cách không thể phớt lờ giữa các sản phẩm Trung Quốc so với Sora.