Ít nhất hai nhà phát triển Trung Quốc tham gia xây dựng Sora, mô hình AI chuyển văn bản thành video của OpenAI, đã được ca ngợi ở nước này vì những nỗ lực của họ. Điều này cho thấy công nghệ trí tuệ nhân tạo (AI) tạo sinh tiên tiến thu hút sự quan tâm trên khắp Trung Quốc khi các dịch vụ của OpenAI chưa chính thức có sẵn ở nước này.
Được OpenAI giới thiệu vào ngày 15.2, Sora có thể tạo video tối đa 1 phút với hình ảnh ấn tượng, chân thực dựa trên gợi ý từ người dùng. Sora có thể tạo ra các cảnh phức tạp với nhiều nhân vật, những kiểu chuyển động cụ thể cũng như chi tiết chính xác về chủ đề và hậu cảnh dựa trên những gì người dùng yêu cầu.
Jing Li và Ricky Wang Yu, 2 trong số 13 thành viên của nhóm phát triển Sora, gần đây đã được vinh danh ở Trung Quốc vì những nỗ lực của họ.
Jing Li gia nhập Open AI vào tháng 10.2022, trong khi Ricky Wang Yu mới làm việc tại công ty có trụ sở tại thành phố San Francisco (Mỹ) được khoảng hai tháng, theo hồ sơ LinkedIn tương ứng của họ.
Jing Li được Trường Trung học số 2 Vũ Hán ở trung tâm tỉnh Hồ Bắc (Trung Quốc) ca ngợi vì “tỏa sáng trên trường quốc tế”, theo bài đăng hôm 26.2 trên tài khoản WeChat chính thức của trường này.
Ricky Wang Yu tốt nghiệp năm 2013 tại NSFZ, trường trung học liên kết với Đại học Sư phạm Nam Kinh ở tỉnh Giang Tô (Trung Quốc), theo bản tin trên Modern Express và Yangtze Evening Post - hai tờ báo đều được chính quyền tỉnh Giang Tô hậu thuẫn.
“Sự đổi mới của Wang và nhóm của anh ấy đã trở thành chủ đề nóng, tiếp tục thu hút sự chú ý của thanh thiếu niên, gồm cả sinh viên NSFZ”, tích nội dung bài viết trên Modern Express.
Sự chú ý mà Jing Li, Ricky Wang Yu nhận được phản ánh cách cộng đồng doanh nghiệp và công nghệ Trung Quốc bày tỏ sự phấn khích với việc Sora đưa các ứng dụng AI tiến xa một bước nữa, dù vẫn còn lo ngại rằng các lệnh trừng phạt từ Mỹ có thể ngăn cản Trung Quốc bắt kịp với sự tiến triển này.
Theo MacroPolo, tổ chức tư vấn nội bộ của Viện Paulson ở thành phố Chicago (Mỹ), những tài năng được đào tạo tại Trung Quốc được coi là một trong những nguồn lực chính để thúc đẩy công nghệ thế hệ tiếp theo ở Mỹ. Tổ chức này phát hiện ra rằng 27% các nhà nghiên cứu AI tại các tổ chức của Mỹ đến từ Trung Quốc, tạo thành nhóm địa lý lớn thứ hai sau Mỹ (chiếm 31%).
Là một trong những nhà phát triển chính đằng sau Dall-E 3 - mô hình tạo hình ảnh từ văn bản mạnh mẽ của OpenAI, Jing Li được trường cũ khen ngợi vì đã lọt vào danh sách 30 Under 30 năm 2019 của tạp chí Forbes tại Trung Quốc và giành huy chương vàng năm 2010 Olympic Vật lý Quốc tế, theo bài đăng trên WeChat của Trường Trung học Số 2 Vũ Hán.
30 Under 30 là danh sách được tạo ra bởi tạp chí Forbes để vinh danh và nhận biết những người dưới 30 tuổi có ảnh hưởng lớn trong các lĩnh vực khác nhau như doanh nhân, nghệ sĩ, nhà khoa học, lãnh đạo xã hội cùng nhiều lĩnh vực khác. Danh sách này nhấn mạnh sự đóng góp và thành công của những người trẻ tuổi trong cộng đồng và ngành nghề của họ. Forbes thường xuyên cập nhật danh sách 30 Under 30 theo nhiều lĩnh vực khác nhau mỗi năm.
Trước khi gia nhập OpenAI, Jing Li đã làm việc hơn hai năm tại Meta Platforms (chủ sở hữu Facebook), theo hồ sơ LinkedIn cá nhân. Anh đồng sáng lập công ty khởi nghiệp về điện toán quang học Lightelligence một năm sau khi lấy bằng tiến sĩ vật lý tại Viện Công nghệ Massachusetts (Mỹ) vào năm 2019. Jing Li tốt nghiệp Đại học Bắc Kinh (Trung Quốc) hồi năm 2014 với bằng cử nhân vật lý.
Trong khi đó, Ricky Wang Yu bắt đầu sự nghiệp chuyên nghiệp của mình tại Meta Platforms và Instagram, theo hồ sơ LinkedIn của anh. Ricky Wang Yu nhận bằng đại học tại Đại học California – Berkeley (Mỹ) ngay sau khi hoàn thành trung học.
Guo Yufei là một nhà phát triển Trung Quốc khác có thể tham gia quá trình tạo ra Sora. Song có rất ít thông tin về Guo Yufei, người cũng thuộc nhóm phát triển Dall-E 3.
Xie Saining, giáo sư khoa học máy tính tại Viện Toán học Khoa học Courant thuộc Đại học New York (Mỹ), phủ nhận ông có liên quan đến việc phát triển Sora và nhấn mạnh tầm quan trọng của tài năng, dữ liệu, sức mạnh tính toán. Trong một bài đăng trên mạng xã hội được đưa tin rộng rãi, Xie Saining hỏi liệu Trung Quốc đã sẵn sàng đối đầu với Sora hay chưa, nói rằng cường quốc châu Á nên đảm bảo công nghệ này “sẽ không bị lạm dụng để làm công cụ trục lợi và thao túng bởi một số người hoặc nhóm”.
Quyền truy cập Sora hiện bị hạn chế. Không giống một số mô hình AI trước đây của OpenAI, Sora không phải là nguồn mở và chỉ một số ít người có quyền truy cập vào bản dùng thử mô hình AI này.
Ở Trung Quốc, Cục Quản lý Không gian mạng Quốc gia yêu cầu tất cả mô hình ngôn ngữ lớn có sẵn công khai phải đăng ký với cơ quan có thẩm quyền. OpenAI không cung cấp dịch vụ của mình trực tiếp ở Trung Quốc hoặc Hồng Kông, Google cũng không cung cấp mô hình ngôn ngữ lớn Gemini tại các thị trường đó. Microsoft Copilot, sử dụng mô hình ngôn ngữ lớn GPT của OpenAI, đã có mặt ở Hồng Kông.
Với sự vắng mặt của hãng công nghệ lớn nước ngoài ở Trung Quốc, một số gã khổng lồ công nghệ địa phương phải tranh giành vị trí trong một thị trường đông đúc với hơn 200 mô hình ngôn ngữ lớn. Gã khổng lồ tìm kiếm Baidu, hãng truyền thông xã hội lớn Tencent và vua thương mại điện tử Alibaba đều đã phát hành mô hình ngôn ngữ lớn riêng. Tuy nhiên, các mô hình ngôn ngữ lớn của Trung Quốc khó sánh bằng Sora, một phần vì chưa sử dụng kiến trúc Diffusion Transformer (DiT) mới lạ.
ByteDance, công ty mẹ TikTok có trụ sở ở Bắc Kinh (thủ đô Trung Quốc), cho biết công cụ điều khiển chuyển động video nội bộ Boximator, được sử dụng để hỗ trợ tạo video, vẫn còn ở giai đoạn sơ khai và chưa sẵn sàng để phát hành công khai.
“Nó vẫn có khoảng cách lớn với các mô hình tạo video hàng đầu về chất lượng hình ảnh, độ trung thực và thời lượng”, ByteDance cho hay.
Trong khi đó, Stability AI (kỳ lân công nghệ có trụ sở tại London, thủ đô Anh) đã phát hành mô hình chuyển văn bản thành hình ảnh Stable Diffusion 3, cũng sử dụng DiT, vì kiến trúc này có thể trở thành xu hướng chủ đạo để xây dựng AI tạo sinh sau sự phổ biến của Sora.
Một nhà phát triển Trung Quốc (từ chối nêu tên) nói con đường khả dĩ dành cho các kỹ sư AI nước này là “trước tiên hãy giải mã Sora và huấn luyện nó bằng dữ liệu của chính họ để tạo ra một sản phẩm tương tự”.
Xu Liang, doanh nhân AI ở thành phố Hàng Châu (tỉnh Chiết Giang, Trung Quốc), cho biết sẽ không lâu nữa nước này sẽ có các dịch vụ tương tự Sora. Ông nói: “Trong 1 hoặc 2 tháng tới, sẽ có những mô hình giống Sora xuất hiện tại thị trường Trung Quốc và nhiều hơn nữa vào 6 tháng tới”. Thế nhưng, Xu Liang lưu ý rằng vẫn có thể có một khoảng cách không thể phớt lờ giữa các sản phẩm Trung Quốc so với Sora.
Wang Shuyi, giáo sư tập trung vào AI và học máy tại Đại học Sư phạm Thiên Tân (TJNU), nói kinh nghiệm phát triển mô hình ngôn ngữ lớn trong năm qua đã cho phép các hãng công nghệ lớn từ Trung Quốc tích lũy kiến thức trong lĩnh vực này và có đầy đủ phần cứng cần thiết, cho họ khả năng sản xuất các sản phẩm giống Sora trong vòng 6 tháng tới.
Với khả năng tạo video chân thực từ văn bản, Sora đã mang đến nhiều đồn đoán về bí mật đằng sau hiệu suất ấn tượng của nó.
Xie Saining tại Đại học New York, một trong hai nhà phát triển DiT, viết rằng “dữ liệu có thể là yếu tố quan trọng nhất cho sự thành công của Sora”. Ông ước tính rằng Sora có thể có khoảng 3 tỉ tham số.
Ông viết: “Nếu đúng thì đây không phải là kích thước mô hình phi lý. Nó có thể gợi ý rằng việc đào tạo Sora có thể không yêu cầu nhiều GPU như người ta dự đoán. Tôi hy vọng sẽ có những cải tiến rất nhanh trong tương lai”.
Tuy nhiên, Sora không phải là sản phẩm AI đầu tiên ở dạng này. Google, Meta Platforms và Runway là những công ty Mỹ khác đã trình diễn công nghệ chuyển văn bản thành video tương tự.
Thế nhưng, chất lượng cao của video được tạo ra bởi Sora đã khiến nhiều người kinh ngạc.
Dù vậy, OpenAI cho biết phiên bản Sora hiện tại có điểm yếu: “Nó có thể gặp khó khăn trong việc mô phỏng chính xác tính chất vật lý của một bối cảnh phức tạp và không hiểu các trường hợp cụ thể về nguyên nhân, kết quả. Ví dụ, một người cắn miếng bánh quy, nhưng sau đó chiếc bánh quy có thể không có vết cắn”.