Sora, mô hình chuyển văn bản thành video của OpenAI (Mỹ), đưa ra cảnh báo mới đến Trung Quốc về khoảng cách của nước này với các công nghệ trí tuệ nhân tạo (AI) hàng đầu thế giới.
Hôm 15.2, OpenAI đã giới thiệu Sora - mô hình AI giúp tạo video dài 1 phút dựa trên gợi ý bằng văn bản của người dùng.
OpenAI thông báo: "Sora có thể tạo ra những cảnh phức tạp với nhiều nhân vật, loại chuyển động cụ thể và chi tiết chính xác về chủ đề và hậu cảnh. Chúng tôi đang dạy AI hiểu và mô phỏng thế giới vật chất chuyển động. Mục tiêu là xây dựng mô hình giúp con người giải quyết nhu cầu tương tác trong thế giới thực". Ngoài ra, OpenAI cho biết Sora có thể tạo nhiều cảnh quay trong một video.
Trong các video do Sam Altman (Giám đốc điều hành OpenAI) chia sẻ trên mạng xã hội X, Sora có khả năng tạo ra các video rất chân thực, giống như thật.
Chỉ vài năm trước, Trung Quốc đã hình dung sẽ thống trị cuộc đua AI toàn cầu bằng cách tận dụng kho dữ liệu khổng lồ của đất nước để phát triển các ứng dụng hoàn thiện cho các chức năng khác nhau, chẳng hạn nhận dạng khuôn mặt. Sự phát triển gần đây về AI tạo sinh, sử dụng các mô hình lớn để tạo ra nội dung như văn bản, hình ảnh và video, đã thay đổi cách tính toán này, khiến Trung Quốc một lần nữa trông như bị tụt hậu.
Sora chuyển cuộc chiến AI sang lĩnh vực sản xuất video ngay khi Trung Quốc đang đối mặt với những thách thức lớn hơn do thiếu khả năng tiếp cận các công cụ quan trọng như bộ xử lý đồ họa (GPU) tiên tiến của Nvidia (hãng thiết kế chip AI hàng đầu) do các hạn chế xuất khẩu từ Mỹ ngày càng leo thang. Những công ty AI giỏi nhất Trung Quốc đã chậm hơn nhiều năm so với đối thủ cùng ngành của Mỹ trong lĩnh vực AI tạo sinh.
AI tạo sinh là một loại AI có mục tiêu chính là tạo ra thông tin mới, thường thông qua quá trình học máy và học sâu. Loại AI này không chỉ giải quyết các nhiệm vụ cụ thể, mà còn có khả năng tạo ra dữ liệu, văn bản, hình ảnh, âm thanh và nhiều loại thông tin khác.
Một ví dụ nổi tiếng về AI tạo sinh là mô hình ngôn ngữ lớn GPT của OpenAI. GPT có khả năng tạo ra văn bản mới, dựa trên dữ liệu mà nó đã được huấn luyện trước đó.
AI tạo sinh có thể được sử dụng trong nhiều ứng dụng, gồm tạo văn bản, hình ảnh, âm thanh và thậm chí trong việc giải quyết vấn đề trong lĩnh vực nghệ thuật sáng tạo và thiết kế.
Zhou Hongyi, người sáng lập 360 Security Technology (Trung Quốc) - công ty bảo mật internet tham gia cuộc đua để ra mắt mô hình ngôn ngữ lớn giống GPT của OpenAI, nói việc OpenAI trình làng Sora giống như “thùng nước lạnh đổ xuống đầu người Trung Quốc”, theo hãng truyền thông Yicai. “Nó làm nguội đi cái đầu của nhiều người, buộc chúng ta phải nhìn ra khoảng cách với các hãng dẫn đầu ở nước ngoài”, ông nói thêm.
Trong một phản ứng bất ngờ với Sora trong tuần này, Trung Quốc đã yêu cầu các doanh nghiệp nhà nước đáng tin cậy nhất của họ đảm nhận vai trò hàng đầu trong lĩnh vực AI. Ủy ban Quản lý và Giám sát Tài sản Nhà nước thuộc Quốc vụ viện Trung Quốc đã kêu gọi các công ty dưới sự kiểm soát trực tiếp của chính quyền trung ương “nắm bắt những thay đổi sâu sắc do AI mang lại”. 10 công ty trong số này được chỉ định là những hãng đi đầu trong việc quảng bá AI, nhưng cơ quan giám sát không nêu tên các công ty được chọn.
Xie Saining, giáo sư khoa học máy tính tại Viện Toán học Khoa học Courant thuộc Đại học New York (Mỹ), phủ nhận ông có liên quan đến việc phát triển Sora và nhấn mạnh tầm quan trọng của tài năng, dữ liệu, sức mạnh tính toán. Trong một bài đăng trên mạng xã hội được đưa tin rộng rãi, Xie Saining hỏi liệu Trung Quốc đã sẵn sàng đối đầu với Sora hay chưa, nói rằng cường quốc châu Á nên đảm bảo công nghệ này “sẽ không bị lạm dụng để làm công cụ trục lợi và thao túng bởi một số người hoặc nhóm”.
Quyền truy cập Sora hiện bị hạn chế. Không giống một số mô hình AI trước đây của OpenAI, Sora không phải là nguồn mở và chỉ một số ít người có quyền truy cập vào bản dùng thử mô hình AI này.
Ở Trung Quốc, Cục Quản lý Không gian mạng Quốc gia yêu cầu tất cả mô hình ngôn ngữ lớn có sẵn công khai phải đăng ký với cơ quan có thẩm quyền. OpenAI không cung cấp dịch vụ của mình trực tiếp ở Trung Quốc hoặc Hồng Kông, Google cũng không cung cấp mô hình ngôn ngữ lớn Gemini tại các thị trường đó. Microsoft Copilot, sử dụng mô hình ngôn ngữ lớn GPT của OpenAI, đã có mặt ở Hồng Kông.
Với sự vắng mặt của hãng công nghệ lớn nước ngoài ở Trung Quốc, một số gã khổng lồ công nghệ địa phương phải tranh giành vị trí trong một thị trường đông đúc với hơn 200 mô hình ngôn ngữ lớn. Gã khổng lồ tìm kiếm Baidu, hãng truyền thông xã hội lớn Tencent và vua thương mại điện tử Alibaba đều đã phát hành mô hình ngôn ngữ lớn riêng. Tuy nhiên, các mô hình ngôn ngữ lớn của Trung Quốc khó sánh bằng Sora, một phần vì chưa sử dụng kiến trúc Diffusion Transformer (DiT) mới lạ.
ByteDance, công ty mẹ TikTok có trụ sở ở Bắc Kinh (thủ đô Trung Quốc), cho biết công cụ điều khiển chuyển động video nội bộ Boximator, được sử dụng để hỗ trợ tạo video, vẫn còn ở giai đoạn sơ khai và chưa sẵn sàng để phát hành công khai.
“Nó vẫn có khoảng cách lớn với các mô hình tạo video hàng đầu về chất lượng hình ảnh, độ trung thực và thời lượng”, ByteDance cho hay.
Thay vì cố gắng sánh ngang với Sora, một số người trong ngành nhận thấy vấn đề cấp bách hơn là giành được quyền truy cập vào mô hình tạo video từ văn bản của OpenAI.
Sinodata (có trụ sở tại Bắc Kinh, thủ đô Trung Quốc) cho biết sẽ là một trong những công ty đầu tiên đăng ký Sora API (giao diện lập trình ứng dụng) sau khi mô hình chuyển văn bản thành video của OpenAO có sẵn trên nền tảng điện toán đám mây Microsoft Azure. Microsoft là nhà đầu tư lớn nhất vào OpenAI. Thế nhưng ở Mỹ, các nhà làm luật đang tìm cách hạn chế quyền truy cập của Trung Quốc vào các dịch vụ đám mây AI do các công ty Mỹ cung cấp.
Trong khi đó, Stability AI (kỳ lân công nghệ có trụ sở tại London, thủ đô Anh) đã phát hành mô hình chuyển văn bản thành hình ảnh Stable Diffusion 3, cũng sử dụng DiT, vì kiến trúc này có thể trở thành xu hướng chủ đạo để xây dựng AI tạo sinh sau sự phổ biến của Sora. Một nhà phát triển Trung Quốc (từ chối nêu tên) nói con đường khả dĩ dành cho các kỹ sư AI nước này là “trước tiên hãy giải mã Sora và huấn luyện nó bằng dữ liệu của chính họ để tạo ra một sản phẩm tương tự”.
Xu Liang, doanh nhân AI ở thành phố Hàng Châu (tỉnh Chiết Giang, Trung Quốc), cho biết sẽ không lâu nữa nước này sẽ có các dịch vụ tương tự Sora. Ông nói: “Trong 1 hoặc 2 tháng tới, sẽ có những mô hình giống Sora xuất hiện tại thị trường Trung Quốc và nhiều hơn nữa vào 6 tháng tới”. Thế nhưng, Xu Liang lưu ý rằng vẫn có thể có một khoảng cách không thể phớt lờ giữa các sản phẩm Trung Quốc so với Sora.
Wang Shuyi, giáo sư tập trung vào AI và học máy tại Đại học Sư phạm Thiên Tân (TJNU), nói kinh nghiệm phát triển mô hình ngôn ngữ lớn trong năm qua đã cho phép các Big Tech (hãng công nghệ lớn) từ Trung Quốc tích lũy kiến thức trong lĩnh vực này và có đầy đủ phần cứng cần thiết, cho họ khả năng sản xuất các sản phẩm giống Sora trong vòng 6 tháng tới.