Người đóng góp quan trọng cho công nghệ tạo video VideoPoet của Google đã gia nhập ByteDance (chủ sở hữu TikTok) khi các hãng công nghệ lớn ở cả hai bên Thái Bình Dương chạy đua để phát triển các công cụ trí tuệ nhân tạo (AI) tạo sinh.
Động thái này diễn ra sau khi mô hình Sora của OpenAI khiến cả thế giới kinh ngạc với khả năng tạo video chân thực từ lời gợi ý bằng văn bản.
Đang cư trú tại thành phố San Jose (bang California, Mỹ) và là giảng viên thỉnh giảng tại Đại học Carnegie Mellon (CMU), Jiang Lu đã gia nhập nhóm sáng tạo thông minh của ByteDance, theo hồ sơ trên nền tảng nhắn tin nội bộ nhân viên của công ty Trung Quốc này mà trang SCMP nhìn thấy. Jiang Lu báo cáo công việc trực tiếp cho Yang Jianchao, người đứng đầu công nghệ sáng tạo thông minh của ByteDance. Trong khi Yang Jianchao báo cáo công việc cho Zhu Wenjia, người đứng đầu nghiên cứu về các mô hình ngôn ngữ lớn tại ByteDance, theo hồ sơ.
ByteDance không trả lời ngay lập tức câu hỏi tìm kiếm bình luận của trang SCMP. Jiang Lu không trả lời câu hỏi của SCMP được gửi qua email.
Jiang Lu gia nhập Google vào năm 2017, phụ trách mảng sáng tạo nội dung và học sâu cho nhiều dịch vụ khác nhau, gồm Google Ads, YouTube và đơn vị xe tự lái Waymo. Năm ngoái, trọng tâm chính của ông là VideoPoet, mô hình ngôn ngữ lớn để tạo video được Google phát hành vào tháng 12.2023.
Trước đó, Jiang Lu là thực tập sinh tại Yahoo ở thành phố San Francisco (Mỹ) và Microsoft tại Bắc Kinh (thủ đô Trung Quốc). Năm 2017, Jiang Lu tốt nghiệp CMU với bằng tiến sĩ triết học về AI. Theo sơ yếu lý lịch, ông đã hoàn thành bằng thạc sĩ tại Đại học Tự do Brussels (Bỉ) sau khi tốt nghiệp Đại học Giao thông Tây An (Trung Quốc).
Được OpenAI giới thiệu vào ngày 15.2, mô hình chuyển văn bản thành video Sora đã mở ra một mặt trận mới trong cuộc cạnh tranh AI khi các gã khổng lồ công nghệ phân bổ nhiều tài nguyên hơn cho thế hệ ứng dụng tiếp theo.
Các hãng công nghệ lớn Trung Quốc đang nghiên cứu các công nghệ tương tự, bao gồm cả PixelDance của ByteDance được giới thiệu vào tháng 11.2023 và VideoCrafter của Tencent Holdings, nhưng cả hai đều không thể so sánh với Sora.
Nền tảng mã nguồn mở ModelScope, từ phòng thí nghiệm Damo Vision Intelligence Lab thuộc Alibaba, ra mắt công cụ chuyển văn bản thành video. Hiện tại nó chỉ hỗ trợ đầu vào tiếng Anh và đầu ra video bị giới hạn trong hai giây.
Đầu tháng 2, ByteDance đã giới thiệu Boximator, công cụ điều khiển chuyển động để hỗ trợ tạo video, nhưng công ty cho biết công nghệ này vẫn còn ở giai đoạn sơ khai và chưa sẵn sàng để phát hành rộng rãi. Đại diện ByteDance cho biết: “Nó vẫn có khoảng cách lớn với các mô hình sản xuất video hàng đầu về chất lượng hình ảnh, độ trung thực và thời lượng”.
Hồi tháng 1, Liang Rubo, Giám đốc điều hành ByteDance, đã chỉ trích nhân viên vì phản ứng quá chậm trước sự xuất hiện của các công nghệ AI mới. Liang Bo nói trong một cuộc họp nội bộ rằng các nhân viên ByteDance đã không bắt đầu thảo luận về ChatGPT, chatbot AI gây bão mạng của OpenAI ra mắt vào tháng 11.2022, cho đến vài tháng sau đó.
Kể từ khi OpenAI tung ra các video demo đáng kinh ngạc do Sora tạo, các doanh nghiệp Trung Quốc và các bộ phận khác trong cộng đồng công nghệ đã thể hiện sự quan tâm mạnh mẽ đến việc sử dụng mô hình AI đó. Song khác với ChatGPT, một số người bày tỏ lo ngại về khả năng cạnh tranh của Trung Quốc trong lĩnh vực này.
OpenAI không cung cấp dịch vụ của mình tại Trung Quốc cùng một số quốc gia bị Mỹ trừng phạt. OpenAI cũng chặn các địa chỉ giao thức internet (IP) của Hồng Kông, nhưng Microsoft lại cung cấp sản phẩm Copilot, hoạt động dựa trên các mô hình ngôn ngữ lớn GPT của OpenAI, ở thành phố này.
Một số công ty Trung Quốc đại chúng đã tìm cách đảm bảo với nhà đầu tư rằng đang theo dõi chặt chẽ sự phát triển trong lĩnh vực này. Trả lời câu hỏi của các nhà đầu tư trên Hudongyi, nền tảng truyền thông tương tác do Sở giao dịch Thâm Quyến vận hành, hãng điều hành game Giant Network Group (có trụ sở tại thành phố Thượng Hải) kỳ vọng “tiến bộ đột phá của Sora sẽ cải thiện hiệu quả tạo nội dung trong ngành game”.
Nhà sản xuất máy tính bảng tương tác thông minh HiteVision cũng kỳ vọng giáo dục sẽ là một ứng dụng quan trọng của các sản phẩm AI tạo sinh. Giáo dục là một phân khúc thị trường quan trọng với công ty này.
Zhejiang Enjoyor Electronics thông báo trên nền tảng của Sở giao dịch chứng khoán Thượng Hải rằng các công cụ tạo video từ văn bản có thể được áp dụng trong nhiều trường hợp sử dụng thành phố kỹ thuật số trong tương lai, chẳng hạn đánh giá và xác định lỗi ở các vụ tai nạn giao thông. Zhejiang Enjoyor Electronics là hãng cung cấp dịch vụ xây dựng cho các thành phố thông minh.
Một số giám đốc điều hành công nghệ Trung Quốc bày tỏ sự kinh ngạc trước Sora khi cạnh tranh gia tăng trong lĩnh vực AI tạo sinh và những rủi ro có thể xuất phát từ căng thẳng thương mại Mỹ - Trung.
Một lãnh đạo doanh nghiệp Trung Quốc đã gọi Sora là “khoảnh khắc Newton”, lưu ý cách công nghệ tạo video AI học bằng cách sử dụng các định luật vật lý. Khoảnh khắc Newton ám chỉ một bước tiến lớn và quan trọng trong phát triển khoa học hoặc công nghệ, lấy tên từ nhà khoa học nổi tiếng Isaac Newton.
Một giám đốc điều hành công nghệ khác lưu ý rằng OpenAI có thể đang nghiên cứu các “vũ khí bí mật” khác làm gia tăng thêm khoảng cách giữa Mỹ với Trung Quốc trong lĩnh vực AI, do các hạn chế xuất khẩu của chính quyền Biden với bán dẫn và các thành phần cốt lõi khác cần thiết cho ứng dụng AI.
Yin Ye, Giám đốc điều hành BGI Group (tập đoàn khổng lồ về gien của Trung Quốc), cho biết khi OpenAI ra mắt ChatGPT vào năm 2022, các đối thủ về AI trong nước này cảm thấy tự tin có thể bắt kịp “vì chỉ tập trung vào ngôn ngữ và văn bản”. Sora chứng minh rằng “thế giới kỹ thuật số thực sự có thể kết hợp với các định luật vật lý trong thế giới thực”, ông nói thêm trong video được đăng lên kênh WeChat của mình. “Tôi muốn so sánh điều này với khoảnh khắc Newton trong phát triển AI”, Yin Ye nhấn mạnh.
Zhou Hongyi, Chủ tịch kiêm Giám đốc điều hành hãng bảo mật 360 Security Technology, cho biết trên trang tiểu blog Weibo rằng khoảng cách giữa Mỹ và Trung Quốc trong phát triển AI “có thể lớn hơn” nếu OpenAI đang nghiên cứu các “vũ khí bí mật” khác.
Zhou Hongyi ước tính rằng các mô hình ngôn ngữ lớn tốt nhất của Trung Quốc, công nghệ hỗ trợ các ứng dụng AI tương tự ChatGPT, “đã tiến gần đến mức mô hình ngôn ngữ lớn GPT-3.5 nhưng vẫn còn khoảng cách 1,5 năm so với GPT-4”. OpenAI đã ra mắt mô hình ngôn ngữ lớn GPT-4 vào tháng 3.2023.
Một số doanh nhân Trung Quốc khác cho biết không muốn đánh giá quá cao khả năng của Sora. Fang Han, Giám đốc điều hành hãng phát triển và phát hành game Kunlun Tech, nói trong một cuộc phỏng vấn với Thời báo Chứng khoán Thượng Hải: “Với các video demo do Sora cung cấp, mô hình này chưa đạt được những bước đột phá lớn trong việc hiểu biết thế giới. Khoảng cách giữa Sora và các công cụ chuyển văn bản thành video do Trung Quốc phát triển không lớn như trong lĩnh vực mô hình ngôn ngữ lớn”.
Các nhà đầu tư ở Trung Quốc dường như coi tin tức về sự xuất hiện của Sora là tín hiệu tích cực cho thị trường. Một số chuyên gia trên thị trường nhìn thấy cơ hội trong việc phát triển AI tạo sinh.
Công ty dịch vụ tài chính Ping An Securities cho biết lĩnh vực mô hình ngôn ngữ lớn và AI tạo sinh đang phát triển nhanh chóng “sẽ tạo động lực mạnh mẽ cho sự phát triển sức mạnh tính toán ở Trung Quốc lẫn thế giới”. Ping An Securities nói thêm rằng các ngành công nghiệp như sức mạnh tính toán, thuật toán và an ninh mạng đều sẽ được hưởng lợi. Tuy nhiên, Ping An Securities cảnh báo có thể có “rủi ro chuỗi cung ứng” nếu Mỹ tiếp tục hạn chế xuất khẩu chip sang Trung Quốc.
Theo Ping An Securities, các biện pháp trừng phạt “có thể đẩy nhanh sự trưởng thành của ngành công nghiệp chip AI ở Trung Quốc, nhưng các lựa chọn thay thế trong nước có thể không như mong đợi”.
Yin Ye (Giám đốc điều hành BGI) đặt câu hỏi liệu Trung Quốc có đủ thời gian để bắt kịp Mỹ hay không vì “nền tảng không thuận lợi của việc tách rời và gián đoạn chuỗi cung ứng”.
Chính quyền Biden đã chặn các công ty Trung Quốc tiếp cận công cụ bán dẫn tiên tiến nhất thế giới thông qua việc tăng cường hạn chế xuất khẩu sản phẩm sử dụng công nghệ có nguồn gốc từ Mỹ. Vào tháng 10.2023, Mỹ lại thắt chặt những hạn chế đó, chặn quyền tiếp cận của Trung Quốc vào các bộ xử lý đồ họa (GPU) mà Nvidia thiết kế riêng cho khách hàng quốc gia châu Á này. Do đó, gã khổng lồ chip Mỹ phải phát triển ba GPU trung tâm dữ liệu mới cho Trung Quốc gồm H20, L20 và L2 .
Tuy nhiên, Bộ trưởng Thương mại Mỹ - Gina Raimondo đã cảnh báo rằng chính quyền Biden sẽ không tán thành bất kỳ giải pháp lách luật nào để cung cấp GPU cho Trung Quốc.
Thay vì cố gắng sánh ngang với Sora, một số người trong ngành nhận thấy vấn đề cấp bách hơn là giành được quyền truy cập vào mô hình tạo video từ văn bản của OpenAI. Sinodata (có trụ sở tại Bắc Kinh, thủ đô Trung Quốc) cho biết sẽ là một trong những công ty đầu tiên đăng ký Sora API (giao diện lập trình ứng dụng) sau khi mô hình chuyển văn bản thành video của OpenAI có sẵn trên nền tảng điện toán đám mây Microsoft Azure. Microsoft là nhà đầu tư lớn nhất vào OpenAI. Thế nhưng ở Mỹ, các nhà làm luật đang tìm cách hạn chế quyền truy cập của Trung Quốc vào các dịch vụ đám mây AI do các công ty Mỹ cung cấp.
Một nhà phát triển Trung Quốc (từ chối nêu tên) nói con đường khả dĩ dành cho các kỹ sư AI nước này là “trước tiên hãy giải mã Sora và huấn luyện nó bằng dữ liệu của chính họ để tạo ra một sản phẩm tương tự”.
Xu Liang, doanh nhân AI ở thành phố Hàng Châu (tỉnh Chiết Giang, Trung Quốc), cho biết sẽ không lâu nữa nước này sẽ có các dịch vụ tương tự Sora. Ông nói: “Trong 1 hoặc 2 tháng tới, sẽ có những mô hình giống Sora xuất hiện tại thị trường Trung Quốc và nhiều hơn nữa vào 6 tháng tới”. Thế nhưng, Xu Liang lưu ý rằng vẫn có thể có một khoảng cách không thể phớt lờ giữa các sản phẩm Trung Quốc so với Sora.
Wang Shuyi, giáo sư tập trung vào AI và học máy tại Đại học Sư phạm Thiên Tân (TJNU), nói kinh nghiệm phát triển mô hình ngôn ngữ lớn trong năm qua đã cho phép các hãng công nghệ lớn từ Trung Quốc tích lũy kiến thức trong lĩnh vực này và có đầy đủ phần cứng cần thiết, cho họ khả năng sản xuất các sản phẩm giống Sora trong vòng 6 tháng tới.