Trung Quốc đề xuất danh sách đen dữ liệu đào tạo các mô hình generative AI

Nhịp đập công nghệ - Ngày đăng : 08:26, 13/10/2023

Trung Quốc đã công bố các yêu cầu bảo mật được đề xuất với những công ty cung cấp dịch vụ generative AI (trí tuệ nhân tạo tạo sinh), bao gồm cả danh sách đen các nguồn không được sử dụng để đào tạo các mô hình AI.

Generative AI là một loại trí tuệ nhân tạo được lập trình để tự động tạo ra nội dung mới, như văn bản, hình ảnh, âm thanh và video. Nó khác với các hệ thống AI khác như máy học sâu (deep learning) hoặc học máy (machine learning) trong việc dự đoán kết quả từ dữ liệu đã có sẵn. Thay vì dựa trên dữ liệu huấn luyện, hệ thống generative AI có khả năng tự tạo ra dữ liệu mới và phong phú hơn.

Phổ biến nhờ sự thành công của chatbot ChatGPT do OpenAI phát triển, generative AI học cách thực hiện hành động từ dữ liệu trong quá khứ và tạo nội dung mới như văn bản hoặc hình ảnh dựa trên khóa đào tạo đó.

Các yêu cầu bảo mật đã được Ủy ban Tiêu chuẩn An toàn Thông tin Quốc gia Trung Quốc công bố hôm 12.10, gồm các quan chức của Cục Quản lý Không gian mạng Trung Quốc (CAC), Bộ Công nghiệp và Công nghệ Thông tin, cảnh sát.

Ủy ban đề xuất tiến hành đánh giá bảo mật với từng nội dung được sử dụng để đào tạo các mô hình generative AI hướng tới công chúng, trong đó những nội dung chứa “hơn 5% thông tin bất hợp pháp và có hại” sẽ bị đưa vào danh sách đen. Những thông tin như vậy bao gồm "ủng hộ khủng bố" hoặc bạo lực, "lật đổ hệ thống xã hội chủ nghĩa", "làm tổn hại hình ảnh đất nước", "phá hoại đoàn kết dân tộc và ổn định xã hội".

Dự thảo quy định cũng nêu rõ rằng thông tin bị kiểm duyệt trên mạng internet Trung Quốc không được phép sử dụng để đào tạo mô hình generative AI.

Việc xuất bản dự thảo này diễn ra chỉ hơn một tháng sau khi các cơ quan quản lý cho phép một số hãng công nghệ Trung Quốc ra mắt các chatbot dựa trên generative AI của họ cho công chúng sử dụng.

Kể từ tháng 4, CAC đã yêu cầu các công ty phải nộp đánh giá về bảo mật cho cơ quan chức năng trước khi ra mắt dịch vụ dựa trên generative AI cho công chúng.

Vào tháng 7, CAC đã công bố các biện pháp quản lý các dịch vụ như vậy mà các nhà phân tích cho rằng ít phiền toái hơn nhiều so với các biện pháp được nêu trong dự thảo hồi tháng 4.

Dự thảo được công bố hôm 12.10 yêu cầu các tổ chức sở hữu mô hình AI phải có được sự đồng ý từ những người có thông tin cá nhân được sử dụng cho mục đích đào tạo, gồm cả dữ liệu sinh trắc học.

Dự thảo cũng đưa ra những hướng dẫn chi tiết về cách tránh vi phạm sở hữu trí tuệ.

Các quốc gia trên toàn cầu đang vật lộn với việc thiết lập rào cản với AI. Trung Quốc coi AI là lĩnh vực mà họ muốn cạnh tranh với Mỹ và đặt mục tiêu trở thành nước dẫn đầu thế giới trong mảng này vào năm 2030.

trung-quoc-de-xuat-danh-sach-den-nguon-du-lieu-dao-tao-cac-mo-hinh-generative-ai.jpg — Trung Quốc vừa công bố các yêu cầu bảo mật được đề xuất với những công ty cung cấp dịch vụ generative AI, bao gồm cả danh sách đen các nguồn không được sử dụng để đào tạo các mô hình AI - Ảnh: Internet

Cuối tháng 8, năm hãng công nghệ Trung Quốc, trong đó có SenseTime và Baidu, đã phát hành chatbot AI của riêng họ trong nỗ lực để cạnh tranh với ChatGPT. Quyết định được đưa ra sau sự chấp thuận từ chính phủ Trung Quốc.

Baidu, nhà cung cấp dịch vụ tìm kiếm trực tuyến hàng đầu Trung Quốc, cho biết Ernie Bot đã có sẵn để mọi người có thể trải nghiệm.

Chia sẻ với hãng tin Reuters, người phát ngôn SenseTime nói rằng SenseChat cũng đã “có sẵn để phục vụ tất cả người dùng”.

Ba công ty khởi nghiệp khác về AI gồm Baichuan Intelligence Technology, Zhipu AI và MiniMax cũng công bố phát hành chatbot AI tương tự với công chúng hôm 31.8.

Không giống như các quốc gia khác, Trung Quốc yêu cầu các công ty gửi đánh giá bảo mật và nhận được giấy phép trước khi tung ra thị trường đại chúng các sản phẩm AI.

Truyền thông Trung Quốc đưa tin tổng cộng 11 công ty đã nhận được sự chấp thuận từ chính phủ về việc phát triển sản phẩm AI của họ, gồm cả ByteDance (chủ sở hữu TikTok) và Tencent Holdings.

Theo Robin Li - Giám đốc điều hành của Baidu, bằng cách ra mắt Ernie Bot, Baidu sẽ "thu thập lượng lớn phản hồi có giá trị của con người trong thế giới thực" để cải thiện hơn nữa chất lượng của chatbot. Baidu cũng có kế hoạch phát hành một loạt "ứng dụng gốc AI".

Kai Wang, nhà phân tích tại hãng Morningstar, nói: “Tôi nghĩ những công ty được phê duyệt có lợi thế đi đầu để có thể tinh chỉnh sản phẩm của họ nhanh hơn so với các đối thủ cạnh tranh”.

Trước đó, Trung Quốc đã công bố một bộ quy tắc tạm thời nhằm quản lý các sản phẩm AI mang tính sáng tạo cho công chúng, có hiệu lực vào ngày 15.8.

Trước đây, các công ty chỉ được phép tiến hành thử nghiệm công khai quy mô nhỏ các sản phẩm AI, nhưng với các quy định mới, họ đã mở rộng thử nghiệm sản phẩm AI của mình bằng cách kích hoạt nhiều tính năng hơn và tham gia nhiều hoạt động tiếp thị hơn.

Cuộc chiến trăm mô hình ngôn ngữ lớn của Trung Quốc sắp thay đổi vì áp lực chi phí tăng

Cơn sốt generative AI của Trung Quốc đã dẫn đến hàng loạt thông báo về sản phẩm từ các công ty khởi nghiệp và gã khổng lồ công nghệ gần như hàng ngày, nhưng các nhà đầu tư đang cảnh báo một sự thay đổi sắp xảy ra khi áp lực chi phí và lợi nhuận tăng lên.

Sự phấn khích ở Trung Quốc lần đầu tiên được khơi dậy bởi thành công của ChatGPT gần một năm trước, đã dẫn đến điều mà một lãnh đạo cấp cao Tencent mô tả trong tháng này là “cuộc chiến của một trăm mô hình”, khi các đối thủ từ Baidu đến Alibaba và Huawei đua nhau quảng bá các sản phẩm của họ.

Theo công ty môi giới CLSA, Trung Quốc hiện có ít nhất 130 mô hình ngôn ngữ lớn, chiếm 40% tổng số toàn cầu và chỉ sau con số 50% của Mỹ. Ngoài ra, các công ty cũng đã công bố hàng chục mô hình ngôn ngữ lớn theo ngành liên kết với mô hình cốt lõi của họ. Tuy nhiên, các nhà đầu tư và nhà phân tích nói rằng hầu hết vẫn chưa tìm được mô hình kinh doanh khả thi, quá giống nhau và đang phải vật lộn với chi phí tăng cao.

Căng thẳng Trung – Mỹ cũng đè nặng lên lĩnh vực này, khi các quỹ USD đầu tư ít hơn vào các dự án giai đoạn đầu và khó khăn trong việc có được chip AI do những công ty như Nvidia sản xuất bắt đầu ảnh hưởng.

Esme Pau, người đứng đầu bộ phận nghiên cứu tài sản kỹ thuật số và internet Trung Quốc tại tập đoàn tài chính Macquarie Group, cho biết: “Chỉ những người có năng lực mạnh nhất mới tồn tại được”.

Bà nói thêm rằng một số công ty hàng đầu đã phát tín hiệu rằng sẽ cạnh tranh về giá để giành thị phần, giống như các dịch vụ đám mây như của Alibaba và Tencent từng làm.

Esme Pau nhận định: “Trong 6-12 tháng tới, mô hình ngôn ngữ lớn có khả năng thấp hơn sẽ dần bị loại bỏ do hạn chế về chip, chi phí cao và cạnh tranh gay gắt”.

Sơn Vân