AI & Blockchain

DeepSeek hé lộ bí kíp thu thập, lọc dữ liệu huấn luyện mô hình AI

Sơn Vân • 03/09/2025 20:05

DeepSeek vừa công bố cách thức lọc dữ liệu để huấn luyện các mô hình AI của mình, từng làm dấy lên lo ngại về nguy cơ “ảo giác” và “lạm dụng”.

Trong tài liệu vừa được công bố, DeepSeek cho biết “luôn ưu tiên bảo mật AI” và quyết định công khai thông tin này để giúp mọi người sử dụng các mô hình của mình đúng cách, giữa bối cảnh Trung Quốc tăng cường giám sát ngành công nghiệp này.

DeepSeek tiết lộ dữ liệu trong giai đoạn tiền huấn luyện chủ yếu được thu thập từ thông tin công khai trên mạng cũng như dữ liệu từ bên thứ ba có giấy phép. Công ty khởi nghiệp có trụ sở tại Hàng Châu (Trung Quốc) khẳng định không có ý định thu thập dữ liệu cá nhân.

DeepSeek cho biết đã áp dụng các bộ lọc tự động để loại bỏ dữ liệu thô có chứa “ngôn ngữ thù địch, nội dung khiêu dâm, bạo lực, spam và có khả năng vi phạm bản quyền”.

Ngoài ra, công ty cũng áp dụng cơ chế phát hiện bằng thuật toán kết hợp với đánh giá từ con người để xác định “các sai lệch thống kê vốn có trong các tập dữ liệu quy mô lớn”, nhằm giảm thiểu tác động đến giá trị của các mô hình.

DeepSeek tuyên bố cam kết giảm thiểu “ảo giác” (đưa ra thông tin sai lệch giống như thật) cho các mô hình AI thông qua nghiên cứu và kỹ thuật như tạo sinh có tăng cường truy xuất, nhưng cũng thừa nhận rằng đây vẫn là một vấn đề “không thể tránh khỏi”.

Tạo sinh có tăng cường truy xuất là một cách để cải thiện kết quả đầu ra của các mô hình ngôn ngữ lớn bằng cách sử dụng các nguồn kiến thức bên ngoài. Thay vì chỉ dựa vào thông tin đã được học trong quá trình đào tạo ban đầu (có thể bị lỗi thời hoặc thiếu chi tiết), kỹ thuật này kết hợp hai bước chính:

- Truy xuất: Khi nhận được câu hỏi từ người dùng, mô hình AI trước tiên sẽ tìm kiếm và truy xuất thông tin liên quan từ kho kiến thức bên ngoài, chẳng hạn cơ sở dữ liệu, tập hợp tài liệu, trang web…

- Tạo sinh: Mô hình AI sẽ sử dụng những thông tin vừa tìm thấy để tạo ra câu trả lời chính xác và có căn cứ hơn, thay vì chỉ dựa vào những gì đã học từ trước.

“AI vẫn đang trong giai đoạn đầu và công nghệ vẫn còn non trẻ ở giai đoạn này. Chúng tôi không thể đảm bảo rằng các mô hình AI của mình sẽ không tạo ra ảo giác”, DeepSeek thông báo, đồng thời nhắc nhở người dùng tìm kiếm lời khuyên chuyên nghiệp khi cần thiết.

Công ty nhấn mạnh rằng các mô hình AI của họ dự đoán chứ không phải truy xuất câu trả lời dựa trên yêu cầu từ người dùng.

Nhiều hãng AI như OpenAI, DeepSeek, Google, Meta Platforms, xAI bị chỉ trích vì chatbot bị “ảo giác”, khi tạo ra kết quả không chính xác hoặc gây hiểu lầm. Khi các mô hình trở nên mạnh mẽ hơn, xuất hiện mối lo về loạn thần do AI và các vấn đề khác phát sinh từ việc quá phụ thuộc vào chatbot.

“Loạn thần do AI” là thuật ngữ ngày càng phổ biến để chỉ tình trạng một số người hình thành niềm tin hoang tưởng sau khi tương tác với chatbot.

DeepSeek hứng chịu sự chỉ trích ở Trung Quốc vì có tỷ lệ “ảo giác” cao, trong khi nhiều các mô hình nội địa xuất hiện và làm giảm sự phổ biến của nó. Theo Aicpb.com - nền tảng theo dõi mức độ phổ biến của các sản phẩm AI, lượt truy cập hàng tháng vào trang web DeepSeek đã giảm trong 5 tháng liên tiếp, chỉ còn 345 triệu lượt vào tháng 7.

Sự sụt giảm người dùng DeepSeek trùng với các vụ bê bối thông tin sai lệch gây chú ý.

Hồi đầu tháng 7, một tin đồn lan truyền trên mạng rằng chatbot của DeepSeek đã bôi nhọ một người nổi tiếng Trung Quốc. Thông qua bài đăng trên WeChat, DeepSeek cho biết tìm cách giải quyết “sự nhầm lẫn, nhận dạng sai và thông tin sai lệch trong công chúng” bằng cách gắn nhãn cho nội dung do AI tạo. Song song đó, công ty cấm người dùng “cố ý xóa, chỉnh sửa, giả mạo, ẩn hoặc xóa dấu hiệu phân biệt nội dung do AI tạo”.

Ngoài ảo giác, DeepSeek còn xác định việc lạm dụng AI là một rủi ro khác. Công ty đã chỉ ra cụ thể các vấn đề về quyền riêng tư, vi phạm bản quyền, bảo mật dữ liệu, an toàn nội dung, thiên vị và phân biệt đối xử.

“AI chỉ là công cụ. Khi con người đem AI vào sử dụng thì tùy cách dùng và trường hợp mà sẽ nảy sinh rủi ro. Thế nên cần đánh giá rủi ro dựa trên mục đích và môi trường sử dụng cụ thể”, DeepSeek cho biết, đồng thời nói thêm rằng đang nỗ lực để giảm thiểu những rủi ro đó.

Scott Singer, học giả thỉnh giảng tại chương trình Công nghệ và Quan hệ quốc tế của Quỹ Carnegie vì Hòa bình Quốc tế (Mỹ) cho rằng tài liệu của DeepSeek “phù hợp với hầu hết quan điểm trong ngành công nghiệp Trung Quốc về các rủi ro an toàn từ AI tiên tiến”, ở chỗ tập trung vào rủi ro ngắn hạn và vấn đề về quyền riêng tư dữ liệu, thay vì các rủi ro mang tính thảm họa.

*DeepSeek hé lộ bí kíp thu thập và lọc dữ liệu huấn luyện mô hình AI*

Tiết lộ kỹ thuật phát triển R1

Cuối tháng 3, DeepSeek đã tiết lộ các chi tiết kỹ thuật về quá trình phát triển mô hình suy luận R1 có hiệu suất ngang ngửa hay vượt nhiều sản phẩm Mỹ, dù chi phí huấn luyện chỉ bằng một phần nhỏ so với thông thường.

Trước đó, DeepSeek công bố 8 dự án nguồn mở trên GitHub, nền tảng chia sẻ mã nguồn mở lớn nhất thế giới. Đây là lần đầu tiên DeepSeek tiết lộ chi tiết về cách họ khai thác hiệu suất tốt nhất từ các chip trong tính toán, truyền thông và lưu trữ, vốn là những yếu tố then chốt của đào tạo mô hình AI.

Nhóm các nhà khoa học trẻ của DeepSeek khẳng định "các khối xây dựng được thử nghiệm trong thực tế để chia sẻ tiến bộ tuy nhỏ nhưng chân thành với sự minh bạch tuyệt đối”.

DeepSeek được các nhà phát triển toàn cầu hoan nghênh, ca ngợi vì tiết lộ các kỹ thuật mà họ sử dụng để xây dựng các mô hình AI hiệu suất cao, chi phí thấp của mình.

DeepSeek V3.1 giảm tình trạng “ảo giác”

Hôm 21.8 vừa qua, DeepSeek tiết lộ mô hình mới V3.1 giảm tình trạng “ảo giác” so với V3 và R1, hỗ trợ cả chế độ suy luận và không suy luận, đánh dấu bước đầu tiên hướng tới kỷ nguyên tác tử AI của công ty. Đây là động thái cho thấy sự thay đổi của DeepSeek trong trọng tâm nghiên cứu.

Tác tử AI là hệ thống có khả năng nhận thức, lập kế hoạch và thực hiện các hành động độc lập để đạt được mục tiêu. Ví dụ, tác tử AI có thể tự động tìm kiếm thông tin trên internet, tổng hợp dữ liệu, và thực hiện các tác vụ phức tạp mà không cần sự can thiệp liên tục từ người dùng.

Chế độ suy luận trên chatbot cùng tên DeepSeek trước đó được vận hành bởi R1, từng gây chú ý toàn cầu sau khi ra mắt vào tháng 1, ngay sau khi mô hình nền tảng V3 được giới thiệu hồi tháng 12.2024.

Trong khi V3.1 (bản nâng cấp cho V3) áp dụng cách tiếp cận “một mô hình, hai chế độ”, cho thấy DeepSeek có thể sẽ không phát triển R2 - phiên bản kế nhiệm mô hình suy luận R1.

DeepSeek tuyên bố V3.1 đưa ra câu trả lời nhanh hơn R1, vốn được cập nhật lần gần nhất vào cuối tháng tháng 5 qua phiên bản R1-0528.

Được mở rộng cửa sổ ngữ cảnh lên 128k, V3.1 có khả năng lưu giữ nhiều thông tin hơn trong các cuộc trò chuyện với người dùng, tương đương cuốn sách khoảng 300 trang.

Một số thử nghiệm bên thứ ba cho thấy V3.1 đã cải thiện khả năng lập trình.

Theo Aider Benchmark - bộ đánh giá khả năng lập trình của mô hình AI, DeepSeek V3.1 đứng đầu trong số các hệ thống Trung Quốc. Nhưng khi so với các đối thủ quốc tế, V3.1 vẫn xếp sau Claude Opus 4, vốn được công nhận là một trong những mô hình AI lập trình tốt nhất hiện nay.

Sơn Vân