Cuộc sống số

Chatbot DeepSeek đã nhận diện được ảnh và video, khắc phục điểm yếu chí mạng

Sơn Vân • 30/04/2026 05:42

Trên giao diện chatbot DeepSeek, ‘nhận diện hình ảnh’ đã được thêm vào cạnh chế độ trò chuyện ‘chuyên gia’ và ‘nhanh’ cho một số người dùng.

Công ty khởi nghiệp DeepSeek (Trung Quốc) lần đầu tiên bổ sung khả năng đa phương thức cho chatbot AI của mình, tức có thể xử lý ảnh và video cùng với văn bản. Qua đó, chatbot DeepSeek đã bắt kịp một số đối thủ vốn đã cung cấp khả năng đa phương thức từ lâu.

Chen Xiaokang, trưởng nhóm đa phương thức của DeepSeek, đưa ra thông báo này trên mạng xã hội hôm 29/4.

Chen Xiaokang cho biết chế độ nhận diện hình ảnh (image recognition) ban đầu được cung cấp cho một số người dùng được chọn trên trang web chatbot và ứng dụng di động của DeepSeek để thử nghiệm.

Chatbot DeepSeek đã nhận diện được ảnh và video, khắc phục điểm yếu chí mạng (2) — Chen Xiaokang thông báo DeepSeek đã có khả năng nhận diện hình ảnh và video - Ảnh chụp màn hình

“Thử ngay thành quả ấn tượng từ các đồng nghiệp đa phương thức thiên tài của chúng tôi!”, Chen Deli, nhà nghiên cứu cấp cao của DeepSeek, viết trên mạng xã hội X sau đó. Anh cho biết “chú cá voi nhỏ giờ đã có thể nhìn thấy”, ám chỉ logo hình cá voi của DeepSeek.

Khi AI tiếp tục phát triển nhanh chóng, khả năng đa phương thức được xem là cần thiết để vượt ra khỏi các cuộc trò chuyện văn bản đơn giản với người dùng, tiến vào các lĩnh vực phức tạp hơn và có giá trị kinh tế cao hơn.

Việc phát hành giới hạn chế độ nhận diện hình ảnh diễn ra vài ngày sau khi DeepSeek ra mắt mô hình chủ lực V4 hôm 24/4, đồng thời nhanh chóng áp dụng các đợt giảm giá quy mô lớn.

Điểm yếu chí mạng của DeepSeek

Hồi tháng 1/2025, DeepSeek từng gây chấn động ngành công nghệ với việc ra mắt mô hình suy luận R1 có hiệu năng tương đương các sản phẩm hàng đầu Mỹ như của OpenAI, Anthropic và Google, nhưng chi phí huấn luyện thấp hơn rất nhiều. Động thái này đã làm dấy lên lo ngại tại Mỹ rằng Trung Quốc có thể bắt kịp trong cuộc đua AI bất chấp việc bị hạn chế mua chip hiệu năng cao từ Nvidia.

Sự xuất hiện của R1 góp phần kích hoạt đợt bán tháo cổ phiếu công nghệ trị giá khoảng 1.000 tỉ USD trên thị trường toàn cầu. Riêng Nvidia, công ty Mỹ chuyên cung cấp chip tiên tiến để huấn luyện các mô hình AI, mất gần 600 tỉ USD vốn hóa thị trường chỉ trong ngày 27/1/2025 do cổ phiếu giảm 17%.

Dù DeepSeek đã nổi tiếng toàn cầu, việc thiếu khả năng đa phương thức kể từ đó được xem là điểm yếu chí mạng của công ty có trụ sở ở thành phố Hàng Châu (Trung Quốc).

Tại Trung Quốc, ứng dụng Doubao của ByteDance vượt mặt DeepSeek về mức độ phổ biến nhờ cung cấp khả năng đa phương thức mạnh mẽ. Các nhà phát triển toàn cầu cũng chuyển sang sử dụng các mô hình AI mã nguồn mở đa phương thức, chẳng hạn dòng Kimi của Moonshot AI (có trụ sở ở thủ đô Bắc Kinh).

Trung Quốc đặc biệt mạnh về các mô hình AI đa phương thức, vốn mang lại tiềm năng thương mại hóa cao hơn so với sản phẩm văn bản đơn giản, theo các nhà phân tích từ ngân hàng đầu tư Morgan Stanley (Mỹ).

Các bài đăng trên mạng xã hội không tiết lộ khi nào chức năng đa phương thức sẽ được DeepSeek phát hành đầy đủ.

Chatbot DeepSeek đã nhận diện được ảnh và video, khắc phục điểm yếu chí mạng — DeepSeek đã bắt kịp các đối thủ cung cấp khả năng đa phương thức từ lâu - Ảnh: MTG

DeepSeek giảm giá mạnh cho V4

Những nỗ lực của DeepSeek nhằm bắt kịp các đối thủ diễn ra sau khi việc ra mắt phiên bản V4 không tạo được tiếng vang toàn cầu như R1 năm ngoái.

Tuần trước, DeepSeek đã công bố giảm giá mạnh cho V4, gồm cả việc giảm giá vĩnh viễn cho người dùng API (giao diện lập trình ứng dụng) xuống còn 1/10 so với mức ban đầu. Chi phí sử dụng V4 chỉ bằng một phần nhỏ so với các mô hình AI hàng đầu của Mỹ.

Ngoài ra, mức giảm thêm 75% cho V4 cũng được DeepSeek kéo dài đến ngày 31/5.

V4 của DeepSeek gồm hai phiên bản: V4 Pro với 1.600 tỉ tham số và V4 Flash với 284 tỉ tham số, cả hai đều hỗ trợ cửa sổ ngữ cảnh lên tới 1 triệu token. Cả V4 Pro và V4 Flash được phát hành dưới dạng mã nguồn mở theo giấy phép MIT, cho phép doanh nghiệp tự do sử dụng, chỉnh sửa và thương mại hóa.

Theo theo báo cáo từ Artificial Analysis, V4 đã không đạt được hiệu năng như các đối thủ hàng đầu ở Trung Quốc và Mỹ. V4 Pro đứng thứ hai trong số các mô hình AI mã nguồn mở hàng đầu thế giới, xếp sau Kimi K2.6 của Moonshot AI.

V4 Pro đạt 52 điểm trên chỉ số Artificial Analysis Intelligence Index, so với 54 điểm của Kimi K2.6, vốn được phát hành đầu tuần trước. Trong khi đó, các mô hình AI mã nguồn đóng hàng đầu Mỹ như GPT-5.5 của OpenAI, Claude Opus của Anthropic và Google Gemini 3.1 Pro đạt lần lượt 60, 57 và 57 điểm.

Artificial Analysis là nền tảng đánh giá độc lập chuyên theo dõi, so sánh và xếp hạng các mô hình AI như tạo văn bản, hình ảnh, video. Tổ chức này xây dựng các bảng đánh giá chuẩn để đo lường chất lượng, tốc độ, chi phí và hiệu năng của từng mô hình. Từ đó, doanh nghiệp, nhà phát triển và giới đầu tư sẽ hiểu rõ mô hình AI nào đang dẫn đầu, có lợi thế về giá hay khả năng mở rộng. Các báo cáo và xếp hạng của Artificial Analysis thường được truyền thông và giới công nghệ trích dẫn như một nguồn tham khảo đáng tin cậy trong lĩnh vực AI.

Kết quả trên cho thấy những thách thức mà DeepSeek đang phải đối mặt khi Trung Quốc chạy đua thu hẹp khoảng cách AI với Mỹ, trong bối cảnh cạnh tranh trong và ngoài nước ngày càng gay gắt, cùng những hạn chế về năng lực tính toán. Tuy vậy, các nhà phân tích cho rằng V4 vẫn mang lại tiến bộ kỹ thuật đáng kể.

Nhà nghiên cứu Kyle Chan thuộc Viện Brookings nhận định V4 “đáng chú ý” vì đã tiến gần đến mức hiệu năng tiên tiến nhất, với cửa sổ ngữ cảnh lên tới 1 triệu token và khả năng chạy trên chip AI Ascend 950PR của Huawei.

Cửa sổ ngữ cảnh là lượng thông tin mà một mô hình AI có thể xử lý trong một lần. Mô hình chủ lực trước đó của DeepSeek chỉ có cửa sổ ngữ cảnh 128.000 token.

Trong báo cáo hôm 25/4, SemiAnalysis cho rằng việc DeepSeek giảm tới 90% bộ nhớ đệm KV (KV cache) trong cấu hình 1 triệu token là “có tác động mạnh hơn nhiều so với bài nghiên cứu TurboQuant của Google tháng trước”. SemiAnalysis là hãng nghiên cứu và phân tích độc lập chuyên về ngành công nghệ, đặc biệt tập trung vào chip, hạ tầng AI và điện toán hiệu năng cao.

V4 cũng gây chú ý nhờ khả năng tương thích với chip của Huawei. Ngay sau khi V4 ra mắt hôm 24/4, Huawei cho biết dòng chip Ascend và các hệ thống siêu nút của hãng sẽ hỗ trợ đầy đủ việc chạy mô hình AI mới này trong suy luận.

Nhu cầu với dòng chip mới Ascend 950 tăng vọt sau khi DeepSeek V4 ra mắt và tương thích với chip AI mới của Huawei.

Các công ty internet lớn nhất Trung Quốc, gồm ByteDance, Tencent và Alibaba, đang liên hệ với Huawei để đặt hàng Ascend 950, theo các nguồn tin của Reuters.

Các công ty chuyên về điện toán đám mây và dịch vụ cho thuê GPU (bộ xử lý đồ họa) cũng chạy đua để đặt hàng Ascend 950, hai nguồn tin của Reuters cho biết, nhưng không tiết lộ tên cụ thể.