Một số nhà phát triển trí tuệ nhân tạo (AI) đã sử dụng các kỹ thuật nguồn mở của DeepSeek để nâng cao hiệu suất mô hình.
Nhịp đập khoa học

DeepSeek được ca ngợi vì hé lộ bí kiếp tạo mô hình R1 có hiệu suất ngang o1 của OpenAI với chi phí thấp

Sơn Vân 01/03/2025 13:06

Một số nhà phát triển trí tuệ nhân tạo (AI) đã sử dụng các kỹ thuật nguồn mở của DeepSeek để nâng cao hiệu suất mô hình.

Công ty khởi nghiệp DeepSeek (Trung Quốc) vừa tiết lộ các chi tiết kỹ thuật về quá trình phát triển mô hình suy luận R1 có hiệu suất ngang bằng o1 của OpenAI, với chi phí chỉ bằng một phần nhỏ so với thông thường. Đây là động thái được cho là sẽ thúc đẩy những tiến bộ toàn cầu trong lĩnh vực này.

Vài ngày qua, DeepSeek đã công bố 8 dự án nguồn mở trên GitHub, nền tảng chia sẻ mã nguồn mở lớn nhất thế giới. Đây là lần đầu tiên DeepSeek tiết lộ chi tiết về cách họ khai thác hiệu suất tốt nhất từ ​​các chip trong tính toán, truyền thông và lưu trữ, vốn là những yếu tố then chốt của đào tạo mô hình AI.

Nhóm các nhà khoa học trẻ của DeepSeek cho biết đã tiết lộ "các khối xây dựng được thử nghiệm trong thực tế để chia sẻ tiến bộ tuy nhỏ nhưng chân thành với sự minh bạch tuyệt đối”.

DeepSeek được các nhà phát triển toàn cầu hoan nghênh, ca ngợi vì tiết lộ các kỹ thuật mà họ sử dụng để xây dựng các mô hình AI hiệu suất cao, chi phí thấp của mình. Một số nhà phát triển, gồm cả người sáng lập nền tảng phát triển AI Hyperbolic, gọi DeepSeek mới là "OpenAI thực sự".

Dù có tên gọi như vậy nhưng OpenAI đã chuyển sang phương pháp tiếp cận nguồn đóng, giữ kín các phương pháp đào tạo cụ thể và chi phí tính toán của các mô hình AI. Sam Altman, người đồng sáng lập kiêm Giám đốc điều hành OpenAI, nói đầu tháng 2 rằng công ty "đã đi ngược lại lịch sử" và "cần tìm ra một chiến lược nguồn mở khác".

OpenAI, công ty khởi nghiệp được Microsoft hậu thuẫn, đã ra mắt GPT-4.5 hôm 27.2. Đây là mô hình AI mới nhất trong họ GPT-4, được giới thiệu cách đây gần hai năm.

GPT-4.5 được OpenAI mô tả là "mô hình trò chuyện lớn nhất và tốt nhất", nhưng đi kèm mức giá 150 USD cho mỗi triệu token đầu ra, cao gấp 270 lần mức 55 cent Mỹ mà DeepSeek áp dụng cho mô hình V3 và R1 vào giờ thấp điểm.

Token đầu ra là đơn vị đo lường dữ liệu được tạo ra bởi mô hình AI trong quá trình xử lý ngôn ngữ. Cụ thể:

Token là gì?

Token có thể là một từ, một phần của từ, một ký tự hoặc một chuỗi ký tự, tùy thuộc vào phương pháp token hóa mà mô hình sử dụng.

Ví dụ: Câu "Tôi thích AI" có thể được chia thành các token: ["Tôi", "thích", "AI"].

Token đầu ra

Là số lượng token mà mô hình AI sinh ra khi trả lời một yêu cầu.

Ví dụ: Nếu bạn hỏi ChatGPT "Giải thích về AI", câu trả lời "AI là trí tuệ nhân tạo..." sẽ được tính bằng số token đầu ra.

Tại sao tính phí theo token?

Mỗi token đầu ra đòi hỏi tài nguyên tính toán (CPU/GPU) để xử lý.

Các công ty như OpenAI hay DeepSeek tính phí dựa trên lượng token sinh ra để đo lường mức độ sử dụng dịch vụ.

Một số nhà phát triển AI đã sử dụng các kỹ thuật nguồn mở của DeepSeek. Các nhà nghiên cứu từ vLLM, dự án AI nguồn mở có nguồn gốc từ Đại học California - Berkeley (Mỹ), cho biết đã đạt được mức tăng hiệu suất tới 16% khi tích hợp một trong các phương pháp của DeepSeek.

deepseek-duoc-ca-ngoi-vi-he-lo-bi-kiep-tao-mo-hinh-r1-co-hieu-suat-ngang-o1-cua-openai-voi-chi-phi-thap.jpg
DeepSeek cho biết R1 có hiệu suất ngang bằng o1 của OpenAI - Ảnh: Internet

Hôm 26.2, DeepSeek đã giới thiệu mức giá giảm sâu cho các nhà phát triển muốn sử dụng mô hình AI của hãng để xây dựng sản phẩm riêng. Động thái này có thể gây áp lực lên các đối thủ ở Trung Quốc và quốc tế trong việc cắt giảm giá.

DeepSeek cho biết trong khung giờ từ 16:30 GMT đến 00:30 GMT, chi phí sử dụng API (nền tảng cho phép các nhà phát triển tích hợp mô hình AI của DeepSeek vào ứng dụng và sản phẩm web) sẽ giảm tới 75%, đồng thời mở lại nạp tiền cho dịch vụ này sau hơn 2 tuần tạm dừng do quá tải nhu cầu.

Theo bảng giá trên trang web của DeepSeek, chi phí sử dụng API của các mô hình R1 và V3 trong khung giờ này sẽ giảm lần lượt 75% và 50%.

Dù DeepSeek gọi khung giờ này là "ngoài giờ cao điểm" vì kéo dài từ 0 giờ 30 đến 8 giờ 30 theo giờ Bắc Kinh, nhưng thực tế lại rơi vào ban ngày tại châu Âu và Mỹ.

Việc giảm giá hôm 26.2 là động thái mới nhất trong chuỗi hành động của DeepSeek khiến ngành công nghiệp AI tại Trung Quốc và toàn cầu bị xáo trộn.

Dù vậy, DeepSeek phải đối mặt với rất nhiều đối thủ cạnh tranh toàn cầu đang gấp rút tung ra các mô hình AI mới.

Anthropic, được Amazon hậu thuẫn, đã giới thiệu Claude 3.7 Sonnet hôm 25.2 với khả năng lập luận vượt trội trong toán và lập trình. Ngày 27.2, Tencent đã công bố Turbo S, mô hình AI được thiết kế để đưa ra phản hồi nhanh hơn DeepSeek R1 hoặc o1 của OpenAI.

Tuần này, Reuters đưa tin DeepSeek đang đẩy nhanh quá trình ra mắt R2 - phiên bản nâng cấp của R1.

Công ty có trụ sở tại Hàng Châu ban đầu dự định phát hành R2 vào đầu tháng 5, nhưng giờ đây muốn tung ra sớm nhất có thể, hai trong số các nguồn tin của Reuters cho biết.

DeepSeek hy vọng R2 sẽ cải thiện khả năng lập trình và có thể suy luận bằng nhiều ngôn ngữ ngoài tiếng Anh.

"Sự ra mắt của mô hình R2 của DeepSeek có thể trở thành cột mốc quan trọng trong ngành AI", Vijayasimha Alilughatta, Giám đốc điều hành nhà cung cấp dịch vụ công nghệ Zensar (Ấn Độ), nhận định. Thành công của DeepSeek trong việc tạo ra các mô hình AI tiết kiệm chi phí "có thể sẽ thúc đẩy các công ty trên toàn thế giới đẩy nhanh nỗ lực phá vỡ sự thống trị của một số ít công ty lớn trong lĩnh vực này", ông nói.

R2 có khả năng làm dấy lên mối lo ngại với chính phủ Mỹ, khi nước này coi AI là ưu tiên quốc gia. Việc phát hành R2 có thể càng khiến chính quyền và doanh nghiệp Trung Quốc phấn khích, với hàng chục công ty tuyên bố bắt đầu tích hợp các mô hình AI DeepSeek vào sản phẩm của mình.

Trước đó, DeepSeek đã mất 7 tháng để chuyển từ mô hình ngôn ngữ lớn V2 (phát hành vào tháng 5.2024) sang phiên bản V3 được cập nhật trong tháng 12.2024. R1, mô hình lập luận dựa trên V3, được DeepSeek phát hành vào tháng 1.2025.

DeepSeek tập trung đạt được siêu AI thay vì lợi nhuận nhanh chóng, chưa huy động thêm vốn

DeepSeek không vội vàng huy động thêm vốn hoặc tham gia vào các hoạt động thương mại mới, thay vào đó tập trung vào việc đạt được trí tuệ nhân tạo tổng quát (AGI).

Theo các nguồn tin và báo cáo phương tiện truyền thông, công ty này đã ưu tiên nghiên cứu hơn là lợi nhuận tài chính nhanh chóng trong tháng 2 sau khi phát hành mô hình lý luận gây chấn động thế giới.

Kể từ khi mô hình lý luận R1 trở thành tâm điểm ở Thung lũng Silicon và Phố Wall, DeepSeek đã duy trì sự kín tiếng, với rất ít sự giao tiếp với công chúng bên ngoài cộng đồng nhà phát triển.

DeepSeek là công ty khởi nghiệp có trụ sở tại Hàng Châu do Lương Văn Phong sáng lập và tách ra từ quỹ đầu cơ định lượng High-Flyer.

Quỹ đầu cơ định lượng là một loại quỹ đầu cơ sử dụng mô hình toán học, thuật toán và AI để phân tích dữ liệu và ra quyết định đầu tư thay vì dựa vào cảm tính hoặc đánh giá chủ quan của con người.

Lương Văn Phong không đưa ra bất kỳ bình luận công khai nào và không nhận lời phỏng vấn của giới truyền thông trong tháng 1. Dù Lương Văn Phong được Đài truyền hình Trung ương Trung Quốc (CCTV) chiếu thoáng qua khi tham dự hội nghị chuyên đề cấp cao do Chủ tịch Tập Cận Bình chủ trì tuần trước, ông không có phát biểu nào được trích dẫn trong bản tin của truyền thông.

Lương Văn Phong chỉ xuất hiện trước công chúng gần đây với tư cách là đồng tác giả của một bài báo có tựa đề Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention, cùng với 14 tác giả khác. Ít nhất 12 trong số 15 tác giả bài báo này cũng tham gia vào nghiên cứu về R1. Điều này cho thấy Lương Văn Phong đã trực tiếp tham gia nghiên cứu cùng các nhà khoa học trẻ của DeepSeek.

Một nguồn tin thân cận với công ty, yêu cầu giấu tên, cho biết DeepSeek không vội tiến hành gây quỹ thêm hoặc tham gia vào các hoạt động thương mại mới. Thay vào đó, Lương Văn Phong tập trung vào việc thúc đẩy AGI bằng cách cải thiện hiệu quả và khả năng của mô hình với nguồn lực tối thiểu.

AGI là dạng AI có khả năng hiểu, học hỏi và thực hiện các nhiệm vụ đa dạng một cách linh hoạt, giống hay vượt trội con người. Không giống AI hẹp, vốn chỉ giỏi trong một lĩnh vực cụ thể (như nhận dạng giọng nói hoặc hình ảnh), AGI có khả năng áp dụng kiến thức và kỹ năng trong nhiều lĩnh vực khác nhau, từ đó giải quyết các vấn đề phức tạp một cách tự chủ và sáng tạo. OpenAI định nghĩa AGI là "một hệ thống có tính tự chủ cao, vượt trội hơn con người ở hầu hết công việc có giá trị kinh tế".

"Liệu đó có phải là một lựa chọn khôn ngoan không và có thể duy trì nghiên cứu trong bao lâu, chỉ có thời gian mới trả lời được. Một vấn đề quan trọng là quy luật mở rộng vẫn tồn tại, và rất khó để duy trì vị thế dẫn đầu chỉ bằng cách cải thiện thuật toán", người giấu tên này nói về các ưu tiên chính của DeepSeek.

DeepSeek không trả lời khi được trang SCMP đề nghị bình luận.

Dù trở thành một trong những doanh nghiệp nổi tiếng và được kính trọng nhất Trung Quốc, DeepSeek vẫn giữ hình ảnh công ty khởi nghiệp kín tiếng, từ chối tiếp nhận khách ghé thăm và các nhà đầu tư tiềm năng. DeepSeek làm rõ rằng họ chỉ có ba tài khoản mạng xã hội chính thức trên X, WeChat và RedNote.

DeepSeek cũng giữ im lặng về đội ngũ, cấu trúc nội bộ và lịch trình nghiên cứu của mình.

ceo-deepseek-khong-du-hoi-nghi-thuong-dinh-ai-o-paris-du-duoc-moi-khi-trung-quoc-khang-dinh-vai-tro-ve-ai.jpg
Lương Văn Phong, nhà sáng lập High-Flyer và DeepSeek - Ảnh: Internet

Đội ngũ của Lương Văn Phong vẫn tiếp tục chia sẻ những thành tựu nghiên cứu với cộng đồng nhà phát triển. Tuần này, DeepSeek đã thực hiện cam kết chia sẻ chi tiết kỹ thuật về hạ tầng AI của mình bằng cách phát hành các kho lưu trữ mã nguồn mở, giúp làm sáng tỏ cách công ty xây dựng các mô hình AI hiệu suất cao với chi phí thấp.

Các nhà phát triển đã ca ngợi động thái của DeepSeek vì tạo điều kiện thúc đẩy tiến bộ trong lĩnh vực này. Một nhóm nhỏ các nhà nghiên cứu DeepSeek đã tham dự một phiên họp kín tại Hội nghị các nhà phát triển toàn cầu ở Thượng Hải cuối tuần trước, theo truyền thông địa phương.

Trong hai cuộc phỏng vấn trước đó với ấn phẩm tin tức công nghệ 36Kr (Trung Quốc), Lương Văn Phong cho biết mục tiêu cuối cùng của DeepSeek là đạt được AGI, sứ mệnh mà công ty dường như đặt lên trên lợi ích kinh doanh với trọng tâm là cung cấp công nghệ nguồn mở.

"Đích đến của chúng tôi là AGI. Mô hình ngôn ngữ lớn có thể là một con đường cần thiết dẫn đến AGI", Lương Văn Phong nói trong cuộc phỏng vấn với 36Kr vào tháng 7.2024.

Khi được hỏi về thời điểm có thể đạt được AGI, Lương Văn Phong nói rằng "có thể mất 2 năm, 5 năm hoặc thậm chí 10 năm, nhưng cuối cùng thì sẽ đạt được nó trong thời đại của chúng ta".

Bài liên quan
Khi các công ty ăn theo DeepSeek nở rộ, Trung Quốc chặn 63 thương hiệu giả mạo lợi dụng cơn sốt AI
Trung Quốc đã từ chối hàng tá đơn đăng ký nhãn hiệu với tên DeepSeek. Trong khi Hồng Kông chứng kiến các công ty đáng ngờ mang tên DeepSeek.

(0) Bình luận
Nổi bật Một thế giới
Những chính sách mới nổi bật có hiệu lực từ tháng 3
5 giờ trước Theo dòng thời sự
Một số nghị định về cơ cấu tổ chức của các bộ, ngành sau sắp xếp; Bộ Công an tiếp nhận 5 nhóm nhiệm vụ... là những chính sách nổi bật có hiệu lực kể từ tháng 3.2025.
Đừng bỏ lỡ
Mới nhất
POWERED BY ONECMS - A PRODUCT OF NEKO
DeepSeek được ca ngợi vì hé lộ bí kiếp tạo mô hình R1 có hiệu suất ngang o1 của OpenAI với chi phí thấp