Hotline quảng cáo: 096 2445664 Hotline nội dung: 0934.999945

Nhịp đập khoa học

DeepSeek được ca ngợi vì hé lộ bí kiếp tạo mô hình R1 có hiệu suất ngang o1 của OpenAI với chi phí thấp

Sơn Vân • 01/03/2025 13:06

Một số nhà phát triển trí tuệ nhân tạo (AI) đã sử dụng các kỹ thuật nguồn mở của DeepSeek để nâng cao hiệu suất mô hình.

Công ty khởi nghiệp DeepSeek (Trung Quốc) vừa tiết lộ các chi tiết kỹ thuật về quá trình phát triển mô hình suy luận R1 có hiệu suất ngang bằng o1 của OpenAI, với chi phí chỉ bằng một phần nhỏ so với thông thường. Đây là động thái được cho là sẽ thúc đẩy những tiến bộ toàn cầu trong lĩnh vực này.

Vài ngày qua, DeepSeek đã công bố 8 dự án nguồn mở trên GitHub, nền tảng chia sẻ mã nguồn mở lớn nhất thế giới. Đây là lần đầu tiên DeepSeek tiết lộ chi tiết về cách họ khai thác hiệu suất tốt nhất từ các chip trong tính toán, truyền thông và lưu trữ, vốn là những yếu tố then chốt của đào tạo mô hình AI.

Nhóm các nhà khoa học trẻ của DeepSeek cho biết đã tiết lộ "các khối xây dựng được thử nghiệm trong thực tế để chia sẻ tiến bộ tuy nhỏ nhưng chân thành với sự minh bạch tuyệt đối”.

DeepSeek được các nhà phát triển toàn cầu hoan nghênh, ca ngợi vì tiết lộ các kỹ thuật mà họ sử dụng để xây dựng các mô hình AI hiệu suất cao, chi phí thấp của mình. Một số nhà phát triển, gồm cả người sáng lập nền tảng phát triển AI Hyperbolic, gọi DeepSeek mới là "OpenAI thực sự".

Dù có tên gọi như vậy nhưng OpenAI đã chuyển sang phương pháp tiếp cận nguồn đóng, giữ kín các phương pháp đào tạo cụ thể và chi phí tính toán của các mô hình AI. Sam Altman, người đồng sáng lập kiêm Giám đốc điều hành OpenAI, nói đầu tháng 2 rằng công ty "đã đi ngược lại lịch sử" và "cần tìm ra một chiến lược nguồn mở khác".

OpenAI, công ty khởi nghiệp được Microsoft hậu thuẫn, đã ra mắt GPT-4.5 hôm 27.2. Đây là mô hình AI mới nhất trong họ GPT-4, được giới thiệu cách đây gần hai năm.

GPT-4.5 được OpenAI mô tả là "mô hình trò chuyện lớn nhất và tốt nhất", nhưng đi kèm mức giá 150 USD cho mỗi triệu token đầu ra, cao gấp 270 lần mức 55 cent Mỹ mà DeepSeek áp dụng cho mô hình V3 và R1 vào giờ thấp điểm.

Token đầu ra là đơn vị đo lường dữ liệu được tạo ra bởi mô hình AI trong quá trình xử lý ngôn ngữ. Cụ thể:

Token là gì?

Token có thể là một từ, một phần của từ, một ký tự hoặc một chuỗi ký tự, tùy thuộc vào phương pháp token hóa mà mô hình sử dụng.

Ví dụ: Câu "Tôi thích AI" có thể được chia thành các token: ["Tôi", "thích", "AI"].

Token đầu ra

Là số lượng token mà mô hình AI sinh ra khi trả lời một yêu cầu.

Ví dụ: Nếu bạn hỏi ChatGPT "Giải thích về AI", câu trả lời "AI là trí tuệ nhân tạo..." sẽ được tính bằng số token đầu ra.

Tại sao tính phí theo token?

Mỗi token đầu ra đòi hỏi tài nguyên tính toán (CPU/GPU) để xử lý.

Các công ty như OpenAI hay DeepSeek tính phí dựa trên lượng token sinh ra để đo lường mức độ sử dụng dịch vụ.

Một số nhà phát triển AI đã sử dụng các kỹ thuật nguồn mở của DeepSeek. Các nhà nghiên cứu từ vLLM, dự án AI nguồn mở có nguồn gốc từ Đại học California - Berkeley (Mỹ), cho biết đã đạt được mức tăng hiệu suất tới 16% khi tích hợp một trong các phương pháp của DeepSeek.

deepseek-duoc-ca-ngoi-vi-he-lo-bi-kiep-tao-mo-hinh-r1-co-hieu-suat-ngang-o1-cua-openai-voi-chi-phi-thap.jpg — DeepSeek cho biết R1 có hiệu suất ngang bằng o1 của OpenAI - Ảnh: Internet

Hôm 26.2, DeepSeek đã giới thiệu mức giá giảm sâu cho các nhà phát triển muốn sử dụng mô hình AI của hãng để xây dựng sản phẩm riêng. Động thái này có thể gây áp lực lên các đối thủ ở Trung Quốc và quốc tế trong việc cắt giảm giá.

DeepSeek cho biết trong khung giờ từ 16:30 GMT đến 00:30 GMT, chi phí sử dụng API (nền tảng cho phép các nhà phát triển tích hợp mô hình AI của DeepSeek vào ứng dụng và sản phẩm web) sẽ giảm tới 75%, đồng thời mở lại nạp tiền cho dịch vụ này sau hơn 2 tuần tạm dừng do quá tải nhu cầu.

Theo bảng giá trên trang web của DeepSeek, chi phí sử dụng API của các mô hình R1 và V3 trong khung giờ này sẽ giảm lần lượt 75% và 50%.

Dù DeepSeek gọi khung giờ này là "ngoài giờ cao điểm" vì kéo dài từ 0 giờ 30 đến 8 giờ 30 theo giờ Bắc Kinh, nhưng thực tế lại rơi vào ban ngày tại châu Âu và Mỹ.

Việc giảm giá hôm 26.2 là động thái mới nhất trong chuỗi hành động của DeepSeek khiến ngành công nghiệp AI tại Trung Quốc và toàn cầu bị xáo trộn.

Dù vậy, DeepSeek phải đối mặt với rất nhiều đối thủ cạnh tranh toàn cầu đang gấp rút tung ra các mô hình AI mới.

Anthropic, được Amazon hậu thuẫn, đã giới thiệu Claude 3.7 Sonnet hôm 25.2 với khả năng lập luận vượt trội trong toán và lập trình. Ngày 27.2, Tencent đã công bố Turbo S, mô hình AI được thiết kế để đưa ra phản hồi nhanh hơn DeepSeek R1 hoặc o1 của OpenAI.

Tuần này, Reuters đưa tin DeepSeek đang đẩy nhanh quá trình ra mắt R2 - phiên bản nâng cấp của R1.

Công ty có trụ sở tại Hàng Châu ban đầu dự định phát hành R2 vào đầu tháng 5, nhưng giờ đây muốn tung ra sớm nhất có thể, hai trong số các nguồn tin của Reuters cho biết.

DeepSeek hy vọng R2 sẽ cải thiện khả năng lập trình và có thể suy luận bằng nhiều ngôn ngữ ngoài tiếng Anh.

"Sự ra mắt của mô hình R2 của DeepSeek có thể trở thành cột mốc quan trọng trong ngành AI", Vijayasimha Alilughatta, Giám đốc điều hành nhà cung cấp dịch vụ công nghệ Zensar (Ấn Độ), nhận định. Thành công của DeepSeek trong việc tạo ra các mô hình AI tiết kiệm chi phí "có thể sẽ thúc đẩy các công ty trên toàn thế giới đẩy nhanh nỗ lực phá vỡ sự thống trị của một số ít công ty lớn trong lĩnh vực này", ông nói.

R2 có khả năng làm dấy lên mối lo ngại với chính phủ Mỹ, khi nước này coi AI là ưu tiên quốc gia. Việc phát hành R2 có thể càng khiến chính quyền và doanh nghiệp Trung Quốc phấn khích, với hàng chục công ty tuyên bố bắt đầu tích hợp các mô hình AI DeepSeek vào sản phẩm của mình.

Trước đó, DeepSeek đã mất 7 tháng để chuyển từ mô hình ngôn ngữ lớn V2 (phát hành vào tháng 5.2024) sang phiên bản V3 được cập nhật trong tháng 12.2024. R1, mô hình lập luận dựa trên V3, được DeepSeek phát hành vào tháng 1.2025.

DeepSeek tập trung đạt được siêu AI thay vì lợi nhuận nhanh chóng, chưa huy động thêm vốn

DeepSeek không vội vàng huy động thêm vốn hoặc tham gia vào các hoạt động thương mại mới, thay vào đó tập trung vào việc đạt được trí tuệ nhân tạo tổng quát (AGI).

Theo các nguồn tin và báo cáo phương tiện truyền thông, công ty này đã ưu tiên nghiên cứu hơn là lợi nhuận tài chính nhanh chóng trong tháng 2 sau khi phát hành mô hình lý luận gây chấn động thế giới.

Kể từ khi mô hình lý luận R1 trở thành tâm điểm ở Thung lũng Silicon và Phố Wall, DeepSeek đã duy trì sự kín tiếng, với rất ít sự giao tiếp với công chúng bên ngoài cộng đồng nhà phát triển.

DeepSeek là công ty khởi nghiệp có trụ sở tại Hàng Châu do Lương Văn Phong sáng lập và tách ra từ quỹ đầu cơ định lượng High-Flyer.

Quỹ đầu cơ định lượng là một loại quỹ đầu cơ sử dụng mô hình toán học, thuật toán và AI để phân tích dữ liệu và ra quyết định đầu tư thay vì dựa vào cảm tính hoặc đánh giá chủ quan của con người.

Lương Văn Phong không đưa ra bất kỳ bình luận công khai nào và không nhận lời phỏng vấn của giới truyền thông trong tháng 1. Dù Lương Văn Phong được Đài truyền hình Trung ương Trung Quốc (CCTV) chiếu thoáng qua khi tham dự hội nghị chuyên đề cấp cao do Chủ tịch Tập Cận Bình chủ trì tuần trước, ông không có phát biểu nào được trích dẫn trong bản tin của truyền thông.

Lương Văn Phong chỉ xuất hiện trước công chúng gần đây với tư cách là đồng tác giả của một bài báo có tựa đề Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention, cùng với 14 tác giả khác. Ít nhất 12 trong số 15 tác giả bài báo này cũng tham gia vào nghiên cứu về R1. Điều này cho thấy Lương Văn Phong đã trực tiếp tham gia nghiên cứu cùng các nhà khoa học trẻ của DeepSeek.

Một nguồn tin thân cận với công ty, yêu cầu giấu tên, cho biết DeepSeek không vội tiến hành gây quỹ thêm hoặc tham gia vào các hoạt động thương mại mới. Thay vào đó, Lương Văn Phong tập trung vào việc thúc đẩy AGI bằng cách cải thiện hiệu quả và khả năng của mô hình với nguồn lực tối thiểu.

AGI là dạng AI có khả năng hiểu, học hỏi và thực hiện các nhiệm vụ đa dạng một cách linh hoạt, giống hay vượt trội con người. Không giống AI hẹp, vốn chỉ giỏi trong một lĩnh vực cụ thể (như nhận dạng giọng nói hoặc hình ảnh), AGI có khả năng áp dụng kiến thức và kỹ năng trong nhiều lĩnh vực khác nhau, từ đó giải quyết các vấn đề phức tạp một cách tự chủ và sáng tạo. OpenAI định nghĩa AGI là "một hệ thống có tính tự chủ cao, vượt trội hơn con người ở hầu hết công việc có giá trị kinh tế".

"Liệu đó có phải là một lựa chọn khôn ngoan không và có thể duy trì nghiên cứu trong bao lâu, chỉ có thời gian mới trả lời được. Một vấn đề quan trọng là quy luật mở rộng vẫn tồn tại, và rất khó để duy trì vị thế dẫn đầu chỉ bằng cách cải thiện thuật toán", người giấu tên này nói về các ưu tiên chính của DeepSeek.

DeepSeek không trả lời khi được trang SCMP đề nghị bình luận.

Dù trở thành một trong những doanh nghiệp nổi tiếng và được kính trọng nhất Trung Quốc, DeepSeek vẫn giữ hình ảnh công ty khởi nghiệp kín tiếng, từ chối tiếp nhận khách ghé thăm và các nhà đầu tư tiềm năng. DeepSeek làm rõ rằng họ chỉ có ba tài khoản mạng xã hội chính thức trên X, WeChat và RedNote.

DeepSeek cũng giữ im lặng về đội ngũ, cấu trúc nội bộ và lịch trình nghiên cứu của mình.

ceo-deepseek-khong-du-hoi-nghi-thuong-dinh-ai-o-paris-du-duoc-moi-khi-trung-quoc-khang-dinh-vai-tro-ve-ai.jpg — Lương Văn Phong, nhà sáng lập High-Flyer và DeepSeek - Ảnh: Internet

Đội ngũ của Lương Văn Phong vẫn tiếp tục chia sẻ những thành tựu nghiên cứu với cộng đồng nhà phát triển. Tuần này, DeepSeek đã thực hiện cam kết chia sẻ chi tiết kỹ thuật về hạ tầng AI của mình bằng cách phát hành các kho lưu trữ mã nguồn mở, giúp làm sáng tỏ cách công ty xây dựng các mô hình AI hiệu suất cao với chi phí thấp.

Các nhà phát triển đã ca ngợi động thái của DeepSeek vì tạo điều kiện thúc đẩy tiến bộ trong lĩnh vực này. Một nhóm nhỏ các nhà nghiên cứu DeepSeek đã tham dự một phiên họp kín tại Hội nghị các nhà phát triển toàn cầu ở Thượng Hải cuối tuần trước, theo truyền thông địa phương.

Trong hai cuộc phỏng vấn trước đó với ấn phẩm tin tức công nghệ 36Kr (Trung Quốc), Lương Văn Phong cho biết mục tiêu cuối cùng của DeepSeek là đạt được AGI, sứ mệnh mà công ty dường như đặt lên trên lợi ích kinh doanh với trọng tâm là cung cấp công nghệ nguồn mở.

"Đích đến của chúng tôi là AGI. Mô hình ngôn ngữ lớn có thể là một con đường cần thiết dẫn đến AGI", Lương Văn Phong nói trong cuộc phỏng vấn với 36Kr vào tháng 7.2024.

Khi được hỏi về thời điểm có thể đạt được AGI, Lương Văn Phong nói rằng "có thể mất 2 năm, 5 năm hoặc thậm chí 10 năm, nhưng cuối cùng thì sẽ đạt được nó trong thời đại của chúng ta".

Bài liên quan

Khi các công ty ăn theo DeepSeek nở rộ, Trung Quốc chặn 63 thương hiệu giả mạo lợi dụng cơn sốt AI

Trung Quốc đã từ chối hàng tá đơn đăng ký nhãn hiệu với tên DeepSeek. Trong khi Hồng Kông chứng kiến các công ty đáng ngờ mang tên DeepSeek.

Đọc tiếp

CEO Nvidia lo ngại Huawei, nói mô hình DeepSeek R1 cần nhiều tài nguyên tính toán gấp 100 lần

Singapore truy tố 3 kẻ lừa đảo bị nghi vận chuyển chip Nvidia tiên tiến đến DeepSeek

(0) Bình luận

Xếp theo:

Đọc thêm Nhịp đập khoa học

Nổi bật Một thế giới

Những chính sách mới nổi bật có hiệu lực từ tháng 3

5 giờ trước Theo dòng thời sự

Một số nghị định về cơ cấu tổ chức của các bộ, ngành sau sắp xếp; Bộ Công an tiếp nhận 5 nhóm nhiệm vụ... là những chính sách nổi bật có hiệu lực kể từ tháng 3.2025.

DeepSeek được ca ngợi vì hé lộ bí kiếp tạo mô hình R1 có hiệu suất ngang o1 của OpenAI với chi phí thấp

Một số nhà phát triển trí tuệ nhân tạo (AI) đã sử dụng các kỹ thuật nguồn mở của DeepSeek để...
An Giang: 1.500 người tham gia diễu hành tôn vinh vẻ đẹp của áo dài

Một trong những điểm nhấn của Ngày hội tôn vinh áo dài tại An Giang là 1.500 cán bộ, hội viên...
Thỏa thuận khoáng sản đổ vỡ sau màn tranh cãi nảy lửa giữa hai tổng thống Trump - Zelensky

Cuộc gặp giữa Tổng thống Mỹ Donald Trump và Tổng thống Ukraine Volodymyr Zelensky tại Nhà Trắng...

Đừng bỏ lỡ

Tàu hỏa bị lật ở Hà Tĩnh, đường sắt Bắc - Nam tê liệt

1 giờ trước Sự kiện

Sau cú va chạm với xe tải băng qua đường ray, tàu hàng SH62 di chuyển hướng nam - bắc bị lật nghiêng.
Hàn Quốc siết chặt quy định về việc đem pin lithium lên máy bay

2 giờ trước Du lịch

Từ ngày 1.3, quy định chặt chẽ hơn về việc đem pin lithium lên máy bay của Hàn Quốc bắt đầu có hiệu lực.
Ông Trump bất bình với chính phủ Anh vì yêu cầu Apple cấp quyền truy cập dữ liệu người dùng

2 giờ trước Thế giới số

Tổng thống Mỹ Donald Trump đã ví việc chính phủ Anh yêu cầu Apple cấp quyền truy cập một số dữ liệu người dùng như "điều thường nghe thấy ở Trung Quốc”.
Cảnh báo thủ đoạn mạo danh nhân viên ngân hàng chào mời mở thẻ tín dụng

2 giờ trước Khoa học - công nghệ

Theo cảnh báo từ Vietcombank, thời gian vừa qua đã xuất hiện hình thức lừa đảo mạo danh nhân viên/tổng đài Vietcombank gọi điện mời phát hành thẻ tín dụng.
Canada, Mexico nỗ lực chống ma túy để không bị Mỹ áp thuế

3 giờ trước Chuyển động

Hãng Reuters đưa tin Canada và Mexico cố gắng chứng minh rằng họ rất cố gắng chặn tình trạng buôn bán chất giảm đau gây nghiện fentanyl đang gây ra khủng hoảng ma túy tại Mỹ, qua đó thuyết phục Washington từ bỏ ý định áp thuế hàng nhập khẩu.

Mới nhất

DeepSeek được ca ngợi vì hé lộ bí kiếp tạo mô hình R1 có hiệu suất ngang o1 của OpenAI với chi phí thấp

4 phút trước Nhịp đập khoa học

Một số nhà phát triển trí tuệ nhân tạo (AI) đã sử dụng các kỹ thuật nguồn mở của DeepSeek để nâng cao hiệu suất mô hình.
An Giang: 1.500 người tham gia diễu hành tôn vinh vẻ đẹp của áo dài

1 giờ trước Văn hóa

Một trong những điểm nhấn của Ngày hội tôn vinh áo dài tại An Giang là 1.500 cán bộ, hội viên phụ nữ đã tham gia diễu hành tôn vinh vẻ đẹp của áo dài tại quảng trường Hai Bà Trưng và một số tuyến đường trên địa bàn TP.Long Xuyên.
Thỏa thuận khoáng sản đổ vỡ sau màn tranh cãi nảy lửa giữa hai tổng thống Trump - Zelensky

5 giờ trước Quốc tế

Cuộc gặp giữa Tổng thống Mỹ Donald Trump và Tổng thống Ukraine Volodymyr Zelensky tại Nhà Trắng ngày 28.2 nhằm ký kết một thỏa thuận quan trọng về khai thác khoáng sản đã kết thúc sau một cuộc tranh cãi công khai.
Những chính sách mới nổi bật có hiệu lực từ tháng 3

5 giờ trước Theo dòng thời sự

Một số nghị định về cơ cấu tổ chức của các bộ, ngành sau sắp xếp; Bộ Công an tiếp nhận 5 nhóm nhiệm vụ... là những chính sách nổi bật có hiệu lực kể từ tháng 3.2025.
Hà Nội thành lập đội sát hạch, cấp giấy phép lái xe

16 giờ trước Sự kiện

Ngày 28.2, Công an thành phố Hà Nội đã ra mắt đội sát hạch, cấp giấy phép lái xe cơ giới đường bộ sau khi tiếp nhận nhiệm vụ đào tạo, cấp giấy phép lái xe từ Sở Giao thông vận tải Hà Nội.