DAPO là thuật toán học tăng cường của ByteDance (công ty mẹ TikTok) có khả năng giúp mô hình ngôn ngữ lớn cải thiện khả năng suy luận phức tạp.
Học tăng cường là phương pháp học máy, trong đó một tác nhân học cách đưa ra quyết định bằng cách tương tác với môi trường và nhận phản hồi dưới dạng phần thưởng hoặc hình phạt. Mục tiêu của học tăng cường là giúp tác nhân tối đa hóa phần thưởng dài hạn thông qua các hành động mà nó thực hiện trong môi trường.
Ứng dụng của học tăng cường
Chơi game: Học tăng cường đã được sử dụng để huấn luyện các hệ thống AI chơi game, chẳng hạn AlphaGo của Google DeepMind.
Robot: Điều khiển robot để học cách thực hiện các tác vụ phức tạp như di chuyển hoặc thu thập vật phẩm.
Tối ưu hóa: Ứng dụng trong các lĩnh vực như quảng cáo, tài chính và quản lý tài nguyên để tối đa hóa lợi nhuận hoặc hiệu quả.
Ô tô tự lái: Học tăng cường giúp ô tô tự lái học cách điều khiển an toàn trong môi trường giao thông phức tạp.
Các thuật toán phổ biến trong học tăng cường
Q-learning: Một cơ sở toán học thuật toán giúp nhân viên học giá trị của từng hành động trong một trạng thái cụ thể.
Deep Q-Networks (DQN): Kết hợp học tăng cường với mạng nơ-ron sâu để xử lý môi trường phức tạp hơn.
Policy gradient: Tác nhân học trực tiếp chiến lược tối ưu thay vì giá trị của từng trạng thái.
Diễn viên-nhà phê bình: Kết hợp hai phương pháp trên để tối ưu hóa công việc học chiến lược.
Học tăng cường đã giúp phát triển nhiều công nghệ tiên tiến như AI, tài chính, y tế, robot và xe tự lái.
Đầu tư mạnh vào trí tuệ nhân tạo (AI), ByteDance mới đây đã công bố một hệ thống mới sẽ cải thiện những thành tựu của DeepSeek trong việc đào tạo các mô hình suy luận AI.
DAPO (Decoupled Clip and Dynamic Sampling Policy Optimisation) là thuật toán học tăng cường có khả năng mở rộng, giúp mô hình ngôn ngữ lớn đạt được hành vi lý luận phức tạp hơn, chẳng hạn tự kiểm tra và tinh chỉnh lặp đi lặp lại. Thông tin này được công bố trong một nghiên cứu của ByteDance và Viện Nghiên cứu Công nghiệp AI thuộc Đại học Thanh Hoa (Trung Quốc).
Thuật toán này đã vượt qua phương pháp học tăng cường GRPO (Group Relative Policy Optimisation) trong mô hình lập luận R1 của DeepSeek. Cụ thể hơn, DAPO đạt 50 điểm trong American Invitational Mathematics Examination 2024 khi sử dụng mô hình Qwen2.5-32B của Alibaba. Trong khi đó, GRPO chỉ đạt 47 điểm với cùng mô hình Qwen2.5-32B của Alibaba, theo kết quả nghiên cứu.
Đáng chú ý, DAPO đạt được kết quả tốt hơn với số bước đào tạo ít hơn một nửa so với GRPO.
GRPO là một trong những phương pháp huấn luyện của DeepSeek, giúp mô hình AI học bằng cách so sánh các hành động khác nhau và cập nhật dựa trên một nhóm quan sát.
American Invitational Mathematics Examination là cuộc thi toán học cấp cao dành cho học sinh trung học ở Mỹ. Đây là vòng thi thứ hai trong hệ thống các kỳ thi Toán học của Mỹ, diễn ra sau khi thí sinh đạt điểm cao trong American Mathematics Competitions.
American Mathematics Competitions là kỳ thi toán học do Hiệp hội Toán học Mỹ tổ chức nhằm phát hiện và bồi dưỡng học sinh có năng khiếu toán.
American Invitational Mathematics Examination là một trong những kỳ thi quan trọng nhất với học sinh giỏi toán muốn tham gia các kỳ thi toán học cấp quốc gia và quốc tế như Olympic Toán học Quốc tế (IMO).
Thành tựu này nhận được nhiều đánh giá tích cực từ giới học thuật và công nghiệp. Kỹ sư Philipp Schmid của Google DeepMind đã chia sẻ dự án trên mạng xã hội X và nhận xét rằng DAPO tốt hơn so với GRPO của DeepSeek trong học tăng cường.
Nhóm nghiên cứu của ByteDance và Đại học Thanh Hoa cũng đã thử nghiệm phương pháp GRPO nhưng đạt kết quả kém hơn DeepSeek 17 điểm trong American Invitational Mathematics Examination. Điều này cho thấy có thể họ chưa nắm được một số kỹ thuật huấn luyện quan trọng trong mô hình R1 của DeepSeek, theo nhóm nghiên cứu. Họ cũng đề xuất bốn kỹ thuật mới để vượt qua DeepSeek.
"Việc minh bạch và hợp tác như thế này mang lại lợi ích cho cộng đồng", Arpit Sharma, trưởng bộ phận hệ sinh thái của công ty hạ tầng đám mây Aethir, chia sẻ trên X.
Tuy nhiên, một số người vẫn hoài nghi. Vitaly Kurin, nhà nghiên cứu cấp cao của Nvidia, đặt câu hỏi trên X liệu việc so sánh số bước huấn luyện có thực sự phù hợp không, vì điều này không đồng nghĩa với việc giảm tổng thời gian huấn luyện.
Dự án DAPO được dẫn dắt bởi thực tập sinh Yu Qiying của ByteDance, người đang theo học tiến sĩ tại Đại học Thanh Hoa. Dự án cũng có sự tham gia của các thực tập sinh khác, gồm cả sinh viên năm thứ tư Tong Yuxuan của Đại học Thanh Hoa và Sheng Guangming (học tiến sĩ tại Đại học Hồng Kông).
ByteDance đang mở rộng các nỗ lực thu hút nhân tài AI hàng đầu trước khi họ tốt nghiệp. Hôm 20.3, đội ngũ mô hình ngôn ngữ lớn của ByteDance đã đăng thông báo tuyển dụng thực tập sinh nghiên cứu, nhắm đến những ứng viên "có niềm tin và đam mê mãnh liệt với công nghệ".
Các ứng viên, nếu chưa tốt nghiệp trước tháng 9.2025, có thể làm việc tại nhiều thành phố như Bắc Kinh, Thượng Hải, Singapore cũng như San Jose và Seattle tại Mỹ.
Đầu tuần này, nhóm mô hình ngôn ngữ lớn của ByteDance đã tổ chức một cuộc họp nội bộ, trong đó các đồng lãnh đạo Zhu Wenjia và Wu Yonghui (mới gia nhập từ Google) đã tái khẳng định mục tiêu "khám phá giới hạn của AI và cam kết thúc đẩy mã nguồn mở", theo hãng truyền thông nhà nước ChinaStarMarket.
Tại hội nghị dành cho các nhà phát triển phần mềm của Nvidia diễn ra ở thành phố San Jose (bang California, Mỹ) hôm 18.3, Jensen Huang (Giám đốc điều hành Nvidia) cho biết các sản phẩm AI mới của công ty này sẽ cải thiện đáng kể khả năng suy luận cho các mô hình AI như DeepSeek-R1.
Ông mô tả Dynamo, phần mềm suy luận mã nguồn mở mới của Nvidia, là “hệ điều hành của một nhà máy AI”. Theo Nvidia, Dynamo (hiện đã có trên nền tảng mã nguồn mở GitHub) có thể cải thiện hiệu suất lên đến 30 lần trên các bộ xử lý đồ họa (GPU) và kiến trúc hiện có dành cho các tác vụ suy luận AI.
Một bài viết gần đây của công ty cho biết hệ thống Nvidia DGX với tám GPU Blackwell có thể đạt tốc độ suy luận 253 token/giây mỗi người dùng, hoặc đạt thông lượng tối đa hơn 30.000 token/giây trên mô hình DeepSeek-R1 với 671 tỉ tham số. Từ tháng 1 đến nay, đội ngũ Nvidia đã cải thiện thông lượng của R1 lên 36 lần.
1. Trong lĩnh vực AI và xử lý ngôn ngữ tự nhiên (NLP), token là đơn vị ngôn ngữ được sử dụng để phân chia văn bản thành các phần nhỏ hơn, giúp mô hình AI hiểu và xử lý văn bản dễ dàng hơn. Một token có thể là một từ, một ký hiệu, một phần của từ hoặc thậm chí một ký tự, tùy thuộc vào cách hệ thống NLP xử lý văn bản. Token giúp AI hiểu cấu trúc ngữ pháp, ngữ nghĩa và mối quan hệ giữa các từ trong câu. Khi được huấn luyện, mô hình ngôn ngữ lớn học cách dự đoán hoặc xử lý một chuỗi token thay vì xử lý toàn bộ câu hoặc văn bản dài trong một lần.
2. Thông lượng thường đề cập đến số lượng token mà một mô hình AI có thể xử lý một giây.
Thông lượng là thuật ngữ dùng để chỉ lượng dữ liệu hoặc số lượng tác vụ có thể được xử lý trong một khoảng thời gian nhất định. Nó thường được sử dụng trong nhiều lĩnh vực khác nhau như công nghệ, mạng máy tính, sản xuất và AI.
Tại hội nghị nêu trên, Jensen Huang đã trình chiếu video so sánh mô hình ngôn ngữ truyền thống của Meta Platforms với DeepSeek-R1 ở một bài toán sắp xếp chỗ ngồi. Trong khi mô hình của Meta Platforms chỉ sử dụng 439 token nhưng không đưa ra được đáp án đúng, R1 sử dụng 8.559 token nhưng cuối cùng đã tìm ra câu trả lời chính xác sau khi thử nghiệm nhiều kịch bản khác nhau.
Jensen Huang cho rằng các mô hình suy luận sẽ tạo ra nhu cầu tính toán tăng vọt và "định luật mở rộng" (quy tắc cho rằng hệ thống AI càng mạnh khi có nhiều tài nguyên hơn) vẫn sẽ có hiệu quả trong các giai đoạn phát triển AI khác nhau.