Công ty khởi nghiệp DeepSeek (Trung Quốc) gây chấn động thị trường vào tháng 1 khi công bố mô hình AI nguồn mở có hiệu suất ngang hoặc hơn các sản phẩm tương tự của Mỹ nhưng được đào tạo với chi phí thấp hơn nhiều, dẫn đến đợt bán tháo cổ phiếu trong lĩnh vực công nghệ và bán dẫn.
Nhịp đập khoa học

Tái tạo mô hình AI suy luận của OpenAI chỉ với 450 USD trong 19 giờ bằng kỹ thuật DeepSeek từng dùng

Sơn Vân 23:00 21/02/2025

Công ty khởi nghiệp DeepSeek (Trung Quốc) gây chấn động thị trường vào tháng 1 khi công bố mô hình AI nguồn mở có hiệu suất ngang hoặc hơn các sản phẩm tương tự của Mỹ nhưng được đào tạo với chi phí thấp hơn nhiều, dẫn đến đợt bán tháo cổ phiếu trong lĩnh vực công nghệ và bán dẫn.

Thế nhưng, nỗi sợ hãi ở Thung lũng Silicon (Mỹ) và những đột phá thực sự châm ngòi cho đợt bán tháo cổ phiếu này còn sâu xa hơn nhiều. Thung lũng Silicon đang đối mặt với kỹ thuật phát triển AI có tên distillation (chưng cất), phương pháp có thể làm đảo lộn bảng xếp hạng các mô hình AI hàng đầu.

Chưng cất là quá trình trích xuất kiến thức từ mô hình AI lớn hơn để tạo ra một mô hình nhỏ hơn. Phương pháp này có thể cho phép một nhóm nhỏ với rất ít nguồn lực xây dựng một mô hình AI tiên tiến.

Distillation trong AI là kỹ thuật học máy trong đó một mô hình nhỏ hơn, đơn giản hơn (gọi là student model – mô hình học sinh) được huấn luyện để bắt chước hiệu suất của mô hình lớn hơn, phức tạp hơn (gọi là teacher model – mô hình giáo viên).

Cách hoạt động của distillation

Mô hình giáo viên: Một mô hình AI lớn, mạnh mẽ được huấn luyện trước trên một lượng dữ liệu lớn.

Mô hình học sinh: Một mô hình nhỏ hơn được huấn luyện bằng cách học lại từ đầu ra của mô hình giáo viên thay vì chỉ dựa vào dữ liệu gốc.

Chuyển giao kiến thức: Mô hình học sinh học cách đưa ra các dự đoán tương tự như mô hình giáo viên nhưng với ít tài nguyên tính toán hơn.

Lợi ích của distillation

- Tăng hiệu suất: Giúp tạo ra các mô hình nhỏ gọn hơn nhưng vẫn duy trì độ chính xác cao.

- Tiết kiệm tài nguyên: Giúp AI chạy nhanh hơn trên các thiết bị có tài nguyên hạn chế như điện thoại, IoT (internet vạn vật).

- Bảo mật & tối ưu hóa: Có thể dùng để tạo ra các bản sao tối ưu hóa của mô hình AI mà không cần truy cập trực tiếp vào mô hình gốc.

Mối lo ngại về bảo mật

Distillation có thể được sử dụng để sao chép hoặc tái tạo mô hình AI mạnh mẽ từ các công ty đối thủ, dẫn đến lo ngại về đánh cắp tài sản trí tuệ. Đây là lý do tại sao Mỹ đang lo ngại rằng các công ty Trung Quốc có thể đang sử dụng kỹ thuật này để học từ mô hình AI tiên tiến của OpenAI.

Một hãng công nghệ hàng đầu phải đầu tư hàng tỉ USD trong nhiều năm để phát triển ra mô hình AI tiên tiến từ con số không. Sau đó, một công ty khởi nghiệp như DeepSeek có thể tận dụng và huấn luyện mô hình AI riêng bằng cách đặt câu hỏi cho mô hình lớn hơn. Quá trình này tạo ra một mô hình AI mới có khả năng gần như tương đương mô hình của các công ty lớn nhưng đào tạo nhanh hơn và hiệu quả hơn.

“Kỹ thuật chưng cất này cực kỳ mạnh mẽ và cực kỳ rẻ, dành cho bất kỳ ai”, Ali Ghodsi (Giám đốc điều hành Databricks) nhận định, đồng thời dự đoán rằng sẽ thấy nhiều đổi mới trong cách xây dựng các mô hình ngôn ngữ lớn.

“Chúng ta sẽ chứng kiến cuộc cạnh tranh khốc liệt giữa các mô hình ngôn ngữ lớn. Đó là những gì sẽ diễn ra trong kỷ nguyên mới này”, Ali Ghodsi nói thêm.

Databricks là hãng công nghệ chuyên cung cấp nền tảng dữ liệu và AI dựa trên đám mây, giúp doanh nghiệp xử lý, phân tích dữ liệu lớn và xây dựng mô hình AI hiệu quả hơn.

Dù tuyên bố có bằng chứng rằng DeepSeek đã sử dụng quy trình chưng cất để huấn luyện mô hình của mình dựa trên dữ liệu công ty Mỹ mà không có sự cho phép, OpenAI không có kế hoạch khởi kiện đối thủ.

Sam Altman (Giám đốc điều hành OpenAI) nhấn mạnh công ty sẽ tiếp tục đổi mới và duy trì vị thế dẫn đầu, thay vì vướng vào các tranh chấp pháp lý.

"Không, chúng tôi không có kế hoạch kiện DeepSeek vào thời điểm này. Chúng tôi sẽ tiếp tục xây dựng những sản phẩm tuyệt vời và dẫn đầu thế giới với khả năng mô hình của mình. Tôi nghĩ điều đó sẽ ổn thôi", Sam Altman phát biểu trước báo giới hôm 3.2.

tai-tao-mo-hinh-ai-suy-luan-cua-openai-chi-voi-450-usd-trong-19-gio-bang-ky-thuat-deepseek-tung-dung.jpg
DeepSeek được cho sử dụng kỹ thuật chưng cất để huấn luyện mô hình AI của mình dựa trên dữ liệu OpenAI - Ảnh: Internet

Chưng cất đang giúp các công ty khởi nghiệp và phòng nghiên cứu sở hữu ít vốn có thể cạnh tranh ở trình độ tiên tiến nhanh hơn bao giờ hết.

Nhờ kỹ thuật này, các nhà nghiên cứu tại Đại học California – Berkeley (Mỹ) vào tháng 1 đã tái tạo mô hình suy luận của OpenAI chỉ với 450 USD trong vòng 19 giờ. Ngay sau đó, các nhà nghiên cứu tại Đại học Stanford và Đại học Washington (Mỹ) đã tạo ra mô hình suy luận riêng chỉ trong 26 phút, với chi phí chưa đến 50 USD tiền điện toán.

Công ty khởi nghiệp Hugging Face đã tái tạo Deep Research, tính năng AI mới và ấn tượng của OpenAI, như một thử thách lập trình chỉ trong 24 giờ.

Deep Research là tác tử AI được tối ưu hóa cho duyệt web và phân tích dữ liệu, có khả năng thực hiện nghiên cứu nhiều bước trên internet cho các nhiệm vụ phức tạp mà theo OpenAI, "hoàn thành trong vài chục phút những gì con người phải mất nhiều giờ".

Tác tử AI là hệ thống hoặc chương trình máy tính được thiết kế để thực hiện các tác vụ tự động bằng cách sử dụng AI. Các tác tử AI có khả năng tương tác với môi trường, thu thập thông tin, xử lý dữ liệu, ra quyết định và thực hiện các hành động dựa trên mục tiêu được đặt ra.

Bạn chỉ cần cung cấp một yêu cầu là Deep Research sẽ “tìm kiếm, phân tích và tổng hợp hàng trăm nguồn trực tuyến để tạo ra một báo cáo toàn diện ở cấp độ của nhà phân tích nghiên cứu”.

Deep Research phục vụ cho các chuyên gia trong lĩnh vực tài chính, khoa học, chính sách và kỹ thuật, cung cấp những thông tin chi tiết đáng tin cậy và toàn diện. Tính năng này cũng hữu ích với những người mua sắm đang tìm kiếm các đề xuất được cá nhân hóa về giao dịch mua đòi hỏi phải nghiên cứu cẩn thận, chẳng hạn ô tô, đồ gia dụng và đồ nội thất.

Kết quả gồm các trích dẫn và tóm tắt rõ ràng, giúp dễ dàng xác minh. Về cơ bản, Deep Research giúp tinh giản quá trình nghiên cứu tốn thời gian, cung cấp thông tin chuyên sâu hiệu quả chỉ từ một truy vấn.

Trong loạt bài đăng trên mạng xã hội X, Sam Altman đã mô tả Deep Research là "giống một siêu năng lực, hoạt động như nhóm chuyên gia sẵn sàng hỗ trợ bạn".

Sam Altman cho biết Deep Research có thể "sử dụng internet, thực hiện nghiên cứu, lập luận phức tạp và trả về cho bạn một báo cáo", xử lý các nhiệm vụ "mất nhiều giờ/ngày và tốn hàng trăm USD".

Dù rất tốn nhiều tài nguyên tính toán và hoạt động còn chậm, ông tuyên bố "Deep Research là hệ thống AI đầu tiên có thể thực hiện nhiều nhiệm vụ phức tạp, có giá trị như vậy".

Deep Research mất từ ​​5 đến 30 phút để hoàn thành công việc và bạn sẽ nhận được thông báo khi nghiên cứu xong. Kết quả cuối cùng là một báo cáo được gửi qua ChatGPT.

Hiện báo cáo chỉ có văn bản nhưng OpenAI cho biết trong những tuần tới, họ sẽ thêm hình ảnh nhúng, biểu đồ dữ liệu và các kết quả phân tích khác để tăng thêm độ rõ ràng và ngữ cảnh.

DeepSeek không phát minh ra kỹ thuật chưng cất nhưng đã làm cho thế giới AI nhận ra tiềm năng đột phá của nó. Công ty Trung Quốc này cũng thúc đẩy sự trỗi dậy của chiến lược mã nguồn mở, với niềm tin rằng sự minh bạch và khả năng tiếp cận sẽ thúc đẩy đổi mới nhanh hơn so với nghiên cứu đóng kín.

“Mã nguồn mở luôn chiến thắng trong ngành công nghệ. Không gì có thể đánh bại động lực mà một dự án mã nguồn mở thành công thực sự có thể tạo ra”, theo Arvind Jain, Giám đốc điều hành Glean - công ty tạo ra công cụ tìm kiếm AI cho doanh nghiệp.

Bản thân OpenAI cũng phải điều chỉnh lại chiến lược nguồn đóng của mình sau khi DeepSeek thành công bất ngờ.

“Cá nhân tôi nghĩ rằng chúng tôi đã đứng sai phía của lịch sử và cần phải tìm ra một chiến lược mã nguồn mở khác”, Sam Altman viết trong một bài đăng trên mạng xã hội Reddit vào ngày 31.1.

Sự kết hợp giữa đà phát triển mới của kỹ thuật chưng cất và mã nguồn mở ngày càng phổ biến đang hoàn toàn thay đổi cục diện cạnh tranh trong lĩnh vực AI.

Bài liên quan
Các công ty và chính quyền ở Trung Quốc đổ xô áp dụng mô hình AI DeepSeek, nhiều người sợ mất việc
Hashtag “hỏi DeepSeek liệu công việc của tôi có bị thay thế không” đang thịnh hành trên mạng xã hội Weibo của Trung Quốc, thu hút gần 7,2 triệu lượt xem.

(0) Bình luận
Nổi bật Một thế giới
Cuộc họp Thủ tướng ba nước Việt Nam, Lào, Campuchia
3 giờ trước Sự kiện
Chiều 22.2, nhân dịp tham dự Cuộc gặp giữa ba người đứng đầu ba Đảng Việt Nam, Campuchia và Lào tại TP.HCM, Thủ tướng Chính phủ Phạm Minh Chính đã có cuộc gặp làm việc với Thủ tướng Campuchia Hun Manet và Thủ tướng Lào Sonexay Siphandone nhằm quán triệt các nội dung thỏa thuận tại kết luận của cuộc gặp giữa ba người đứng đầu ba đảng.
Đừng bỏ lỡ
Mới nhất
POWERED BY ONECMS - A PRODUCT OF NEKO
Tái tạo mô hình AI suy luận của OpenAI chỉ với 450 USD trong 19 giờ bằng kỹ thuật DeepSeek từng dùng