Nhịp đập khoa học

Alibaba phát hành mô hình AI Qwen 2.5-Max mùng 1 Tết, tuyên bố vượt trội DeepSeek-V3 và GPT-4o

Sơn Vân • 29/01/2025 18:32

Gã khổng lồ thương mại điện tử Alibaba (Trung Quốc) hôm 29.1 đã phát hành Qwen 2.5-Max, phiên bản mới của mô hình trí tuệ nhân tạo Qwen 2.5, mà họ tuyên bố vượt trội DeepSeek-V3.

V3 của công ty khởi nghiệp DeepSeek (Trung Quốc) là mô hình trí tuệ nhân tạo (AI) nguồn mở, mạnh mẽ với chi phí đào tạo thấp đang được đánh giá cao.

Thời điểm phát hành Qwen 2.5-Max vào mùng 1 Tết Nguyên đán, khi hầu hết người dân Trung Quốc nghỉ làm và quây quần bên gia đình, cho thấy áp lực từ sự trỗi dậy mạnh mẽ của DeepSeek trong ba tuần qua không chỉ đè nặng lên các các công ty nước ngoài mà còn lên cả những đối thủ trong nước.

"Qwen 2.5-Max vượt trội gần như trên mọi phương diện so với GPT-4o, DeepSeek-V3 và Llama-3.1-405B", Alibaba Cloud (đơn vị điện toán đám mây của Alibaba) thông báo trên tài khoản WeChat chính thức. GPT-4o và Llama-3.1-405B lần lượt là mô hình AI tiên tiến của OpenAI ("cha đẻ" ChatGPT) và Meta Platforms (chủ sở hữu Facebook).

alibaba-phat-hanh-mo-hinh-ai-qwen-2-5-max-vao-mung-1-tet-tuyen-bo-vuot-troi-deepseek-v3.jpg — Alibaba Cloud tuyên bố Qwen 2.5-Max vượt trội gần như trên mọi phương diện so với DeepSeek-V3 - Ảnh: Internet

Việc DeepSeek phát hành trợ lý AI vào ngày 10.1 (vận hành dựa trên V3) cùng mô hình R1 ngày 20.1 làm chấn động Thung lũng Silicon (Mỹ) và khiến cổ phiếu nhiều hãng công nghệ lao dốc. Chi phí phát triển rẻ hơn và sử dụng chip Nvidia hiệu suất thấp hơn của DeepSeek khiến các nhà đầu tư đặt câu hỏi về kế hoạch chi tiêu khổng lồ từ các công ty AI hàng đầu ở Mỹ.

Trợ lý AI miễn phí của DeepSeek nhanh chóng trở nên phổ biến trong số người dùng kể từ khi ra mắt và đứng đầu bảng xếp hạng ứng dụng được đánh gia cao trên Apple App Store ở Mỹ, theo hãng phân tích Sensor Tower.

R1, mô hình AI nguồn mở mới nhất của DeepSeek được cho là sử dụng ít dữ liệu hơn với chi phí đào tạo chỉ bằng một phần nhỏ so với mô hình của các hãng công nghệ hàng đầu Mỹ như OpenAI, Meta Platforms và Anthropic. Điều này có thể đánh dấu bước ngoặt trong mức đầu tư cần thiết cho AI.

Thung lũng Silicon rất lo lắng vì trong các bài đánh giá từ bên thứ ba, R1 đã vượt trội mô hình AI của OpenAI, Meta Platforms và Anthropic. Cột mốc này nhấn mạnh cách DeepSeek đã để lại ấn tượng sâu sắc tại Thung lũng Silicon, làm lung lay quan niệm phổ biến về sự thống trị của Mỹ trong lĩnh vực AI cùng hiệu quả từ các biện pháp kiểm soát xuất khẩu nhằm vào chip tiên tiến và năng lực AI của Trung Quốc.

Tuy nhiên, thành công của DeepSeek cũng khiến các đối thủ ở Trung Quốc gấp rút nâng cấp mô hình AI riêng.

Hai ngày sau khi DeepSeek-R1 ra mắt, ByteDance (công ty mẹ TikTok) đã phát hành bản cập nhật cho mô hình AI hàng đầu của mình, tuyên bố rằng nó vượt trội o1 của OpenAI trong AIME, bài kiểm tra đánh giá khả năng hiểu và phản hồi các hướng dẫn phức tạp của AI.

Trước đó, DeepSeek cho biết R1 có thể cạnh tranh với o1 trên một số tiêu chí hiệu suất.

DeepSeek cạnh tranh với các đối thủ trong nước

DeepSeek-V2, phiên bản đời trước V3, đã châm ngòi cho một cuộc chiến giá AI tại Trung Quốc sau khi ra mắt vào tháng 5.2024.

Việc DeepSeek-V2 là mã nguồn mở và có giá cực rẻ, chỉ 1 nhân dân tệ (0,14 USD) cho mỗi 1 triệu token (đơn vị dữ liệu mà mô hình AI xử lý), khiến Alibaba Cloud thông báo giảm giá tới 97% cho hàng loạt mô hình AI.

Các hãng công nghệ Trung Quốc khác cũng nhanh chóng hưởng ứng, gồm Baidu (ra mắt chatbot AI đầu tiên của Trung Quốc vào tháng 3.2023 để cạnh tranh với ChatGPT) và Tencent (hãng internet giá trị nhất Trung Quốc).

Trong cuộc phỏng vấn với hãng truyền thống Waves (Trung Quốc) vào tháng 7.2024, Liang Wenfeng (nhà sáng lập kín tiếng của DeepSeek) tuyên bố công ty này "không quan tâm" đến các cuộc chiến giá cả và mục tiêu chính là đạt được AGI (trí tuệ nhân tạo tổng quát). OpenAI định nghĩa AGI là các hệ thống tự động có thể vượt qua con người trong hầu hết nhiệm vụ có giá trị kinh tế.

Trong khi tập đoàn công nghệ lớn Trung Quốc như Alibaba có hàng trăm nghìn nhân viên, DeepSeek hoạt động như một phòng thí nghiệm nghiên cứu, chủ yếu tuyển dụng sinh viên tốt nghiệp và nghiên cứu sinh tiến sĩ từ các trường đại học hàng đầu Trung Quốc.

Trong cuộc phỏng vấn vào tháng 7.2024, Liang Wenfeng cho rằng các hãng công nghệ lớn Trung Quốc có thể không phù hợp với tương lai của ngành AI, vì chi phí cao và cấu trúc quản lý từ trên xuống, còn DeepSeek vận hành tinh gọn và theo phong cách quản lý linh hoạt.

"Các mô hình AI nền tảng lớn đòi hỏi sự đổi mới liên tục, nhưng khả năng của các tập đoàn công nghệ lớn có giới hạn", ông nhấn mạnh.

Trong cuộc phỏng vấn với hãng truyền thông 36Kr (Trung Quốc) hồi tháng 5.2024, Liang Wenfeng tiết lộ hầu hết nhà phát triển tại DeepSeek đều là những sinh viên mới tốt nghiệp hoặc mới vào nghề, phù hợp với sở thích của công ty là ưu tiên năng lực hơn kinh nghiệm. Ông nói: "Các vai trò kỹ thuật cốt lõi của chúng tôi chủ yếu là những sinh viên mới tốt nghiệp hoặc những người có một hoặc hai năm kinh nghiệm làm việc".

Trong số các nhân tài AI của DeepSeek, Gao Huazuo và Zeng Wangding là hai người được công ty nêu tên vì đã thực hiện "những đổi mới quan trọng trong nghiên cứu kiến trúc MLA".

Kiến trúc MLA (Multi-head Latent Attention) là một dạng kiến trúc trong các mô hình AI, đặc biệt là trong các mô hình ngôn ngữ lớn.

Gao Huazuo tốt nghiệp Đại học Bắc Kinh vào năm 2017 với bằng cử nhân vật lý, trong khi Zeng Wangding bắt đầu học thạc sĩ tại Viện AI của Đại học Bưu chính Viễn thông Bắc Kinh năm 2021. Hai hồ sơ này cho thấy cách tiếp cận khác biệt của DeepSeek trong tuyển dụng tài năng, khi phần lớn các công ty khởi nghiệp AI tại Trung Quốc thường ưu tiên tuyển dụng các nhà nghiên cứu có kinh nghiệm hoặc các tiến sĩ được đào tạo ở nước ngoài, chuyên ngành khoa học máy tính.

Những thành viên chủ chốt khác của đội ngũ DeepSeek gồm Guo Daya (tiến sĩ tốt nghiệp năm 2023 tại Đại học Tôn Trung Sơn), Zhu Qihao và Dai Damai (đều là tiến sĩ mới tốt nghiệp từ Đại học Bắc Kinh).

Một trong những tài năng nổi bật nhất của DeepSeek là Luo Fuli. Luo Fuli đã thu hút sự chú ý khi có thông tin Lei Jun (nhà sáng lập kiêm Giám đốc điều hành Xiaomi) từng đề nghị gói lương lên tới 10 triệu nhân dân tệ mỗi năm (1,4 triệu USD) để mời cô làm việc, nhưng thông tin gần đây cho biết cô vẫn chưa chấp nhận lời mời. Tốt nghiệp thạc sĩ tại Đại học Bắc Kinh, Luo Fuli được truyền thông Trung Quốc gọi là "thần đồng AI".

Đội ngũ "nhân tài AI" của công ty được dẫn dắt bởi nhà sáng lập kín tiếng Liang Wenfeng. Liang Wenfeng là người khiêm tốn nhưng có trực giác và chú ý đến từng chi tiết kỹ thuật, một cựu nhân viên DeepSeek kể cho SCMP với điều kiện giấu tên vì anh không được phép phát biểu công khai.

Ở các cuộc thảo luận nhóm, Liang Wenfeng đôi khi đề xuất giải pháp cho các thành viên trẻ hơn trong đội ngũ của mình bằng cách sử dụng những cụm từ gợi ý thay vì chỉ đạo trực tiếp. Nhiều lần, các thành viên trong đội ngũ nhận ra rằng những gợi ý của Liang Wenfeng đã mang lại hiệu quả. Cựu nhân viên DeepSeek nói thêm rằng Liang Wenfeng giống người cố vấn hơn là ông chủ theo mô hình doanh nghiệp truyền thống.

deepseek-im-ang-dip-tet-nguyen-dan-du-mo-hinh-r1-gay-chan-dong-pho-wall-va-thung-lung-silicon1.jpg — Liang Wenfeng (phải) trong hội thảo ở Trung Quốc hôm 20.1 - Ảnh: CCTV

Microsoft và quan chức AI ở Nhà Trắng nghi DeepSeek thu thập trái phép dữ liệu của OpenAI

Microsoft đang điều tra liệu dữ liệu đầu ra từ công nghệ của OpenAI có bị thu thập trái phép bởi một nhóm liên kết với DeepSeek hay không, trang Bloomberg đưa tin. Microsoft là nhà đầu tư lớn nhất vào OpenAI (khoảng 13 tỉ USD).

Vào mùa thu năm ngoái, các nhà nghiên cứu bảo mật thuộc Microsoft đã phát hiện các cá nhân mà họ tin rằng có liên quan đến DeepSeek đang trích xuất lượng lớn dữ liệu bằng cách sử dụng giao diện lập trình ứng dụng (API) của OpenAI, theo Bloomberg.

API của OpenAI là cách chính để các nhà phát triển phần mềm và khách hàng doanh nghiệp mua dịch vụ của công ty khởi nghiệp AI này. Chẳng hạn, nếu một công ty hoặc lập trình viên muốn sử dụng công nghệ của OpenAI như GPT, họ thường mua và truy cập thông qua API chứ không trực tiếp cài đặt hay sở hữu mô hình AI.

Microsoft đã thông báo cho OpenAI về hoạt động đáng ngờ này, Bloomberg đưa tin.

Microsoft từ chối bình luận. OpenAI không phản hồi ngay lập tức câu hỏi của Reuters. Reuters cũng không thể liên lạc ngay được với DeepSeek để tìm kiếm bình luận.

OpenAI cho biết các công ty Trung Quốc đang liên tục cố gắng khai thác công nghệ của những đối thủ Mỹ nhằm cải thiện các mô hình AI của họ.

"Là nhà phát triển AI hàng đầu, chúng tôi thực hiện các biện pháp đối phó để bảo vệ tài sản trí tuệ (IP), gồm cả một quy trình cẩn trọng để quyết định những năng lực tiên tiến nào sẽ được đưa vào các mô hình phát hành. Chúng tôi tin rằng, khi tiến về phía trước, điều quan trọng là chúng tôi phải hợp tác chặt chẽ với chính phủ Mỹ để bảo vệ tốt nhất các mô hình tiên tiến nhất khỏi nỗ lực của kẻ thù và đối thủ cạnh tranh nhằm chiếm đoạt công nghệ Mỹ", OpenAI tuyên bố.

OpenAI đưa ra bình luận này sau khi Nhà Trắng cho biết đang đánh giá những lo ngại về an ninh quốc gia có thể phát sinh từ DeepSeek.

Hội đồng An ninh Quốc gia đang xem xét các tác động của ứng dụng AI do DeepSeek cung cấp, theo Thư ký báo chí Nhà Trắng - Karoline Leavitt. "Đây là một lời cảnh tỉnh cho ngành AI của Mỹ", bà Karoline Leavitt lặp lại tuyên bố của ông Trump một ngày trước đó, đồng thời cho biết Nhà Trắng đang làm việc để "đảm bảo sự thống trị của AI Mỹ."

Khi được hỏi trên Fox News liệu sự thăng tiến của DeepSeek có liên quan đến hành vi đánh cắp tài sản trí tuệ hay không, David Sacks (quan chức Nhà Trắng phụ trách AI và tiền điện tử) đáp: "Chà, điều đó có thể xảy ra. Có một kỹ thuật trong AI gọi là distillation mà bạn sẽ nghe nói rất nhiều. Đây là quá trình một mô hình học hỏi từ một mô hình khác".

"Tôi nghĩ rằng trong vài tháng tới, các công ty AI hàng đầu của chúng tôi sẽ thực hiện các biện pháp để ngăn chặn distillation... Điều đó chắc chắn sẽ làm chậm lại sự phát triển của các mô hình bắt chước", David Sacks nói thêm.

Distillation trong AI là kỹ thuật học máy trong đó một mô hình nhỏ hơn, đơn giản hơn (gọi là student model – mô hình học sinh) được huấn luyện để bắt chước hiệu suất của mô hình lớn hơn, phức tạp hơn (gọi là teacher model – mô hình giáo viên).

Hôm 27.1, ông Trump nói ứng dụng AI của DeepSeek là động lực thúc đẩy các công ty Mỹ và cho rằng việc Trung Quốc tìm ra phương pháp phát triển AI nhanh hơn, rẻ hơn là điều tốt.

"Việc công ty Trung Quốc phát hành AI DeepSeek nên là lời cảnh tỉnh cho ngành công nghiệp của Mỹ rằng chúng ta cần tập trung tối đa vào cạnh tranh để giành chiến thắng", ông Trump nói.

David Sacks nói với Fox News hôm 28.1 rằng các công ty AI của Mỹ đã "bị xao lãng" và "có thể trở nên hơi tự mãn."

Theo Tổng thống Trump, các lãnh đạo Trung Quốc từng nói với ông rằng Mỹ có những nhà khoa học xuất sắc nhất thế giới. Ông cũng cho rằng nếu ngành công nghiệp Trung Quốc có thể phát triển công nghệ AI rẻ hơn thì các công ty Mỹ cũng sẽ làm theo.

"Chúng ta luôn có ý tưởng. Chúng ta luôn đi đầu. Vì vậy, tôi nghĩ rằng đây có thể là một bước phát triển rất tích cực. Thay vì bỏ ra hàng tỉ USD, bạn sẽ chi ít hơn và hy vọng đạt được kết quả tương tự", ông Trump nhấn mạnh.

Sơn Vân