Thung lũng Silicon rất lo lắng sau khi DeepSeek, công ty khởi nghiệp trí tuệ nhân tạo (AI) Trung Quốc, phát hành mô hình R1 của mình. Trong các bài đánh giá từ bên thứ ba, R1 đã vượt trội mô hình của các công ty AI hàng đầu Mỹ như OpenAI ("cha đẻ" ChatGPT), Meta Platforms (chủ sở hữu Facebook) và Anthropic.
Với Yann LeCun – Giám đốc Khoa học AI tại Meta Platforms, bài học lớn nhất rút ra từ thành công của DeepSeek không phải mối đe dọa gia tăng do sự cạnh tranh từ Trung Quốc gây ra, mà là giá trị của việc giữ cho các mô hình AI ở dạng nguồn mở để bất kỳ ai cũng có thể hưởng lợi.
"Không phải là AI của Trung Quốc đang vượt qua Mỹ mà là các mô hình nguồn mở đang vượt qua các mô hình độc quyền", Yann LeCun viết trong một bài đăng trên mạng xã hội Threads.
Được mệnh danh là "cha đẻ AI", Yann LeCun đã giành giải thưởng chính VinFuture 2024 trị giá 3 triệu USD cùng 4 nhà khoa học khác, gồm giáo sư Yoshua Bengio (Canada), giáo sư Geoffrey E. Hinton (Canada), Jensen Huang - Giám đốc điều hành kiêm Chủ tịch Nvidia (Mỹ) và giáo sư Fei-Fei Li (Mỹ) vì những đóng góp đột phá để thúc đẩy sự tiến bộ của học sâu (deep learning).
R1 là mô hình AI nguồn mở, tương tự Llama của Meta Platforms. Mặt khác, OpenAI ban đầu được thành lập như một công ty AI nguồn mở với sứ mệnh tạo ra công nghệ mang lại lợi ích cho toàn thể nhân loại, gần đây đã chuyển sang nguồn đóng.
Yann LeCun cho biết DeepSeek đã "hưởng lợi từ nghiên cứu mở và nguồn mở".
"Họ đưa ra những ý tưởng mới và xây dựng chúng dựa trên công trình của những người khác. Vì công trình của họ được công bố là nguồn mở nên mọi người đều có thể hưởng lợi từ nó. Đó là sức mạnh của nghiên cứu mở và nguồn mở", Yann LeCun nhấn mạnh.
Khi giới thiệu R1 vào ngày 20.1 với lời quảng cáo nó "thể hiện khả năng suy luận đáng kinh ngạc", DeepSeek tuyên bố đang "mở rộng ranh giới" của AI nguồn mở.
Thông báo này đã khiến Thung lũng Silicon bất ngờ và trở thành sự kiện được bàn tán nhiều của ngành công nghệ vào một tuần có Diễn đàn Kinh tế thế giới ở thị trấn Davos (Thụy Sĩ), bất ổn liên quan đến TikTok và những ngày đầu bận rộn của Tổng thống Mỹ Donald Trump với nhiệm kỳ thứ hai.
Vài ngày sau thông báo của DeepSeek, Giám đốc điều hành Meta Platforms - Mark Zuckerberg cho biết công ty có kế hoạch chi từ 60 đến 65 tỉ USD vào năm 2025 để tăng cường đầu tư vào AI. Mark Zuckerberg là người ủng hộ mạnh mẽ các mô hình nguồn mở.
"Một phần mục tiêu của tôi trong 10-15 năm tới là xây dựng thế hệ nền tảng mở tiếp theo và để các nền tảng mở giành chiến thắng. Tôi nghĩ rằng điều đó sẽ dẫn đến một ngành công nghiệp công nghệ sôi động hơn nhiều", tỷ phú 40 tuổi người Mỹ nói hồi tháng 9.2024.
Những người ủng hộ nói rằng mã nguồn mở cho phép công nghệ phát triển nhanh chóng và dân chủ hơn vì bất kỳ ai cũng có thể sửa đổi và phân phối lại mã. Trong khi những người ủng hộ các mô hình mã nguồn đóng cho rằng chúng an toàn hơn vì mã được giữ riêng tư.
Giám đốc điều hành OpenAI - Sam Altman nói phương pháp tiếp cận mã nguồn đóng cung cấp cho công ty của ông "một cách dễ dàng hơn để đạt đến ngưỡng an toàn" trong một phiên Ask Me Anything (Hỏi tôi bất cứ điều gì) trên mạng xã hội Reddit vào tháng 11.2024. Tuy nhiên, doanh nhân 39 tuổi người Mỹ nói thêm rằng ông "muốn OpenAI mở mã nguồn nhiều thứ hơn trong tương lai".
DeepSeek dựa vào đội ngũ "thiên tài trẻ" để cạnh tranh với các gã khổng lồ AI Mỹ
DeepSeek, công ty có trụ sở tại thành phố Hàng Châu (Trung Quốc), đã gây bất ngờ cho thế giới công nghệ với các mô hình AI mạnh mẽ được phát triển với ngân sách hạn chế. Theo các nguồn tin nội bộ và các báo cáo từ truyền thông Trung Quốc, DeepSeek đang đặt cược vào “vũ khí bí mật” là đội ngũ các “thiên tài trẻ” để đối đầu với những gã khổng lồ AI giàu có của Mỹ.
Vào ngày 26.12.2024, DeepSeek ra mắt mô hình ngôn ngữ lớn V3, phiên bản thế hệ trước của R1. DeepSeek V3 được đào tạo với lượng tài nguyên ít hơn nhưng vẫn ngang bằng hoặc thậm chí vượt trội về hiệu suất ở một số lĩnh vực so với các mô hình AI từ các công ty Mỹ như Meta Platforms và OpenAI.
Bước đột phá này được đánh giá là quan trọng vì có thể mở ra con đường để Trung Quốc vượt Mỹ về năng lực AI, bất chấp những hạn chế trong việc tiếp cận các chip tiên tiến và nguồn tài chính.
Đằng sau bước đột phá của DeepSeek là nhà sáng lập kín tiếng và một nhóm nghiên cứu mới thành lập, theo cuộc kiểm tra các tác giả được ghi nhận trên báo cáo kỹ thuật mô hình V3, các trang web nghề nghiệp, cuộc phỏng vấn với cựu nhân viên cũng như phương tiện truyền thông địa phương.
Báo cáo kỹ thuật của mô hình V3 được thực hiện bởi 150 nhà nghiên cứu và kỹ sư Trung Quốc, cùng với nhóm 31 người chuyên về nghiên cứu tự động hóa dữ liệu.
DeepSeek V3 được tách ra vào năm 2023 từ High Flyer-Quant, công ty quản lý quỹ đầu tư. Doanh nhân đứng sau DeepSeek là ông Liang Wenfeng, người sáng lập High Flyer-Quant, từng nghiên cứu về AI tại Đại học Chiết Giang. Tên của ông cũng xuất hiện trong báo cáo kỹ thuật.
Trong một cuộc phỏng vấn với trang truyền thông trực tuyến 36Kr vào tháng 5.2023, Liang Wenfeng cho biết hầu hết nhà phát triển tại DeepSeek đều là sinh viên mới tốt nghiệp hoặc những người mới bắt đầu sự nghiệp AI, phù hợp với định hướng ưu tiên năng lực hơn kinh nghiệm của công ty. Liang Wenfeng nói: “Các vai trò kỹ thuật cốt lõi của chúng tôi chủ yếu được đảm nhận bởi những sinh viên mới tốt nghiệp hoặc những người chỉ có từ một đến hai năm kinh nghiệm làm việc”.
Trong số các nhân tài AI của DeepSeek, Gao Huazuo và Zeng Wangding là hai người được công ty nêu tên vì đã thực hiện “những đổi mới quan trọng trong nghiên cứu kiến trúc MLA”.
Kiến trúc MLA (Multi-head Latent Attention) là một dạng kiến trúc trong các mô hình AI, đặc biệt là trong các mô hình ngôn ngữ lớn.
Kiến trúc MLA kết hợp hai khái niệm chính:
Multi-head Attention: Một cơ chế đã được sử dụng phổ biến trong mô hình Transformer, giúp mô hình có thể xử lý nhiều mối quan hệ và thông tin từ các phần khác nhau trong dữ liệu đầu vào.
Latent Representations: Các đặc điểm được trừu tượng hóa từ dữ liệu đầu vào, không còn là dữ liệu gốc mà là các thông tin đại diện cho cấu trúc hoặc ý nghĩa sâu sắc hơn.
Kiến trúc MLA được thiết kế để tối ưu hóa việc sử dụng các cơ chế attention trong không gian tiềm ẩn, thay vì chỉ tập trung vào các đặc điểm bề mặt của dữ liệu.
Gao Huazuo tốt nghiệp Đại học Bắc Kinh vào năm 2017 với bằng cử nhân vật lý, trong khi Zeng Wangding bắt đầu học thạc sĩ tại Viện AI của Đại học Bưu chính Viễn thông Bắc Kinh năm 2021. Hai hồ sơ này cho thấy cách tiếp cận khác biệt của DeepSeek trong tuyển dụng tài năng, khi phần lớn các công ty khởi nghiệp AI tại Trung Quốc thường ưu tiên tuyển dụng các nhà nghiên cứu có kinh nghiệm hoặc các tiến sĩ được đào tạo ở nước ngoài, chuyên ngành khoa học máy tính.
Những thành viên chủ chốt khác của đội ngũ DeepSeek gồm Guo Daya (tiến sĩ tốt nghiệp năm 2023 tại Đại học Tôn Trung Sơn), Zhu Qihao và Dai Damai (đều là tiến sĩ mới tốt nghiệp từ Đại học Bắc Kinh).
Một trong những tài năng nổi bật nhất của DeepSeek là Luo Fuli. Luo Fuli đã thu hút sự chú ý khi có thông tin Lei Jun (nhà sáng lập kiêm Giám đốc điều hành Xiaomi) từng đề nghị gói lương lên tới 10 triệu nhân dân tệ mỗi năm (1,4 triệu USD) để mời cô làm việc, nhưng thông tin gần đây cho biết cô vẫn chưa chấp nhận lời mời. Tốt nghiệp thạc sĩ tại Đại học Bắc Kinh, Luo Fuli được truyền thông Trung Quốc gọi là “thần đồng AI”.
DeepSeek V3 được đào tạo trong vòng hai tháng bằng khoảng 2.000 chip Nvidia H800 kém mạnh mẽ hơn, với chi phí chỉ 6 triệu USD.
Andrej Karpathy, thành viên sáng lập của OpenAI, đã gọi đây là “ngân sách nực cười”. Thành công này đạt được nhờ sự kết hợp giữa các kiến trúc và kỹ thuật đào tạo mới, bao gồm MLA và DeepSeekMoE, theo trang SCMP.
Đội ngũ “nhân tài AI” của công ty được dẫn dắt bởi nhà sáng lập kín tiếng Liang Wenfeng. Liang Wenfeng là người khiêm tốn nhưng có trực giác và chú ý đến từng chi tiết kỹ thuật, một cựu nhân viên DeepSeek kể cho SCMP với điều kiện giấu tên vì anh không được phép phát biểu công khai.
Ở các cuộc thảo luận nhóm, Liang Wenfeng đôi khi đề xuất giải pháp cho các thành viên trẻ hơn trong đội ngũ của mình bằng cách sử dụng những cụm từ gợi ý thay vì chỉ đạo trực tiếp. Nhiều lần, các thành viên trong đội ngũ nhận ra rằng những gợi ý của Liang Wenfeng đã mang lại hiệu quả. Cựu nhân viên DeepSeek nói thêm rằng Liang Wenfeng giống người cố vấn hơn là ông chủ theo mô hình doanh nghiệp truyền thống.
Vào tháng 9.2024, OpenAI đã phát hành mô hình o1 có "khả năng lý luận vượt trội so với các phiên bản trước đó". Ba tháng sau đó, DeepSeek đã tung ra mô hình lý luận tương tự là V3 khiến OpenAI ngỡ ngàng.
Một bản tin trên trang TechCrunch cuối tháng 12.2024 cho rằng DeepSeek có thể đã sử dụng kết quả từ o1 để đào tạo mô hình AI của riêng mình.
"Họ có lẽ là những người đầu tiên tái tạo o1. Tôi đã hỏi nhiều người ở OpenAI xem họ nghĩ gì về điều này. Họ nói DeepSeek V3 trông giống như cùng một thứ với o1, nhưng không biết DeepSeek đã làm điều này nhanh như vậy như thế nào".
Một bản tin trên trang TechCrunch cuối tháng 12.2024 cho rằng DeepSeek có thể đã sử dụng kết quả từ o1 để đào tạo mô hình AI của riêng mình.
"Họ có lẽ là những người đầu tiên tái tạo o1. Tôi đã hỏi nhiều người ở OpenAI xem họ nghĩ gì về điều này. Họ nói DeepSeek V3 trông giống như cùng một thứ với o1, nhưng không biết DeepSeek đã làm điều này nhanh như vậy như thế nào”, một lãnh đạo OpenAI cho hay.
DeepSeek V3 được mô tả có thể xử lý khối lượng lớn công việc và tác vụ thông qua văn bản đầu vào "theo cách thông minh nhất", như lập trình, dịch thuật, viết bài luận và email từ lời nhắc. Mô hình AI này được phát hành miễn phí, có thể sử dụng đa mục đích, gồm cả thương mại.
DeepSeek cho biết trong các thử nghiệm nội bộ, V3 "vượt trội so với các mô hình có thể tải về hiện nay", tính cả mã nguồn mở và nguồn đóng. Trong bản chạy thử trên Codeforces - nền tảng cho các cuộc thi lập trình, DeepSeek V3 vượt qua các mô hình khác như Llama 3.1 405B (405 tỉ tham số) của Meta Platforms, GPT-4o của OpenAI và Qwen 2.5 72B (72 tỉ tham số) của Alibaba.
V3 cũng đánh bại đối thủ cạnh tranh trên Aider Polyglot - bài kiểm tra được thiết kế để đo lường khả năng của các mô hình AI.
DeepSeek giới thiệu V3 được đào tạo trên một tập dữ liệu gồm 14.800 tỉ token. Trong khoa học dữ liệu, token được sử dụng để biểu diễn các bit dữ liệu thô, với 1 triệu token tương đương khoảng 750.000 từ.
Không chỉ có bộ dữ liệu đào tạo đồ sộ, V3 có kích thước khổng lồ với 671 tỉ tham số, lớn hơn khoảng 1,6 lần so với Llama 3.1 405B. Tuy nhiên, DeepSeek cho biết V3 không cần quá nhiều GPU (bộ xử lý đồ họa) để vận hành do sử dụng phần cứng hiệu quả.
Tuy nhiên, trong thử nghiệm của TechCrunch và một số chia sẻ của người dùng trên mạng xã hội, DeepSeek V3 lại tự nhận nó là ChatGPT. Khi được yêu cầu giải thích, V3 khẳng định mình là phiên bản của GPT-4, được OpenAI phát hành năm 2023.
Về câu hỏi liên quan đến API của DeepSeek, V3 lại hướng dẫn cách sử dụng API của OpenAI. Nó thậm chí kể một số câu chuyện cười, những câu đùa dí dỏm theo phong cách GPT-4.
DeepSeek không đề cập đến nguồn dữ liệu đào tạo V3. Tuy nhiên, theo suy đoán của TechCrunch, V3 có thể đang dùng lại các tập dữ liệu công khai chứa văn bản do GPT-4 tạo ra thông qua ChatGPT.