Văn phòng tại thành phố Hàng Châu của DeepSeek, công ty khởi nghiệp Trung Quốc đang gây sốt nhất trên thế giới, gần đây ghi nhận ​​một số vị khách không mời cố gắng gặp nhóm chịu trách nhiệm về trí tuệ nhân tạo (AI).
Thế giới số

DeepSeek im ắng dịp Tết Nguyên đán dù mô hình R1 gây chấn động Phố Wall và Thung lũng Silicon

Sơn Vân 18:39 28/01/2025

Văn phòng tại thành phố Hàng Châu của DeepSeek, công ty khởi nghiệp Trung Quốc đang gây sốt nhất trên thế giới, gần đây ghi nhận ​​một số vị khách không mời cố gắng gặp nhóm chịu trách nhiệm về trí tuệ nhân tạo (AI).

DeepSeek đã im ắng trong tuần này khi bước vào những ngày nghỉ lễ để đón Tết Nguyên đán, trong khi những tiến bộ công nghệ gần đây của công ty vẫn tiếp tục gây chấn động Phố Wall và Thung lũng Silicon (Mỹ), thúc đẩy các cuộc thảo luận về chiến lược và mô hình kinh doanh hiện tại của ngành.

Sự vươn lên nhanh chóng của DeepSeek trong lĩnh vực AI đã thu hút sự chú ý trên khắp Thái Bình Dương tuần này với những bình luận từ Tổng thống Mỹ Donald Trump và Sam Altman (đồng sáng lập kiêm Giám đốc điều hành OpenAI), sau khi các cổ phiếu liên quan đến ngành này chứng kiến ​​sự sụt giảm đáng kể hôm 27.1. Sự biến động này dẫn đến mức giảm vốn hóa thị trường lớn nhất trong một ngày từ trước đến nay với Nvidia (gã khổng lồ chip AI).

Tuần trước, DeepSeek ra mắt R1, mô hình AI nguồn mở mạnh mẽ được cho là sử dụng ít dữ liệu hơn với chi phí đào tạo chỉ bằng một phần nhỏ so với các mô hình của các hãng công nghệ hàng đầu Mỹ như OpenAI ("cha đẻ" ChatGPT), Meta Platforms (chủ sở hữu Facebook) và Anthropic. Điều này có thể đánh dấu bước ngoặt trong mức đầu tư cần thiết cho AI.

Thung lũng Silicon rất lo lắng vì trong các bài đánh giá từ bên thứ ba, R1 đã vượt trội mô hình AI của OpenAI, Meta Platforms và Anthropic.

Được vận hành bởi mô hình V3, phiên bản đời trước của R1, ứng dụng AI miễn phí của DeepSeek đã nhanh chóng trở nên phổ biến trong số người dùng tại Mỹ kể từ khi ra mắt vào ngày 10.1, theo Sensor Tower. Sensor Tower là công ty phân tích dữ liệu và nghiên cứu thị trường, chuyên cung cấp thông tin chi tiết về hiệu suất của các ứng dụng di động trên các nền tảng như Apple App Store và Google Play Store.

Cột mốc này nhấn mạnh cách DeepSeek đã để lại ấn tượng sâu sắc tại Thung lũng Silicon, làm lung lay quan niệm phổ biến về sự thống trị của Mỹ trong lĩnh vực AI cùng hiệu quả từ các biện pháp kiểm soát xuất khẩu nhằm vào chip tiên tiến và năng lực AI của Trung Quốc.

Các nhà đầu tư toàn cầu đã bán tháo cổ phiếu công nghệ hôm 27.1 vì lo ngại R1 sẽ đe dọa sự thống trị của các công ty AI hàng đầu. Cổ phiếu Nvidia giảm gần 17% hôm 27.1, khiến vốn hóa thị trường mất 593 tỉ USD, mức giảm kỷ lục trong một ngày với bất kỳ công ty nào ở Phố Wall, theo tập đoàn tài chính và dịch vụ LSEG (London Stock Exchange Group).

Không riêng Nvidia, cổ phiếu các hãng công nghệ Mỹ khác liên quan đến AI cũng giảm sâu, với Broadcom (hãng sản xuất chip có tiếng) giảm 17,4%, Microsoft (nhà đầu tư lớn nhất vào OpenAI) giảm 2,1%, Alphabet (công ty mẹ Google) giảm 4,2%.

Chỉ số bán dẫn Philadelphia (.SOX) đã giảm 9,2%, mức giảm lớn nhất tính theo phần trăm kể từ tháng 3.2020, với cổ phiếu giảm mạnh nhất là Marvell Technology, giảm 19,1%.

Các chỉ số chứng khoán Mỹ sụt giảm sau một đợt bán tháo cổ phiếu bắt đầu tại châu Á, khi cổ phiếu SoftBank (Nhật Bản) giảm 8,3%, và tiếp tục lan sang châu Âu, nơi cổ phiếu ASML (hãng cung cấp thiết bị sản xuất chip lớn nhất thế giới của Hà Lan) giảm 7%.

Tổng thống Trump nói R1 là "lời cảnh tỉnh" với các công ty Mỹ. Trong khi Sam Altman thừa nhận hiệu suất ấn tượng của R1 trên mạng xã hội X. Doanh nhân 39 tuổi người Mỹ gọi R1 là "một mô hình ấn tượng", đặc biệt khi xét đến những gì DeepSeek có thể đạt được với mức chi phí đó. Tuy nhiên, Sam Altman nhấn mạnh rằng OpenAI vẫn sẽ tập trung vào sức mạnh tính toán, coi đây là yếu tố cốt lõi để thực hiện các sứ mệnh dài hạn.

deepseek-im-ang-dip-tet-nguyen-dan-du-mo-hinh-r1-gay-chan-dong-pho-wall-va-thung-lung-silicon.jpg
DeepSeek khi gieo rắc nỗi sợ ở Thung lũng Silicon, khiến vốn hóa thị trường Nvidia giảm kỷ lục trong một ngày - Ảnh: Internet

Gây chấn động thế giới công nghệ nhưng DeepSeek, gồm cả người sáng lập Liang Wenfeng và các nhà khoa học trẻ của công ty, đã tránh xa sự chú ý của công chúng khi Trung Quốc bước vào kỳ nghỉ Tết Nguyên đán kéo dài một tuần.

DeepSeek đã thực hiện bản cập nhật gần nhất lúc nửa đêm 27.1, một ngày trước đêm giao thừa, với việc ra mắt mô hình đa phương thức đầu tiên của mình mang tên Janus-Pro. Phiên bản 7 tỉ tham số của mô hình Janus-Pro tạo hình ảnh vượt trội DALL-E 3 của OpenAI và Stable Diffusion của Stability AI trong các bài kiểm tra tiêu chuẩn, theo báo cáo kỹ thuật của công ty.

Trong chuyến thăm trụ sở chính của công ty sáng 28.1 tại thành phố Hàng Châu (thủ phủ của tỉnh Chiết Giang, phía đông Trung Quốc), tòa nhà văn phòng nơi DeepSeek chiếm một tầng đã bị bỏ hoang, theo phóng viên trang SCMP.

Một nhân viên bảo vệ xác nhận rằng không có ai ở văn phòng DeepSeek hôm nay vì là ngày lễ, nhưng nói thêm rằng đã có rất nhiều vị khách không mời ghé đến hai ngày qua. Tất cả họ đều bị từ chối cho vào, khi một số người đã cố gắng gõ cửa văn phòng công ty khởi nghiệp công nghệ đang gây sốt nhất cả nước.

Không giống các công ty khởi nghiệp công nghệ khác, thường được thành lập tại các công viên công nghệ, tòa nhà cao tầng nơi DeepSeek hoạt động chủ yếu có các công ty thuộc ngành tài chính.

Địa chỉ High-Flyer Quant, quỹ đầu cơ do Liang Wenfeng (nhà sáng lập DeepSeek) sở hữu, nằm trong cùng tòa nhà này.

Một nguồn tin biết về DeepSeek nói với SCMP rằng công ty này rất kín tiếng đến nỗi không có ai phụ trách quan hệ công chúng. Một người khác thân cận với DeepSeek cho biết nhiều nhân viên trẻ rất ngạc nhiên khi thấy cách thế giới phản ứng với các mô hình AI nguồn mở nhưng mạnh mẽ của công ty.

Nhân viên bảo vệ cho biết người của DeepSeek "cực kỳ trẻ và tràn đầy sức sống".

Trong cuộc phỏng vấn với hãng truyền thông 36Kr (Trung Quốc), Liang Wenfeng tiết lộ hầu hết nhà phát triển tại DeepSeek đều là những sinh viên mới tốt nghiệp hoặc mới vào nghề, phù hợp với sở thích của công ty là ưu tiên năng lực hơn kinh nghiệm. Ông nói: "Các vai trò kỹ thuật cốt lõi của chúng tôi chủ yếu là những sinh viên mới tốt nghiệp hoặc những người có một hoặc hai năm kinh nghiệm làm việc".

Trong số các nhân tài AI của DeepSeek, Gao Huazuo và Zeng Wangding là hai người được công ty nêu tên vì đã thực hiện "những đổi mới quan trọng trong nghiên cứu kiến trúc MLA". Kiến trúc MLA (Multi-head Latent Attention) là một dạng kiến trúc trong các mô hình AI, đặc biệt là trong các mô hình ngôn ngữ lớn.

Gao Huazuo tốt nghiệp Đại học Bắc Kinh vào năm 2017 với bằng cử nhân vật lý, trong khi Zeng Wangding bắt đầu học thạc sĩ tại Viện AI của Đại học Bưu chính Viễn thông Bắc Kinh năm 2021. Hai hồ sơ này cho thấy cách tiếp cận khác biệt của DeepSeek trong tuyển dụng tài năng, khi phần lớn các công ty khởi nghiệp AI tại Trung Quốc thường ưu tiên tuyển dụng các nhà nghiên cứu có kinh nghiệm hoặc các tiến sĩ được đào tạo ở nước ngoài, chuyên ngành khoa học máy tính.

Những thành viên chủ chốt khác của đội ngũ DeepSeek gồm Guo Daya (tiến sĩ tốt nghiệp năm 2023 tại Đại học Tôn Trung Sơn), Zhu Qihao và Dai Damai (đều là tiến sĩ mới tốt nghiệp từ Đại học Bắc Kinh).

Một trong những tài năng nổi bật nhất của DeepSeek là Luo Fuli. Luo Fuli đã thu hút sự chú ý khi có thông tin Lei Jun (nhà sáng lập kiêm Giám đốc điều hành Xiaomi) từng đề nghị gói lương lên tới 10 triệu nhân dân tệ mỗi năm (1,4 triệu USD) để mời cô làm việc, nhưng thông tin gần đây cho biết cô vẫn chưa chấp nhận lời mời. Tốt nghiệp thạc sĩ tại Đại học Bắc Kinh, Luo Fuli được truyền thông Trung Quốc gọi là "thần đồng AI".

Đội ngũ "nhân tài AI" của công ty được dẫn dắt bởi nhà sáng lập kín tiếng Liang Wenfeng. Liang Wenfeng là người khiêm tốn nhưng có trực giác và chú ý đến từng chi tiết kỹ thuật, một cựu nhân viên DeepSeek kể cho SCMP với điều kiện giấu tên vì anh không được phép phát biểu công khai.

Ở các cuộc thảo luận nhóm, Liang Wenfeng đôi khi đề xuất giải pháp cho các thành viên trẻ hơn trong đội ngũ của mình bằng cách sử dụng những cụm từ gợi ý thay vì chỉ đạo trực tiếp. Nhiều lần, các thành viên trong đội ngũ nhận ra rằng những gợi ý của Liang Wenfeng đã mang lại hiệu quả. Cựu nhân viên DeepSeek nói thêm rằng Liang Wenfeng giống người cố vấn hơn là ông chủ theo mô hình doanh nghiệp truyền thống.

deepseek-im-ang-dip-tet-nguyen-dan-du-mo-hinh-r1-gay-chan-dong-pho-wall-va-thung-lung-silicon1.jpg
Liang Wenfeng (phải) trong hội thảo ở Trung Quốc hôm 20.1 - Ảnh: CCTV

DeepSeek đe dọa chiến lược tăng trưởng dựa trên GPU của Nvidia

Người dân trên khắp Trung Quốc đã ca ngợi thành công của các mô hình AI DeepSeek, đặc biệt là R1 (ra mắt ngày 20.1), được cho là ngang bằng với hiệu suất o1 của OpenAI, vào bối cảnh cạnh tranh công nghệ gay gắt với Mỹ trong cuộc đua giành quyền thống trị AI.

Các mô hình AI thường cần các chip tiên tiến cho quá trình huấn luyện. Từ năm 2021, chính quyền Biden đã mở rộng phạm vi các lệnh cấm nhằm ngăn những chip tiên tiến được xuất khẩu sang Trung Quốc và sử dụng để đào tạo mô hình AI cho các công ty nước này.

Tuy nhiên, các nhà nghiên cứu DeepSeek viết trong một bài báo vào tháng 12.2024 rằng mô hình V3, phiên bản đời trước R1, được đào tạo trong vòng hai tháng bằng khoảng 2.000 chip Nvidia H800 kém mạnh mẽ hơn, với chi phí chỉ 6 triệu USD. Andrej Karpathy, thành viên sáng lập của OpenAI, đã gọi đây là "ngân sách nực cười".

V3 được DeepSeek đào tạo với lượng tài nguyên ít hơn nhưng vẫn ngang bằng hoặc thậm chí vượt trội về hiệu suất ở một số lĩnh vực so với các mô hình AI từ các công ty Mỹ như Meta Platforms và OpenAI.

Nvidia H800 không phải là loại chip hàng đầu. Ban đầu H800 được Nvidia phát triển như một sản phẩm giảm hiệu năng để vượt qua các hạn chế từ chính quyền Biden với mục đích bán cho thị trường Trung Quốc, song sau đó bị cấm theo lệnh trừng phạt của Mỹ.

Chi phí đào tạo các mô hình DeepSeek tương đối thấp khiến ngành công nghiệp phải đánh giá lại mức độ cần thiết của bộ xử lý đồ họa (GPU) để đào tạo các mô hình AI ngày càng tinh vi hơn.

Wei Sun, nhà phân tích chính về AI tại hãng nghiên cứu thị trường Counterpoint Research, cho biết thành công của DeepSeek thách thức niềm tin rằng các mô hình lớn hơn với nhiều sức mạnh tính toán hơn sẽ mang lại hiệu suất tốt hơn, đe dọa chiến lược tăng trưởng dựa trên GPU của Nvidia.

Bà Wei Sun cho biết: "Nó cũng đặt câu hỏi về sự cần thiết của những khoản đầu tư khổng lồ như dự án Stargate trị giá 500 tỉ USD của Mỹ. Bằng cách đạt được kết quả tiên tiến với ít nguồn lực hơn, DeepSeek làm nổi bật tiềm năng đổi mới hiệu quả thay vì chỉ tập trung vào quy mô, đánh dấu một bước ngoặt trong cuộc đua AI".

Phản hồi về việc vốn hóa thị trường giảm gần 600 tỉ USD hôm 27.1, Nvidia nói rằng thành công của DeepSeek, sử dụng chip hiệu năng thấp hơn dành riêng cho Trung Quốc, chứng minh nhu cầu về phần cứng của công ty.

Sau khi DeepSeek công bố mô hình ngôn ngữ lớn đầu tiên của mình vào năm 2023, hãng truyền thông Latepost (Trung Quốc) đưa tin công ty này đã tích lũy được hơn 10.000 GPU Nvidia. Tháng 7.2024, Liang Wenfeng cho biết DeepSeek không có kế hoạch huy động vốn vì vấn đề với công ty "không bao giờ là tiền, mà là lệnh cấm xuất khẩu các loại chip cao cấp từ Mỹ".

Tuy nhiên, doanh nhân trẻ này quyết tâm đưa ​​Trung Quốc trở thành quốc gia dẫn đầu trong lĩnh vực AI. "Theo những gì chúng ta thấy, AI của Trung Quốc không phải lúc nào cũng có thể theo kịp Mỹ", Liang Wenfeng nói với trang 36Kr vào năm ngoái.

Bài liên quan
Ông trùm AI tại Meta: R1 của DeepSeek cho thấy mô hình AI nguồn mở đang vượt mô hình độc quyền
Thung lũng Silicon rất lo lắng sau khi DeepSeek, công ty khởi nghiệp trí tuệ nhân tạo (AI) Trung Quốc, phát hành mô hình R1 của mình. Trong các bài đánh giá từ bên thứ ba, R1 đã vượt trội mô hình của các công ty AI hàng đầu Mỹ như OpenAI ("cha đẻ" ChatGPT), Meta Platforms (chủ sở hữu Facebook) và Anthropic.

(0) Bình luận
Nổi bật Một thế giới
Tổng Bí thư Tô Lâm: Những điểm mới nhất, tiến bộ nhất sẽ được áp dụng ở Hà Nội
6 giờ trước Sự kiện
"Những điểm mới nhất, tiến bộ nhất sẽ được áp dụng ở Hà Nội. Người dân thực sự được thụ hưởng những thành quả phát triển và những điều tốt nhất", Tổng Bí thư Tô Lâm nhấn mạnh.
Đừng bỏ lỡ
Mới nhất
POWERED BY ONECMS - A PRODUCT OF NEKO
DeepSeek im ắng dịp Tết Nguyên đán dù mô hình R1 gây chấn động Phố Wall và Thung lũng Silicon