Dấu hiệu báo động OpenAI, Google khi mô hình AI mới không thông minh như mong đợi
Nhịp đập khoa học - Ngày đăng : 11:45, 15/11/2024
Dấu hiệu báo động OpenAI, Google khi mô hình AI mới không thông minh như mong đợi
Mô hình ngôn ngữ lớn tiếp theo của OpenAI có thể không mạnh mẽ như nhiều người hy vọng.
Có tên mã là Orion, mô hình trí tuệ nhân tạo (AI) này đang hoạt động kém hiệu quả phía sau hậu trường, cho thấy mức cải tiến ít hơn khi so sự phát triển của GPT-4 với GPT-3, Bloomberg đưa tin. Một bản tin tương tự từ trang The Information cũng chỉ ra một số nhà nghiên cứu OpenAI tin rằng trong một số lĩnh vực như lập trình, Orion không có cải tiến nào cả.
Theo Bloomberg, OpenAI không phải là công ty duy nhất đang gặp khó khăn với vấn đề mô hình AI mới hoạt động không hiệu quả như mong đợi. Phiên bản tiếp theo của Google Gemini cũng không đạt được kỳ vọng nội bộ, trong khi thời gian Anthropic ra mắt Claude 3.5 Opus vẫn chưa rõ ràng.
Những khó khăn trong ngành này có thể là dấu hiệu cho thấy phương pháp cải tiến mô hình AI hiện tại, thông qua việc "mở rộng quy mô", đang gặp phải rào cản. Điều đó báo hiệu những khó khăn kinh tế tiềm tàng trong tương lai nếu vẫn tốn kém để phát triển mô hình AI mà không đạt được bước nhảy vọt đáng kể về hiệu suất hướng tới việc xây dựng AI tổng quát (AGI).
"Bong bóng AGI đang vỡ một chút", Margaret Mitchell, nhà khoa học đạo đức chính tại công ty khởi nghiệp Hugging Face, nói với Bloomberg, đồng thời cho rằng cần có "các phương pháp đào tạo khác nhau" để tiếp cận bất kỳ cấp độ thông minh và tính linh hoạt giống con người.
Phương châm đã mang lại thành công cho AI tạo sinh đến nay là tăng quy mô: Để làm cho mô hình AI tạo sinh mạnh hơn, cách chính là làm nó lớn hơn. Điều này có nghĩa là tăng thêm sức mạnh xử lý bằng chip AI như của Nvidia và thêm dữ liệu đào tạo (phần lớn được lấy từ web với chi phí thấp).
Song khi những mô hình AI này trở nên lớn hơn và mạnh mẽ hơn, chúng cũng trở nên "khát" năng lượng hơn. Năng lượng đó không rẻ. Chẳng hạn, Microsoft và Constellation Energy vừa có kế hoạch khởi động lại nhà máy điện hạt nhân Three Mile Island, hy vọng có được nguồn năng lượng thân thiện với môi trường đủ mạnh để cung cấp cho các trung tâm dữ liệu đang mở rộng nhanh chóng phục vụ AI. Không những thế, nguồn dữ liệu đào tạo miễn phí cũng đang cạn dần.
Để có dữ liệu "bộ não" mới cho AI, các hãng công nghệ đang sử dụng dữ liệu tổng hợp do máy tính tạo ra. "Tuy nhiên, họ vẫn phải vật lộn để có được các tập dữ liệu độc đáo, chất lượng cao mà không cần sự hướng dẫn của con người, đặc biệt là khi nói đến ngôn ngữ", Lila Tretikov, người đứng đầu chiến lược AI tại hãng New Enterprise Associates, chia sẻ với Bloomberg.
New Enterprise Associates (NEA) là một trong những công ty đầu tư mạo hiểm lớn và lâu đời nhất tại Mỹ. NEA thường đầu tư vào các công ty ở giai đoạn đầu hoặc trung hạn, cung cấp cả vốn và tư vấn chiến lược để giúp các công ty tăng trưởng mạnh mẽ. Các khoản đầu tư nổi bật của NEA gồm 23andMe, Cloudflare, Duolingo và Robinhood, những cái tên nổi bật trong các lĩnh vực công nghệ và dịch vụ tài chính hiện nay.
Dario Amodei, Giám đốc điều hành Anthropic, cho biết một mô hình AI tiên tiến hiện có giá xây dựng khoảng 100 triệu USD và ước tính rằng đến năm 2027, chúng có thể đắt hơn 10 tỉ USD.
Thời kỳ hoàng kim đã qua?
Năm nay, Anthropic đã cập nhật các mô hình Claude, nhưng đáng chú ý là không có Opus, với các tài liệu tham khảo về ngày phát hành trong tương lai gần cho mô hình này bị xóa khỏi trang web công ty.
Giống tại OpenAI, các nhà nghiên cứu Anthropic cũng quan sát thấy chỉ có những cải tiến nhỏ trên Opus dù kích thước và chi phí để xây dựng và vận hành nó rất lớn, theo một nguồn tin của Bloomberg.
Tương tự như vậy, Gemini của Google đang không đạt được mục tiêu, theo Bloomberg. Google đã không công bố nhiều cải tiến lớn cho mô hình ngôn ngữ lớn của mình trong thời gian này.
Rõ ràng đây không phải là những thách thức không thể vượt qua. Song ngày càng có vẻ rằng ngành AI sẽ không còn duy trì được tốc độ tiến bộ như trong thập kỷ vừa qua.
"Chúng tôi đã rất phấn khích với một giai đoạn ngắn ngủi của sự tiến bộ nhanh chóng. Tuy nhiên, điều đó không thể duy trì được nữa", Noah Giansiracusa, phó giáo sư toán học tại Đại học Bentley ở bang Massachusetts (Mỹ), nói với Bloomberg.
OpenAI và nhiều công ty tìm cách mới giúp AI thông minh hơn khi phương pháp hiện tại gặp hạn chế
OpenAI cùng các công ty AI khác đang tìm cách vượt qua những sự chậm trễ và thách thức không ngờ trong quá trình tạo ra mô hình ngôn ngữ ngày càng lớn hơn, bằng cách phát triển kỹ thuật đào tạo sử dụng phương pháp giống con người hơn để các thuật toán có thể "suy luận".
Hàng chục nhà khoa học, nhà nghiên cứu và nhà đầu tư AI nói với Reuters rằng họ tin rằng những kỹ thuật này, vốn là nền tảng cho mô hình ngôn ngữ lớn o1 được OpenAI phát hành gần đây, có thể định hình lại cuộc đua AI và tác động đến các loại tài nguyên mà một số công ty đòi hỏi ngày càng cao, từ năng lượng đến chip.
Sau khi OpenAI trình làng chatbot ChatGPT cách đây hai năm, các hãng công nghệ (được hưởng lợi rất lớn từ cơn sốt AI) cho rằng việc bổ sung dữ liệu và sức mạnh tính toán sẽ dẫn đến những mô hình AI ngày càng cải tiến. Song hiện tại, một số nhà khoa học AI nổi tiếng nhất đang lên tiếng về những hạn chế của triết lý "càng lớn càng tốt" này.
Ilya Sutskever, đồng sáng lập OpenAI và Safe Superintelligence, gần đây nói với Reuters rằng kết quả từ việc mở rộng quy mô tiền đào tạo (giai đoạn đào tạo mô hình AI sử dụng lượng lớn dữ liệu chưa được gắn nhãn để hiểu các mẫu và cấu trúc ngôn ngữ) đã đạt đến giới hạn.
Ilya Sutskever, cựu Giám đốc khoa học OpenAI, là người ủng hộ sớm cho việc đạt được những bước tiến vượt bậc trong AI tạo sinh thông qua việc sử dụng nhiều dữ liệu và sức mạnh tính toán hơn trong giai đoạn tiền đào tạo, điều này cuối cùng đã tạo ra ChatGPT. Ilya Sutskever rời OpenAI hồi tháng 5 để thành lập Safe Superintelligence.
"Những năm 2010 là thời đại của việc mở rộng quy mô, giờ đây chúng ta quay trở lại thời đại của sự ngạc nhiên và khám phá một lần nữa. Nhiều người đang tìm kiếm điều mới mẻ tiếp theo. Việc mở rộng đúng hướng quan trọng hơn bao giờ hết", ông nhấn mạnh.
Ilya Sutskever từ chối chia sẻ thêm chi tiết về cách đội ngũ của ông giải quyết vấn đề này, ngoài việc cho biết SSI đang nghiên cứu một phương pháp tiếp cận thay thế để mở rộng quy mô tiền đào tạo.
Đằng sau hậu trường, nhà nghiên cứu tại các phòng thí nghiệm AI lớn đã gặp phải sự chậm trễ và kết quả đáng thất vọng trong cuộc đua tung ra mô hình ngôn ngữ lớn vượt trội hơn GPT-4 (gần hai năm tuổi) của OpenAI, theo ba nguồn tin quen thuộc với các vấn đề nội bộ.
Việc "chạy đào tạo" cho các mô hình lớn có thể tốn hàng chục triệu USD do phải dùng cùng lúc hàng trăm chip AI. Điều này dễ gặp trục trặc do phần cứng phức tạp, các nhà nghiên cứu có thể không biết hiệu suất cuối cùng của mô hình cho đến khi kết thúc quá trình "chạy đào tạo", có thể mất nhiều tháng.
Một vấn đề khác là các mô hình ngôn ngữ lớn chiếm lượng lớn dữ liệu và gần như cạn kiệt dữ liệu dễ truy cập trên thế giới. Tình trạng thiếu điện cũng cản trở các lần "chạy đào tạo", vì quá trình này cần rất nhiều năng lượng.
Để vượt qua những thách thức đó, các nhà nghiên cứu đang khám phá test-time compute, kỹ thuật cải thiện các mô hình AI hiện có trong giai đoạn được gọi là "suy luận" hoặc khi mô hình đang được sử dụng. Ví dụ, thay vì chọn ngay một câu trả lời duy nhất, mô hình AI có thể tạo và đánh giá nhiều khả năng cùng lúc, cuối cùng chọn cách tối ưu.
Phương pháp này cho phép các mô hình AI dành nhiều sức mạnh xử lý hơn cho nhiệm vụ phức tạp như vấn đề toán học, lập trình, hoặc hoạt động đòi hỏi lý luận và ra quyết định giống con người.
"Hóa ra chỉ cần để bot suy nghĩ trong 20 giây khi chơi một ván poker cũng đem lại hiệu suất tương đương với việc mở rộng mô hình lên 100.000 lần và đào tạo nó lâu gấp 100.000 lần", Noam Brown, nhà nghiên cứu tại OpenAI, nói tại hội nghị TED AI ở thành phố San Francisco (Mỹ) tháng trước.
OpenAI đã áp dụng kỹ thuật này trong mô hình ngôn ngữ lớn o1.
Mô hình o1 có thể "suy nghĩ" về các vấn đề theo nhiều bước, tương tự lý luận của con người. Nó cũng sử dụng dữ liệu và phản hồi được tuyển chọn từ các tiến sĩ và chuyên gia trong ngành. Bí quyết của o1 là bộ đào tạo khác được thực hiện trên các mô hình nền tảng, chẳng hạn GPT-4. OpenAI có kế hoạch áp dụng kỹ thuật này với nhiều mô hình nền tảng lớn hơn.
Theo OpenAI, o1 vượt trội hơn mô hình ngôn ngữ lớn khác trong các nhiệm vụ nặng về mặt lý luận ở lĩnh vực khoa học, lập trình và toán học.
Nhà nghiên cứu tại các phòng thí nghiệm AI hàng đầu khác, từ Anthropic, xAI và Google DeepMind, đã làm việc để phát triển phiên bản kỹ thuật của riêng họ, theo 5 người quen thuộc với những nỗ lực này.
"Chúng tôi thấy có rất nhiều thứ dễ thực hiện để cải thiện các mô hình AI nhanh chóng. Đến khi mọi người bắt kịp, chúng tôi sẽ cố gắng đi trước ba bước nữa", Kevin Weil, Giám đốc sản phẩm OpenAI, nói tại một hội nghị công nghệ vào tháng 10.
Google và xAI không phản hồi câu hỏi của Reuters, còn Anthropic chưa bình luận ngay lập tức.
Những tác động này có thể làm thay đổi cục diện cạnh tranh trong thị trường phần cứng AI, vốn bị chi phối bởi nhu cầu lớn về chip AI của Nvidia.
Các nhà đầu tư mạo hiểm nổi tiếng, từ Sequoia đến Andreessen Horowitz, đã đổ hàng tỉ USD để tài trợ cho quá trình phát triển tốn kém mô hình AI tại nhiều phòng thí nghiệm, gồm cả OpenAI và xAI. Họ đang chú ý đến sự chuyển đổi này và cân nhắc tác động đến các khoản đầu tư đắt đỏ của mình.
"Sự thay đổi này sẽ đưa chúng ta từ một thế giới của các cụm đào tạo trước khổng lồ sang các đám mây suy luận, là những máy chủ phân tán dựa trên đám mây để suy luận", Sonya Huang, đối tác tại công ty đầu tư mạo hiểm nổi tiếng Sequoia Capital, nói với Reuters.
Nhu cầu với chip AI của Nvidia, vốn là công nghệ tiên tiến nhất, đã thúc đẩy họ vươn lên trở thành công ty có giá trị nhất thế giới, vượt qua Apple. Không giống chip đào tạo mà Nvidia đang thống trị, công ty Mỹ này có thể phải đối mặt với nhiều sự cạnh tranh hơn trên thị trường suy luận.
Khi được hỏi về tác động có thể xảy ra liên quan nhu cầu với các sản phẩm của mình, Nvidia đã chỉ ra các bài thuyết trình gần đây về tầm quan trọng của kỹ thuật đằng sau mô hình o1. Jensen Huang, Giám đốc điều hành Nvidia, nói về nhu cầu ngày càng tăng với việc sử dụng chip AI của công ty để suy luận.
"Chúng tôi đã phát hiện ra một quy luật mở rộng thứ hai và đây là quy luật mở rộng tại thời điểm suy luận... Tất cả những yếu tố này đã dẫn đến nhu cầu về Blackwell trở nên cực kỳ cao", Jensen Huang nói vào tháng 10 tại một hội nghị ở Ấn Độ, ám chỉ đến dòng chip AI mới nhất của công ty.