Các chuyên trang AI đánh giá đối thủ cạnh tranh với ChatGPT từ Meta vừa rò rỉ trực tuyến
Nhịp đập khoa học - Ngày đăng : 12:22, 09/03/2023
Hôm 24.2, Meta Platforms cho biết đã phát hành một mô hình ngôn ngữ lớn mới mang tên LlaMA, phần mềm cốt lõi của AI mới. Động thái này làm nóng cuộc chạy đua AI khi các hãng công nghệ lớn đổ xô tích hợp công nghệ này vào sản phẩm của họ, gây ấn tượng với các nhà đầu tư.
Cuộc chiến để thống trị không gian công nghệ AI đã bắt đầu vào cuối năm 2022 với việc công ty khởi nghiệp OpenAI (Mỹ) được Microsoft hậu thuẫn ra mắt ChatGPT, khiến các đối thủ nặng ký trong lĩnh vực công nghệ từ Alphabet đến Baidu (Trung Quốc) tung ra các dịch vụ riêng.
LlaMA (Large Language Model Meta AI) sẽ được Meta Platforms cung cấp theo giấy phép phi thương mại cho các nhà nghiên cứu và các tổ chức liên kết với chính phủ, xã hội dân sự và học viện, công ty cho biết trên blog.
Các mô hình ngôn ngữ lớn khai thác lượng lớn văn bản để tóm tắt thông tin và tạo nội dung. Chẳng hạn, chúng có thể trả lời các câu hỏi bằng văn bản như thể được viết bởi con người.
LlaMA, mô hình mà Meta Platforms cho biết yêu cầu sức mạnh tính toán ít hơn nhiều so với các dịch vụ trước đó, được đào tạo trên 20 ngôn ngữ, tập trung vào những ngôn ngữ có bảng chữ cái Latinh và Cyrillic.
Meta Platforms (công ty mẹ của Facebook) cho biết LLaMA có thể vượt qua các đối thủ về nhiều tham số hoặc biến số hơn mà thuật toán tính đến.
Cụ thể, công ty cho biết một phiên bản LLaMA với 13 tỉ tham số có thể hoạt động tốt hơn GPT-3, phiên bản tiền thân gần đây của mô hình mà ChatGPT được xây dựng.
Meta Platforms mô tả mô hình LLaMA 65 tỉ tham số của mình "cạnh tranh" với Chinchilla70B và PaLM-540B của Google, thậm chí còn lớn hơn mô hình mà Google từng sử dụng để giới thiệu công cụ tìm kiếm được trang bị chatbot Bard.
Người phát ngôn Meta Platforms cho rằng hiệu suất đạt được là nhờ số lượng lớn dữ liệu "sạch hơn" và "cải tiến kiến trúc" trong mô hình, giúp nâng cao tính ổn định của đào tạo.
Thời điểm đó, Meta Platforms tuyên bố sẽ chỉ cấp cho các nhà nghiên cứu quyền truy cập vào ứng dụng AI này để "duy trì tính toàn vẹn và ngăn chặn việc lạm dụng".
Tuyên bố ban đầu của Meta Platforms cho biết: "Để duy trì tính toàn vẹn và ngăn chặn việc lạm dụng, chúng tôi sẽ phát hành mô hình của mình theo giấy phép phi thương mại tập trung vào các trường hợp sử dụng nghiên cứu cùng quyền truy cập mô hình sẽ được cấp cho từng trường hợp cụ thể cho các nhà nghiên cứu hàn lâm".
Tuy nhiên, ai đó vừa làm rò rỉ mô hình ngôn ngữ lớn của Meta Platforms thông qua diễn đàn trực tuyến 4Chan. Sau vụ rò rỉ, các nhà phát triển đã dùng thử chatbot này và biết được một số điều.
Đến nay, Meta Platforms tạo ra người bạn đồng hành cho chúng ta trong không gian mạng tương tự như ChatGPT và Google Bard, với khả năng tạo ra các phản hồi giống con người cho các câu hỏi và đề xuất.
Theo The Neuron (bản tin AI phổ biến), các nhà thử nghiệm sớm cho biết rằng LLaMA không tốt bằng các mô hình điều khiển ChatGPT. Điều đó chủ yếu là do ChatGPT hướng con người vào trò chuyện, còn LLaMA không được đào tạo như vậy.
Trên nền tảng máy học Hugging Face, một nhà phát triển đã hỏi: "Có ai biết cách bắt đầu với LLaMA không?".
Một nền tảng khác phát hành mã nguồn LLaMA trên trang web nổi tiếng Github, nơi các nhà phát triển nhanh chóng sử dụng mã của Meta Platforms để giới thiệu ChatLLaMA, được mô tả là có quy trình đào tạo nhanh hơn 15 lần so với ChatGPT.
Sau khi phát hiện vụ rò rỉ, Meta Platforms đã gửi thông báo yêu cầu gỡ xuống tới Hugging Face, viện dẫn các vấn đề pháp lý.
Yann LeCun, Giám đốc khoa học AI của Meta Platforms, tuyên bố dù LLaMA là một mô hình AI nhỏ hơn, sử dụng ít thông số hơn so với các đối thủ nhưng sẽ mạnh không kém, nếu không muốn nói là hơn, so với các mô hình ngôn ngữ hàng đầu khác.
ChatGPT và Google Bard được đào tạo theo định luật tỷ lệ, chứng minh rằng mô hình có quyền truy cập càng nhiều tham số thì kết quả càng tốt. Tuy nhiên, một bài viết được phát hành vào tháng trước bởi các nhà nghiên cứu AI của Meta Platforms tuyên bố rằng: "Dù có thể rẻ hơn (đòi hỏi ít tài nguyên hơn - PV) khi đào tạo mô hình lớn để đạt được một mức hiệu suất nhất định, nhưng một mô hình nhỏ hơn được đào tạo lâu hơn cuối cùng sẽ rẻ hơn khi suy luận".
Trong công nghệ AI, thuật ngữ suy luận (inference) giải thích cách mà mô hình AI có thể sử dụng dữ liệu được đào tạo để hiểu thông tin mới chưa từng được tiếp xúc trước đó. Trong ứng dụng, điều này cho phép AI có khả năng ra quyết định và tiến hóa hiểu biết của nó khi được cung cấp dữ liệu mới.
Theo The De-Coder (hãng tin AI), giải pháp thay thế ChatGPT của Meta Platforms "nhỏ gọn hơn, nhanh hơn và thậm chí còn được cho là ngang bằng với mô hình PaLM-E của Google".
PaLM-E của Google kết hợp ngôn ngữ, lời nói và robotic (lĩnh vực của khoa học kỹ thuật liên quan đến thiết kế, xây dựng, vận hành và ứng dụng các robot), nhưng vẫn chưa được phát hành.
Hồi tháng 5.2022, Meta Platforms đã phát hành mô hình ngôn ngữ lớn OPT-175B, cũng nhắm đến các nhà nghiên cứu, tạo cơ sở cho một phiên bản mới của chatbot BlenderBot. Sau đó, Meta Platforms đã giới thiệu mô hình Galactica, có thể viết các bài báo khoa học và giải các bài toán, nhưng đã nhanh chóng gỡ bỏ bản demo sau khi nó tạo ra các phản hồi sai nhưng trông có vẻ đáng tin cậy.
Tháng 8.2022, Meta Platforms đã phát hành BlenderBot 3, với khả năng tìm kiếm trên internet để nói về các chủ đề khác nhau, cho người dùng ở Mỹ. Người dùng có thể phản hồi với Meta Platforms nếu nhận được câu trả lời lạc đề hoặc không thực tế từ BlenderBot 3.
Thời điểm đó, Meta Platforms khuyến khích người lớn tương tác với BlenderBot 3 bằng "các cuộc trò chuyện tự nhiên về các chủ đề quan tâm" để cho phép chatbot này học cách thực hiện các cuộc thảo luận tự nhiên về nhiều chủ đề.
Vài ngày sau khi ra mắt công chúng, chatbot AI của Meta Platforms chê bai Giám đốc điều hành Mark Zuckerberg, tuyên bố rằng ông Donald Trump đã thắng cuộc bầu cử Tổng thống Mỹ năm 2020 và lặp lại các thuyết âm mưu bài Do Thái.
Các cuộc trò chuyện với BlenderBot được chia sẻ trên nhiều tài khoản mạng xã hội khác nhau, từ hài hước đến xúc phạm.
Các mô hình ngôn ngữ lớn là gì?
Mô hình ngôn ngữ lớn (LLM) đã thu hút sự chú ý của các phương tiện truyền thông đại chúng trên toàn cầu kể từ khi OpenAI phát hành ChatGPT vào tháng 11, nhận được khoản đầu tư từ Microsoft với số tiền 10 tỉ USD (8,3 tỉ bảng Anh).
ChatGPT hiện có hơn 100 triệu người dùng, là ứng dụng tiêu dùng phát triển nhanh nhất lịch sử. Microsoft tuyên bố rằng công nghệ mới sẽ hoạt động như bạn đồng hành của người dùng khi họ điều hướng trang web.
Mô hình ngôn ngữ lớn cho phép AI tạo nội dung theo yêu cầu thông qua một loạt tập dữ liệu lớn, chỉ trong vài giây.
Những công cụ generative AI này có thể tạo ra haiku (thơ độc đáo của Nhật Bản), truyện cười, email cho công ty, kế hoạch kinh doanh, sửa mã máy tính, viết bài luận học thuật và thậm chí là tiểu thuyết gốc theo phong cách của bất kỳ nhà văn nào bạn muốn, từ Joyce và Dostoyevsky cho đến Shakespeare.
Generative AI là một loại trí tuệ nhân tạo mà máy tính được lập trình để tự động tạo ra nội dung mới, như văn bản, hình ảnh, âm thanh và video. Nó khác với các hệ thống AI khác như máy học sâu (deep learning) hoặc học máy (machine learning) trong việc dự đoán kết quả từ dữ liệu đã có sẵn. Thay vì dựa trên dữ liệu huấn luyện, hệ thống generative AI có khả năng tự tạo ra dữ liệu mới và phong phú hơn. Các ví dụ của generative AI bao gồm các mô hình ngôn ngữ tự động tạo văn bản, các hệ thống nhận dạng hình ảnh, video và âm thanh.
Microsoft và Google đang cạnh tranh để xây dựng những mô hình ngôn ngữ lớn tốt nhất nhằm cải tiến công cụ tìm kiếm của họ.