Hotline quảng cáo: 096 2445664 Hotline nội dung: 0934.999945

Nhịp đập khoa học

Microsoft, Google, Meta đặt cược vào dữ liệu fake để xây dựng mô hình AI: Ưu điểm và rủi ro

Sơn Vân • 03/05/2024 13:58

Các công ty trí tuệ nhân tạo (AI) hàng đầu đang thử nghiệm một cách tiếp cận khác để đáp ứng nhu cầu dữ liệu vô tận của họ.

Đằng sau mỗi phản hồi thông minh từ chatbot là một kho dữ liệu khổng lồ và trong một số trường hợp, hàng nghìn tỉ từ được lấy từ các bài báo, sách và bình luận trực tuyến để dạy hệ thống AI hiểu truy vấn của người dùng. Quan niệm thông thường trong ngành này là cần ngày càng nhiều thông tin càng tốt để tạo ra các sản phẩm AI thế hệ tiếp theo.

Tuy nhiên, tồn tại một vấn đề lớn với kế hoạch đó: Chỉ có một lượng dữ liệu chất lượng cao có sẵn trên internet. Để sở hữu chúng, các công ty AI thường trả hàng triệu USD cho các nhà xuất bản để cấp phép nội dung của họ hoặc thu thập dữ liệu từ các trang web, dẫn đến nguy cơ đối mặt với vụ kiện bản quyền. Ngày càng nhiều công ty AI hàng đầu đang khám phá một cách tiếp cận khác, gây ra tranh cãi trong cộng đồng AI: Sử dụng dữ liệu tổng hợp, hay bản chất là dữ liệu fake (giả).

Đây là cách hoạt động: Các hãng công nghệ có thể sử dụng hệ thống AI của riêng họ để tạo ra văn bản và các phương tiện truyền thông khác. Dữ liệu nhân tạo này sau đó được sử dụng để đào tạo các phiên bản tương lai của cùng những hệ thống AI đó, theo cái mà Giám đốc điều hành Anthropic - Dario Amodei gọi là “công cụ tạo dữ liệu vô hạn” tiềm năng. Bằng cách này, các công ty AI có thể tránh gây ra nhiều lo ngại về pháp lý, đạo đức và quyền riêng tư.

Ý tưởng về dữ liệu tổng hợp trong điện toán không phải là mới. Đó là kỹ thuật đã được sử dụng trong nhiều thập kỷ cho mọi thứ, từ ẩn danh thông tin cá nhân đến mô phỏng điều kiện đường sá cho công nghệ ô tô tự lái. Thế nhưng, sự phát triển của AI tạo sinh giúp việc tạo dữ liệu tổng hợp có chất lượng tốt hơn trên quy mô lớn trở nên dễ dàng hơn, đồng thời cũng tạo thêm tính cấp thiết mới để thực hiện điều đó.

AI tạo sinh là một loại AI có mục tiêu chính là tạo ra thông tin mới, thường thông qua quá trình học máy và học sâu. Loại AI này không chỉ giải quyết các nhiệm vụ cụ thể, mà còn có khả năng tạo ra dữ liệu, văn bản, hình ảnh, âm thanh, video và nhiều loại thông tin khác.

Một ví dụ nổi tiếng về AI tạo sinh là mô hình ngôn ngữ lớn GPT của OpenAI, có khả năng tạo ra văn bản mới, dựa trên dữ liệu mà nó đã được huấn luyện trước đó.

Anthropic nói với hãng tin Bloomberg rằng đã sử dụng dữ liệu tổng hợp để xây dựng mô hình mới nhất hỗ trợ chatbot của mình là Claude. Meta Platforms và Google sử dụng dữ liệu tổng hợp để phát triển các mô hình nguồn mở gần đây của họ.

Google DeepMind cho biết dựa vào phương pháp này để giúp đào tạo một mô hình AI có thể giải các bài toán hình học cấp độ Olympic. Nhiều người thắc mắc liệu OpenAI có sử dụng dữ liệu tổng hợp để đào tạo Sora, mô hình chuyển văn bản thành video chân thực, hay không. OpenAI nói với Bloomberg rằng đang khám phá việc sử dụng dữ liệu tổng hợp nhưng sẽ không xác nhận thêm thông tin chi tiết.

microsoft-google-meta-dat-cuoc-vao-du-lieu-fake-de-xay-dung-mo-hinh-ai-uu-diem-va-rui-ro.jpg — Microsoft, Google, Meta đang thử nghiệm một cách tiếp cận khác để đáp ứng nhu cầu dữ liệu vô tận của họ - Ảnh: Internet

Tại Microsoft, nhóm nghiên cứu AI tạo sinh đã chuyển sang sử dụng dữ liệu tổng hợp cho một dự án gần đây. Họ muốn xây dựng một mô hình AI nhỏ hơn, ít tốn tài nguyên hơn mà vẫn có khả năng ngôn ngữ và suy luận hiệu quả. Để làm được điều đó, nhóm này đã cố gắng bắt chước cách trẻ học ngôn ngữ thông qua việc đọc truyện.

Thay vì cung cấp cho mô hình AI một lượng lớn sách dành cho trẻ em, đội ngũ Microsoft đã đưa ra danh sách 3.000 từ mà đứa trẻ 4 tuổi có thể hiểu được. Sau đó, họ yêu cầu mô hình AI tạo ra một câu chuyện dành cho trẻ em bằng cách sử dụng một danh từ, một động từ và một tính từ trong danh sách đó. Các nhà nghiên cứu Microsoft lặp lại lời nhắc đó hàng triệu lần trong nhiều ngày, tạo ra hàng triệu truyện ngắn mà cuối cùng đã giúp phát triển một mô hình ngôn ngữ khác có khả năng tốt hơn. Microsoft đã tạo ra dòng mô hình ngôn ngữ mới nhỏ gọn này (có tên Phi-3), nguồn mở và có sẵn cho công chúng.

Sébastien Bubeck, Phó chủ tịch phụ trách AI tại Microsoft, nói: “Đột nhiên, bạn có nhiều quyền kiểm soát hơn. Bạn có thể quyết định ở mức độ chi tiết hơn nhiều về những gì muốn mô hình AI của mình học”.

Theo Sébastien Bubeck, với dữ liệu tổng hợp, bạn cũng có thể hướng dẫn các hệ thống AI tốt hơn trong quá trình học hỏi bằng cách thêm nhiều giải thích hơn vào dữ liệu, nếu không thì máy có thể gặp khó khăn để xử lý.

Thế nhưng, một số chuyên gia AI lo lắng về rủi ro của những kỹ thuật như vậy. Vào năm ngoái, nhóm các nhà nghiên cứu tại Đại học Oxford, Cambridge và một số trường lớn khác đã xuất bản một bài viết giải thích cách sử dụng dữ liệu tổng hợp do ChatGPT tạo ra để xây dựng mô hình AI mới có thể dẫn đến “sự sụp đổ mô hình”.

Trong thử nghiệm của họ, mô hình AI được xây dựng trên đầu ra của ChatGPT bắt đầu bộc lộ “những khiếm khuyết không thể khắc phục” và dường như mất trí nhớ về những gì nó được đào tạo ban đầu.

Trong một ví dụ, các nhà nghiên cứu đã gợi ý mô hình ngôn ngữ lớn bằng văn bản về kiến trúc lịch sử của Anh. Sau khi các nhà nghiên cứu đào tạo lại mô hình ngôn ngữ lớn bằng dữ liệu tổng hợp nhiều lần, nó bắt đầu tạo ra những câu nói lảm nhảm vô nghĩa về thỏ rừng.

Các nhà nghiên cứu cũng đưa ra lo ngại rằng dữ liệu tổng hợp có thể làm tăng thêm sự thiên vị và độc hại trong bộ dữ liệu. Về phần mình, một số người ủng hộ dữ liệu tổng hợp nói rằng với các biện pháp phù hợp, mô hình AI được phát triển theo cách này có thể chính xác hoặc tốt hơn cái được xây dựng trên dữ liệu thực.

“Dữ liệu tổng hợp có thể hữu ích nếu được thực hiện đúng cách. Tuy nhiên, không có câu trả lời rõ ràng về cách thực hiện đúng đắng; một số thành kiến có thể rất khó nhận thấy với con người”, theo Zakhar Shumaylov, tiến sĩ nghiên cứu sinh tại Đại học Cambridge, đồng tác giả bài viết về “sự sụp đổ mô hình”.

Ngoài ra, còn có một cuộc tranh luận mang tính triết học hơn: Nếu các mô hình ngôn ngữ lớn bị mắc kẹt trong vòng đào tạo vô tận về nội dung của chính chúng, liệu AI có ít quan tâm đến bắt chước trí thông minh con người mà tập trung nhiều hơn vào việc bắt chước ngôn ngữ của các máy khác không?

Percy Liang, giáo sư khoa học máy tính của Đại học Stanford, cho biết để tạo ra dữ liệu tổng hợp hữu ích, các công ty vẫn cần những tác phẩm thực sự mang trí tuệ con người như sách, bài báo và mã. “Dữ liệu tổng hợp không phải là dữ liệu thực, giống như cách bạn mơ thấy mình leo lên đỉnh Everest không thực sự là leo lên đỉnh núi này”, Percy Liang viết trong một email.

Những người tiên phong trong lĩnh vực dữ liệu tổng hợp và AI đồng ý rằng không thể loại con người ra khỏi quá trình phát triển và tinh chỉnh các mô hình AI. Con người thực sự vẫn cần thiết để tạo và tinh chỉnh các tập dữ liệu nhân tạo.

Sébastien Bubeck nói: “Dữ liệu tổng hợp không phải là nơi bạn nhấn nút và nói: ‘Này, tạo một số dữ liệu cho tôi’. Đó là một quy trình rất phức tạp. Cần rất nhiều sức lao động của con người để tạo ra dữ liệu tổng hợp ở quy mô lớn”.

Bài liên quan

Kế hoạch đáng kinh ngạc của Microsoft nhằm tăng cường công suất trung tâm dữ liệu cho AI

Microsoft đã mở rộng đáng kể công suất trung tâm dữ liệu của mình gần đây và có kế hoạch gia tăng đến mức đáng kinh ngạc trong tương lai, theo một tài liệu nội bộ công ty mà trang Insider có được.

Đọc tiếp

‘Nhu cầu điện sẽ tăng vọt 900% ở Chicago do AI từ các trung tâm dữ liệu’

Chatbot SARAH của WHO đưa ra những câu trả lời kỳ lạ, thiếu dữ liệu cập nhật

Quan điểm khác lạ của Mark Zuckerberg khi các hãng công nghệ lớn tìm nguồn dữ liệu mới để đào tạo AI

(0) Bình luận

Xếp theo:

Đọc thêm Nhịp đập khoa học

Nổi bật Một thế giới

Doanh nghiệp châu Âu bày tỏ tin tưởng vào tiềm năng của Việt Nam

4 giờ trước Thị trường và chính sách

Đại sứ, Trưởng Phái đoàn EU tại Việt Nam Julien Guerrier nhấn mạnh các doanh nghiệp châu Âu tin tưởng vào tiềm năng của Việt Nam; không chỉ làm ăn mà còn sẵn sàng thu hút thêm nhiều nhà đầu tư cho Việt Nam.

Alexa+ phơi bày những thiếu sót về AI của Apple, Siri tiên tiến có thể chỉ ra mắt cùng iOS 20

Apple đứng sau Mac, iPhone, iPad và nhiều sản phẩm mang tính cách mạng khác. Song hiện tại,...
Nâng tầm nghiên cứu, phát triển các ứng dụng tiệm cận công nghệ hạt nhân tiên tiến của thế giới

Phó thủ tướng thường trực Chính phủ Nguyễn Hòa Bình mong muốn đội ngũ cán bộ quản lý, nhà khoa...
Thủ tướng yêu cầu đẩy mạnh thương mại hóa 5G, nghiên cứu công nghệ 6G

Thủ tướng Phạm Minh Chính yêu cầu Bộ KH-CN đẩy mạnh thương mại hóa 5G, nghiên cứu công nghệ...

Đừng bỏ lỡ

Giá Bitcoin tăng hơn 20% sau khi ông Trump liệt kê 5 loại tiền điện tử trong kho dự trữ chiến lược mới của Mỹ

11 phút trước Thế giới số

Giá Bitcoin sáng 3.3 đã tăng hơn 20% so với mức thấp nhất vào tuần trước. Giá 4 loại tiền điện tử khác dự kiến sẽ được Tổng thống Mỹ Donald Trump đưa vào kho dự trữ chiến lược mới của Mỹ cũng tăng mạnh.
Cà phê nấm có thật sự công hiệu như đồn thổi?

1 giờ trước Kiến thức - Học thuật

Cà phê nấm là một loại đồ uống kết hợp cà phê truyền thống với chiết xuất từ nấm dược liệu. Nó đã nổi lên như một sản phẩm nổi bật trên thị trường đồ uống chức năng.
Miền Bắc tiếp tục nồm ẩm trước khi đón không khí lạnh

3 giờ trước Theo dòng thời sự

Dự báo thời tiết 3.3, miền Bắc nồm ẩm do tiếp diễn mưa phùn, sương mù, độ ẩm không khí cao.
Các công ty Mỹ liệu đã sẵn sàng trở lại Nga?

11 giờ trước Góc nhìn

Dù chính quyền Tổng thống Donald Trump đang tìm kiếm một thỏa thuận ngoại giao nhằm chấm dứt chiến tranh ở Ukraine và khôi phục quan hệ kinh tế với Nga, các công ty Mỹ vẫn chưa tỏ ra háo hức trước triển vọng quay lại thị trường này.
Trị bệnh ‘tay nhanh hơn não’ trên mạng

12 giờ trước Góc bình luận

Một nam sinh viên bị bắt chỉ sau 3 giờ gây án cướp tài sản, tại một cửa hàng ở TP.Thủ Đức (TP.HCM). Người vi phạm đã hối hận qua sự thành khẩn và những giọt nước mắt dù biết rất muộn màng.

Mới nhất

Doanh nghiệp châu Âu bày tỏ tin tưởng vào tiềm năng của Việt Nam

4 giờ trước Thị trường và chính sách

Đại sứ, Trưởng Phái đoàn EU tại Việt Nam Julien Guerrier nhấn mạnh các doanh nghiệp châu Âu tin tưởng vào tiềm năng của Việt Nam; không chỉ làm ăn mà còn sẵn sàng thu hút thêm nhiều nhà đầu tư cho Việt Nam.
Alexa+ phơi bày những thiếu sót về AI của Apple, Siri tiên tiến có thể chỉ ra mắt cùng iOS 20

10 giờ trước Nhịp đập khoa học

Apple đứng sau Mac, iPhone, iPad và nhiều sản phẩm mang tính cách mạng khác. Song hiện tại, chúng ta đang ở giữa cuộc cách mạng công nghệ lớn nhất kể từ khi internet ra đời, đó là trí tuệ nhân tạo (AI), với Apple đang bị các đối thủ bỏ lại phía sau.
Nâng tầm nghiên cứu, phát triển các ứng dụng tiệm cận công nghệ hạt nhân tiên tiến của thế giới

13 giờ trước Khoa học - công nghệ

Phó thủ tướng thường trực Chính phủ Nguyễn Hòa Bình mong muốn đội ngũ cán bộ quản lý, nhà khoa học của Viện Nghiên cứu hạt nhân không ngừng nâng cao năng lực, khả năng nghiên cứu, phát triển các ứng dụng tiệm cận với trình độ về công nghệ hạt nhân tiên tiến, hiện đại của quốc tế.
Thủ tướng yêu cầu đẩy mạnh thương mại hóa 5G, nghiên cứu công nghệ 6G

16 giờ trước Khoa học - công nghệ

Thủ tướng Phạm Minh Chính yêu cầu Bộ KH-CN đẩy mạnh thương mại hóa 5G, nghiên cứu công nghệ 6G và phát triển vệ tinh viễn thông.
OpenAI, Microsoft, Meta dùng kỹ thuật chưng cất như DeepSeek để tạo mô hình AI rẻ hơn

17 giờ trước Nhịp đập khoa học

DeepSeek đã sử dụng kỹ thuật distillation (chưng cất) để tạo ra các mô hình trí tuệ nhân tạo (AI) nhỏ hơn nhưng mạnh mẽ, dựa trên công nghệ của các đối thủ như Meta Platforms và Alibaba.