Thế giới số

Nhà nghiên cứu tố giác OpenAI tử vong tại nhà riêng

Sơn Vân • 14/12/2024 19:08

Suchir Balaji, nhà nghiên cứu 26 tuổi từng làm tại OpenAI trong 4 năm, được phát hiện tử vong tại căn hộ của anh ở thành phố San Francisco (bang California, Mỹ) vào ngày 26.11, trang Insider đưa tin hôm 14.12.

Gần đây, Suchir Balaji đã chỉ trích OpenAI về cách công ty khởi nghiệp này thu thập dữ liệu từ internet để huấn luyện các mô hình AI của mình. Một trong những công việc của Suchir Balaji tại OpenAI trước đó là thu thập thông tin để phát triển mô hình GPT-4 mạnh mẽ.

Người phát ngôn Sở Cảnh sát San Francisco nói với trang Insider rằng "không có bằng chứng nào về hành vi phạm tội được tìm thấy trong cuộc điều tra ban đầu".

David Serrano Sewell, Giám đốc điều hành Văn phòng giám định y khoa chính ở San Francisco, nói với trang San Jose Mercury News: "Nguyên nhân tử vong được xác định là tự sát". Người phát ngôn của văn phòng này không trả lời ngay lập tức câu hỏi từ trang Insider.

"Chúng tôi vô cùng đau lòng khi biết tin tức đáng buồn này hôm nay và xin gửi lời chia buồn sâu sắc tới những người thân yêu của Suchir trong thời điểm khó khăn này", phát ngôn viên OpenAI nói.

Suchir Balaji được phát hiện tử vong do tự sát tại căn hộ của anh - Ảnh: Internet

Vào tháng 10, Suchir Balaji đã công bố một bài luận trên trang web cá nhân của mình, đặt câu hỏi về khái niệm "sử dụng hợp lý" và liệu nó có áp dụng cho dữ liệu huấn luyện mà OpenAI đã dùng để phát triển mô hình GPT nổi tiếng hay không.

"Dù các mô hình AI tạo sinh hiếm khi tạo ra đầu ra giống hệt với bất kỳ dữ liệu nào đào tạo chúng, quá trình đào tạo này lại liên quan đến việc sao chép dữ liệu có bản quyền. Nếu các bản sao dữ liệu không được cho phép, điều này có thể bị xem là vi phạm bản quyền, tùy thuộc vào việc liệu cách dùng cụ thể của mô hình có đủ để coi là 'sử dụng hợp lý' hay không. Tính hợp lý trong việc sử dụng dữ liệu bản quyền của AI không phải lúc nào cũng rõ ràng và cần được xem xét kỹ lưỡng theo từng trường hợp riêng lẻ".

Suchir Balaji đề cập trong bài luận của mình rằng việc đào tạo các mô hình AI tạo sinh bằng cách sao chép hàng loạt dữ liệu miễn phí từ internet có thể gây tổn hại đến các cộng đồng kiến thức trực tuyến. Anh trích dẫn một bài nghiên cứu mô tả ví dụ về Stack Overflow, trang web hỏi đáp về lập trình bị giảm mạnh lưu lượng truy cập và mức độ tương tác của người dùng sau khi ChatGPT cùng các mô hình AI như GPT-4 ra mắt.

Các mô hình ngôn ngữ lớn và chatbot AI trả lời trực tiếp câu hỏi của người dùng, khiến người ta ít cần tìm đến nguồn để có câu trả lời.

Chatbot và mô hình ngôn ngữ lớn trả lời các câu hỏi lập trình, dẫn đến việc ít người ghé thăm Stack Overflow để nhờ cộng đồng trợ giúp. Điều này khiến trang web về lập trình này có ít nội dung mới được tạo ra từ con người hơn.

Elon Musk đã cảnh báo về hiện tượng này, gọi đó là "Cái chết bởi mô hình ngôn ngữ lớn".

OpenAI hiện đối mặt với nhiều vụ kiện cáo buộc công ty vi phạm bản quyền. The New York Times đã kiện OpenAI vào năm ngoái, cáo buộc công ty này và Microsoft "sử dụng trái phép nội dung của tờ báo để tạo ra các sản phẩm AI cạnh tranh với họ".

Trong cuộc phỏng vấn với The New York Times được công bố vào tháng 10, Suchir Balaji cho biết các chatbot như ChatGPT đang làm mất đi giá trị thương mại công việc và dịch vụ của con người.

"Đây không phải là một mô hình bền vững cho hệ sinh thái internet nói chung", Suchir Balaji nói.

Về các cáo buộc của Suchir Balaji, OpenAI chia sẻ với The New York Times: "Chúng tôi xây dựng các mô hình AI của mình bằng cách sử dụng dữ liệu có sẵn công khai, theo cách được bảo vệ bởi nguyên tắc sử dụng hợp lý và các nguyên tắc liên quan, được hỗ trợ bởi những tiền lệ pháp lý lâu đời và được chấp nhận rộng rãi. Chúng tôi coi nguyên tắc này là công bằng với các nhà sáng tạo, cần thiết cho những nhà đổi mới và quan trọng với khả năng cạnh tranh của Mỹ".

Suchir Balaji sau đó được nêu tên trong vụ kiện của The New York Times chống lại OpenAI với tư cách là cá nhân nắm giữ các tài liệu liên quan đến vụ kiện, theo trang Insider.

The New York Times và nhiều trang tin tức hàng đầu chặn SearchGPT của OpenAI thu thập dữ liệu tìm kiếm

Khoảng một tuần sau khi OpenAI ra mắt SearchGPT cuối tháng 7, một số nhà xuất bản tin tức hàng đầu đã bày tỏ không muốn liên quan đến công cụ tìm kiếm mới của công ty khởi nghiệp này.

The New York Times và ít nhất 13 trang tin tức khác đã chặn OAI-SearchBot, bot thu thập dữ liệu web để OpenAI có thể truy xuất và hiển thị kết quả phù hợp cho người dùng SearchGPT.

Originality.ai theo dõi vấn đề này và phát hiện rằng 14 trong số 1.000 nhà xuất bản website hàng đầu đã chặn OAI-SearchBot, gồm cả Wired, The New Yorker, Vogue, Vanity Fair và GQ.

Originality.ai là nền tảng chuyên cung cấp công cụ phát hiện nội dung sao chép và trùng lặp trực tuyến.

Theo Jon Gillham, Giám đốc điều hành Originality.ai, đây là điều khá khó hiểu.

“Tôi không chắc tại sao bất kỳ nhà xuất bản nào lại chặn OAI-SearchBot. Đây là lưu lượng truy cập mà các nhà xuất bản muốn và cần”, ông nói với trang Insider.

Khi công bố SearchGPT cuối tháng 7, OpenAI nhấn mạnh rằng OAI-SearchBot không thu thập dữ liệu web để đào tạo các mô hình ngôn ngữ lớn. OpenAI khuyên các chủ sở hữu website nên cho phép bot mới này thu thập dữ liệu để “đảm bảo trang của bạn xuất hiện trong kết quả tìm kiếm”.

Nếu trình thu thập dữ liệu không có quyền truy cập vào mọi trang web, SearchGPT có nguy cơ kém hoàn chỉnh hơn so với công cụ tìm kiếm Google.

Trang Insider đã hỏi Jon Gillham liệu có nhà xuất bản tin tức lớn nào chặn bot tìm kiếm của Google không. Ông không biết có nhà xuất bản nào làm vậy.

GPTbot là chương trình khác của OpenAI chuyên thu thập dữ liệu web để đào tạo mô hình AI. Hàng trăm website đã chặn bot này. Điều đó có vẻ hợp lý hơn vì: "Bạn muốn lưu lượng truy cập từ công cụ tìm kiếm, nhưng không muốn cho đi nội dung của mình để đào tạo các mô hình AI có khả năng cạnh tranh với mình".

Tuy nhiên, OpenAI đã dành nhiều năm để thu thập dữ liệu trực tuyến mà không được sự cho phép. Có thể các nhà xuất bản không tin tưởng OpenAI khi "cha đẻ ChatGPT" nói rằng OAI-SearchBot sẽ không bí mật thu thập nội dung để đào tạo dữ liệu AI?

“Tôi nghĩ vậy”, Jon Gillham nói.

Một lý thuyết khác: Kết quả tìm kiếm hiện không phải lúc nào cũng đưa người dùng đến các website đã nỗ lực tạo ra nội dung gốc. Một phần mục tiêu của các công cụ tìm kiếm mới hỗ trợ AI là giữ chân người dùng bằng cách hiển thị bản tóm tắt. Nếu các nhà xuất bản không còn thấy lưu lượng truy cập khổng lồ từ công cụ tìm kiếm nữa thì việc cho phép bot thu thập dữ liệu web của họ có còn cần thiết nữa không?

Jon Gillham lưu ý rằng OpenAI đã bận rộn trong năm nay ký thỏa thuận với các nhà xuất bản để sử dụng kho dữ liệu nội dung của họ.

“Có vẻ như đây là chuỗi hành động có chủ đích của OpenAI, trước tiên là làm quen với các nhà xuất bản bằng cách ký tất cả thỏa thuận hợp tác này và sau đó công bố SearchGPT”, Gillham nói thêm.

The New York Times là nhà xuất bản lớn nhất từ chối hợp tác với OpenAI, thậm chí kiện công ty này và Microsoft với cáo buộc sử dụng trái phép các tác phẩm của họ để tạo ra các sản phẩm cạnh tranh.

“The New York Times không cho phép sử dụng các tác phẩm của chúng tôi cho mục đích tìm kiếm tạo sinh hay đào tạo AI mà không có thỏa thuận bằng văn bản rõ ràng, bất kể chúng tôi có chặn hoặc hạn chế bất kỳ bot nào thu thập nội dung của chúng tôi hay không”, Charlie Stadtlander, phát ngôn viên The New York Times, tuyên bố.

Trong đơn kiện OpenAI và Microsoft năm ngoái, The New York Times đã đề cập đến vấn đề các công cụ tìm kiếm ngày càng được trang bị AI và có thể làm giảm lưu lượng truy cập vào những nhà xuất bản tin tức.

“Các bị đơn sử dụng chỉ mục tìm kiếm Bing của Microsoft, sao chép và phân loại nội dung trực tuyến của The New York Times, để tạo ra các phản hồi chứa các đoạn trích chính xác và tóm tắt bài viết trên The New York Times dài và chi tiết hơn nhiều so với các công cụ tìm kiếm truyền thống. Bằng cách cung cấp nội dung The New York Times mà không có sự cho phép hoặc ủy quyền của The New York Times, các công cụ của bị đơn đã làm suy yếu và tổn hại mối quan hệ giữa báo với độc giả của mình. Qua đó khiến The New York Times mất doanh thu từ đăng ký, cấp phép, quảng cáo và liên kết”, trích đơn kiện.

Hôm 25.7, OpenAI ra mắt SearchGPT, công cụ tìm kiếm sử dụng AI với khả năng truy cập thông tin từ internet theo thời gian thực, tiến vào lĩnh vực do Google thống trị.

Động thái này cũng đặt OpenAI vào cuộc cạnh tranh với nhà đầu tư lớn nhất của mình là Microsoft với công cụ tìm kiếm Bing và dịch vụ mới nổi Perplexity (chatbot AI tập trung vào tìm kiếm được nhà sáng lập Amazon - Jeff Bezos và gã không lồ chip Nvidia hậu thuẫn).

SearchGPT sẽ cung cấp các kết quả tìm kiếm tóm tắt với liên kết nguồn để trả lời truy vấn của người dùng. Người dùng cũng có thể đặt câu hỏi tiếp theo và nhận được các phản hồi theo ngữ cảnh.

OpenAI sẽ cung cấp cho các nhà xuất bản công cụ để quản lý cách nội dung của họ xuất hiện trong kết quả SearchGPT. News Corp và The Atlantic là hai trong các đối tác xuất bản của SearchGPT.

SearchGPT báo hiệu sự hợp tác chặt chẽ hơn giữa các nhà xuất bản và OpenAI, sau khi "cha đẻ ChatGPT" đạt thỏa thuận được cấp phép nội dung với các hãng thông tấn lớn như Associated Press, News Corp, Axel Springer, Financial Times, Dotdash Meredith và cả mạng xã hội Reddit.

News Corp là công ty chủ quản của tờ The Wall Street Journal và hơn 10 ấn phẩm khác.

Cuối tháng 10, OpenAI đã tích hợp SearchGPT vào ChatGPT chứ không tạo ra dịch vụ riêng.

Sam Altman gọi đây là “tính năng yêu thích nhất mà OpenAI từng triển khai kể từ khi ra mắt ChatGPT” . Theo ông, việc tìm kiếm qua ChatGPT sẽ giúp người dùng có được thông tin dễ dàng hơn, đặc biệt là những truy vấn yêu cầu nghiên cứu phức tạp. Sam Altman kỳ vọng trong tương lai sẽ có những kết quả tìm kiếm tự động hiển thị thành một trang web tùy chỉnh cho người dùng.

Srinivas Narayanan, Phó chủ tịch kỹ thuật OpenAI, tiết lộ ChatGPT sử dụng một tập hợp các dịch vụ tìm kiếm, gồm cả Bing.

Các công cụ tìm kiếm lớn đã cố gắng tích hợp AI vào tìm kiếm kể từ khi ChatGPT trình làng vào tháng 11.2022. Thông qua khoản đầu tư hơn 10 tỉ USD vào OpenAI, Microsoft đã áp dụng công nghệ của công ty này cho công cụ tìm kiếm Bing. Trong khi Google đã triển khai tính năng AI cho công cụ tìm kiếm từ hội nghị nhà phát triển I/O của mình vào tháng 5.