GPT-4 và các mô hình AI lớn bị bot trộm thông tin theo cách mới

Hiện tượng này được phát hiện gần đây bởi Guillermo Rauch, Giám đốc điều hành Vercel, công ty khởi nghiệp giúp các nhà phát triển xây dựng trang web tích hợp với nhiều mô hình trí tuệ nhân tạo (AI) lớn nhất.

Guillermo Rauch đã thảo luận về loại bot mới trên podcast No Priors với nhà đầu tư mạo hiểm Elad Gil và Sarah Guo.

“Nó gần giống như việc trích xuất thông tin tình báo vậy. Hãy gọi nó là web Scraper 2.0. Về cơ bản, tôi chạy một bot cố gắng lấy thông tin miễn phí từ GPT-4", Guillermo Rauch giải thích.

GPT-4 là phiên bản mới nhất của mô hình ngôn ngữ lớn do công ty khởi nghiệp OpenAI (Mỹ) phát triển, làm nền tảng cho ChatGPT hoạt động.

Giám đốc điều hành Vercel nói thêm rằng đó là một vấn đề lớn, vì vậy phóng viên trang Insider đã gọi điện cho anh lên để tìm hiểu sâu hơn.

"Nguy cơ thu nhỏ mô hình"

Sự bùng nổ AI đã tạo ra nhu cầu chưa từng có về dữ liệu chất lượng. Các mô hình AI cần nội dung này để được đào tạo. Thiếu nó, công nghệ sẽ không hoạt động tốt và không có đủ dữ liệu để cung cấp.

Guillermo Rauch nói rằng đây là một trong những lý do thúc đẩy sự xuất hiện của những bot mới này. Ông giải thích: “Nếu có thể khéo léo loại bỏ các kết quả đầu ra của GPT-4, Llama 2 và các mô hình AI mạnh mẽ khác, bạn có thể sử dụng dữ liệu đó đào tạo cho mô hình của riêng mình”.

“Có nguy cơ thu nhỏ mô hình. Về lý thuyết, các mô hình AI có thể chia sẻ mọi thứ họ biết. Chẳng hạn, thật hợp lý khi bạn có thể đào tạo một mô hình khác dựa trên 100.000 kết quả đầu ra chất lượng cao từ GPT-4", ông cho biết thêm.

Thật vậy, một số công ty AI hàng đầu, gồm cả OpenAI, Google và Anthropic, đã cấm sử dụng kết quả đầu ra của họ để đào tạo các mô hình khác.

gpt-4-va-cac-o-hinh-ai-lon-bi-bot-trom-thong-tin-theo-cach-moi.jpg — Các bot mới được kẻ xấu tạo để lấy thông tin từ GPT-4 và các mô hình AI lớn khác - Ảnh: Internet

Hóa đơn 35.000 USD từ OpenAI gây sốc

Lý do khác: Việc sử dụng các mô hình hoạt động tốt nhất ngày càng đắt đỏ hơn. OpenAI và các hãng công nghệ khác đã áp đặt giới hạn tốc độ, trong đó ngay cả người dùng trả tiền cũng chỉ có thể đặt một số lượng hạn chế câu hỏi mỗi phút hoặc mỗi ngày.

Thay vì tuân thủ các quy tắc này, những kẻ xấu tạo ra các bot tấn công các mô hình bằng các câu hỏi và để người khác trả tiền cho tất cả phần trả lời. Điều này thường được thực hiện bằng cách xâm nhập vào các ứng dụng có tài khoản chính thức và kết nối API (giao diện chương trình ứng dụng) với các mô hình AI lớn và mạnh nhất, Guillermo Rauch giải thích.

Ông nói: “Rất nhiều người đang viết bot để cố gắng tấn công các ứng dụng web dựa trên AI. Về cơ bản, đây là những proxy để lấy thông tin này, đôi khi thay mặt cho những người dùng không trả tiền để truy cập các mô hình".

Proxy là một máy chủ hoặc dịch vụ trung gian được sử dụng để truy cập internet hoặc mạng máy tính khác thay mặt cho một máy tính hoặc người dùng khác. Chức năng chính của proxy là ẩn danh và bảo vệ danh tính của người dùng và cung cấp khả năng kiểm soát truy cập vào các dịch vụ và trang web.

Một nhà phát triển mà Guillermo Rauch biết là nạn nhân của kiểu tấn công này. Cô có một ứng dụng dành cho các nhà khoa học dữ liệu truy vấn một mô hình ngôn ngữ lớn. Bot đã tấn công và về cơ bản sử dụng ứng dụng của cô làm proxy để truy cập vào mô hình AI.

Guillermo Rauch nói: “Cô ấy đã nhận được hóa đơn OpenAI trị giá 35.000 USD trong một thời gian rất ngắn. Cô đã mất nhiều tháng để giải thích rằng đây không phải là mục đích sử dụng của mình. Cuối cùng OpenAI đã hoàn lại tiền cho cô".

OpenAI, nhà phát triển GPT-4 và ChatGPT, không trả lời khi được đề nghị bình luận về chuyện này.

gpt-4-va-cac-o-hinh-ai-lon-bi-bot-trom-thong-tin-theo-cach-moi1.jpg — Guillermo Rauch, Giám đốc điều hành Vercel (áo trắng) - Ảnh: Getty Imaes

Trốn tránh sự phong tỏa mô hình AI của Trung Quốc

Lý do tiếp theo cho hiện tượng mới này: Trung Quốc đã chặn quyền truy cập vào ChatGPT, GPT-4 và nhiều mô hình generative AI hàng đầu khác. Generative AI là một loại trí tuệ nhân tạo được lập trình để tự động tạo ra nội dung mới, như văn bản, hình ảnh, âm thanh và video. Nó khác với các hệ thống AI khác như máy học sâu (deep learning) hoặc học máy (machine learning) trong việc dự đoán kết quả từ dữ liệu đã có sẵn. Thay vì dựa trên dữ liệu huấn luyện, hệ thống generative AI có khả năng tự tạo ra dữ liệu mới và phong phú hơn.

Guillermo Rauch giải thích rằng việc tạo ra một bot bí mật thu thập tất cả kết quả đầu ra tốt nhất là một cách để vượt qua sự kiểm duyệt của quốc gia đó.

Hiện tại, hàng trăm ngàn ứng dụng AI được triển khai trên nền tảng của Vercel mỗi tháng. Vì vậy có rất nhiều mục tiêu cho các bot mới này. Vercel cung cấp công nghệ giúp các nhà phát triển bảo vệ khỏi những cuộc tấn công như vậy.

Doanh nghiệp SaaS gặp rủi ro

Guillermo Rauch cũng nhận thấy các doanh nghiệp SaaS (phần mềm dạng dịch vụ) đang bị thách thức bởi hiện tượng này. Những loại công ty như vậy thường bán đăng ký mỗi chỗ ngồi với giá có thể là 5 hoặc 10 USD một tháng để sử dụng không giới hạn.

Ông giải thích các phiên bản AI mới của dịch vụ SaaS truy vấn các mô hình AI lớn có thể bị bot tấn công và cuối cùng phải trả tiền cho những kết quả đầu ra mà khách hàng thực sự của họ không nhận được.

Guillermo Rauch nói: “Hoạt động kinh doanh SaaS của bạn có thể gặp khó khăn và thua lỗ. Vì vậy sẽ có nhiều khoản tính phí dựa trên mức sử dụng hơn. Phí nền tảng, phí chỗ ngồi và phí cho mỗi token hoặc phí cho mỗi truy vấn".

Ông lưu ý rằng Vercel đã tích hợp các giới hạn tốc độ cho nhà phát triển. Do đó, một ứng dụng có thể cung cấp một chỗ mà người dùng chỉ có thể truy vấn các mô hình AI một số lần nhất định mỗi ngày.

“Điều đó ngăn chặn các cuộc tấn công của các bot bên ngoài vốn sẽ thực hiện số lượng lớn yêu cầu nhằm đánh cắp thông tin”, Guillermo Rauch nói.

GPT-4 ra mắt vào ngày 13.3. Theo OpenAI, GPT-4 tiên tiến hơn trong ba lĩnh vực chính gồm tính sáng tạo, đầu vào trực quan và ngữ cảnh dài hơn. OpenAI nói GPT-4 tốt hơn nhiều trong cả việc tạo và cộng tác với người dùng trong các dự án sáng tạo.

GPT-4 hiện có thể xử lý tối đa 25.000 từ (dạng văn bản) từ người dùng. Bạn thậm chí có thể gửi cho GPT-4 một liên kết web và yêu cầu nó tương tác với văn bản từ trang đó. OpenAI cho biết điều này có thể hữu ích cho việc tạo nội dung dài cũng như “các cuộc hội thoại mở rộng”.

GPT-4 với khả năng tạo văn bản nhiều hơn 8 lần so với GPT-3.5 nên OpenAI cho biết mô hình ngôn ngữ mới có thể được sử dụng như công cụ giảng dạy sinh viên.

Sam Altman, Giám đốc điều hành OpenAI, cho biết GPT-4 được cải tiến theo hướng sáng tạo hơn và ít thiên vị hơn so với bản trước đó. Ông nhấn mạnh đây là công nghệ AI tiên tiến chưa từng có, được đào tạo bằng cách sử dụng phản hồi của con người kết hợp công nghệ học sâu.

Theo Sam Altman, GPT-4 có hàng loạt khả năng mà các hệ thống AI hiện chưa thể đạt được. Cụ thể hơn, GPT-4 có thể đạt 1.410 điểm trong kỳ thi SAT - một trong những kỳ thi tiêu chuẩn hóa cho việc đăng ký vào các đại học tại Mỹ; đạt 4 hoặc 5 trong thang điểm 5 của các kỳ thi nâng cao (AP) ở các bộ môn lịch sử, nghệ thuật, sinh học, giải tích và hóa học - số điểm đủ cao để nhận được tín chỉ đại học.

GPT-4 đã đánh bại 90% số người tham gia để vượt qua kỳ thi sát hạch trở thành luật sư ở Mỹ, vượt 99% học sinh thi Olympic sinh học. GPT-4 cũng đạt điểm cao nhất trong ít nhất 34 bài kiểm tra khác nhau trong các lĩnh vực như kinh tế vĩ mô, viết bài, toán học hay thậm chí nội dung về nghiên cứu rượu vang.

Theo nghiên cứu mới đây của Đại học Toronto (Canada), GPT-4 đủ thông minh để vượt qua kỳ thi dạng hội đồng X quang. Cụ thể hơn, GPT-4 đã trả lời đúng 81% trong số 150 câu hỏi trắc nghiệm ở kỳ thi.