AI & Blockchain

Trước khi lộ mã nguồn, Anthropic liên tục bị kiện bản quyền

Bùi Tú •

Trong vụ lộ mã nguồn Claude Code, Anthropic là nạn nhân. Tuy nhiên, bản thân tập đoàn Anthropic lại từng bị kiện về vấn đề bản quyền.

Trong nỗ lực vươn lên dẫn đầu cuộc đua thuật toán khốc liệt, công ty này đã đóng vai "kẻ thu thập" dữ liệu tàn nhẫn và vướng vào một cơn bão kiện tụng tồi tệ kéo dài suốt năm 2024 và 2025. Lùi lại một nhịp trước sự cố lộ lọt mã nguồn gần đây, hồ sơ pháp lý của Anthropic cho thấy một bức tranh chân thực về cái giá vô cùng đắt đỏ mà các hãng công nghệ phải trả khi cố gắng gom vét dữ liệu toàn cầu để huấn luyện cỗ máy của mình. Câu chuyện của họ là một minh chứng rõ nét cho sự xoay vần khắc nghiệt của thế giới công nghệ, nơi ranh giới giữa kẻ đi vay mượn chất xám và nạn nhân bị tước đoạt tài sản trở nên mỏng manh hơn bao giờ hết.

Anthropic ôm tham vọntrở thành tay chơi lớn trong làng AI — Anthropic là nạn nhân trong vụ lộ dữ liệu nhưng ở góc độ khác thì họ bị nhiều nạn nhân kiện

Cuộc chiến pháp lý khốc liệt với giới tác giả sách

Hạt nhân cấu thành nên trí thông minh của bất kỳ mô hình ngôn ngữ lớn (LLM) nào chính là kho dữ liệu văn bản khổng lồ mà nó được nạp vào trong giai đoạn tiền huấn luyện. Để cỗ máy mang tên Claude có thể hành văn lưu loát, phân tích logic nhạy bén và sở hữu vốn từ vựng phong phú, các kỹ sư của Anthropic cần một lượng lớn những văn bản chất lượng cao, có cấu trúc ngữ pháp chuẩn mực.

Nguồn tài nguyên đáp ứng xuất sắc nhất yêu cầu khắt khe này chính là các tác phẩm văn học, tiểu thuyết và sách chuyên khảo từ những bộ óc vĩ đại của nhân loại. Thay vì lựa chọn con đường đàm phán mua bản quyền minh bạch, hãng công nghệ này đã đi đường tắt và lập tức vướng vào vụ kiện tập thể quy mô lớn mang tên "Bartz v. Anthropic" do việc sử dụng dữ liệu mờ ám.

Các nhà văn danh tiếng như Andrea Bartz, Charles Graeber và Kirk Wallace Johnson đã chính thức đứng đơn khởi kiện, đại diện cho tiếng nói của hàng ngàn tác giả khác trên toàn cầu. Trọng tâm của bản cáo trạng dày hàng trăm trang chỉ rõ Anthropic đã âm thầm sử dụng các công cụ tự động để tải xuống hơn 7 triệu cuốn sách từ các kho dữ liệu lậu khét tiếng, tiêu biểu như Library Genesis (LibGen) và Pirate Library Mirror.

Toàn bộ kho tàng tri thức khổng lồ này được đưa thẳng vào bộ dữ liệu huấn luyện The Pile mà không trải qua bất kỳ bộ lọc bản quyền nào. Giới tác giả đã bày tỏ sự phẫn nộ tột độ khi chất xám và mồ hôi nước mắt của họ bị thương mại hóa trắng trợn bởi một tổ chức được định giá hàng chục tỷ đô la. Trong khi Anthropic liên tục gọi vốn và gia tăng giá trị thương hiệu nhờ sự thông minh của thuật toán, những người sáng tạo ra nguồn tri thức nuôi dưỡng AI lại hoàn toàn bị gạt ra khỏi chuỗi lợi ích tài chính.

Áp lực khổng lồ từ dư luận cộng hưởng với những rủi ro sụp đổ thương hiệu nếu vụ án bị kéo dài ra tòa án liên bang đã buộc ban lãnh đạo công ty phải đi đến một quyết định nhượng bộ mang tính lịch sử. Vào cuối năm 2025, Anthropic chấp nhận một thỏa thuận hòa giải có giá trị lên tới 1,5 tỉ USD. Theo các điều khoản chi tiết được tòa án phê duyệt, tập đoàn này phải chi trả khoản tiền xấp xỉ 3.000 USD cho mỗi đầu sách nằm trong danh sách 500.000 tác phẩm được xác định là hợp lệ trong vụ kiện.

Con số bồi thường khổng lồ này mang một ý nghĩa sâu xa hơn một giao dịch tài chính thông thường. Nó trực tiếp thiết lập một án lệ vô cùng quan trọng, gửi đi thông điệp đanh thép đến toàn bộ ngành công nghiệp AI toàn cầu: kỷ nguyên khai thác dữ liệu bản quyền miễn phí từ các nền tảng mờ ám đã chính thức bị chôn vùi.

Sự phẫn nộ từ các đế chế công nghiệp âm nhạc

Tham vọng thống trị của Anthropic chưa bao giờ dừng lại ở giới hạn của văn bản học thuật hay văn học. Quá trình bành trướng dữ liệu huấn luyện của Claude đã vươn vòi hút sang lĩnh vực giải trí, và ngay lập tức đụng độ với những hệ thống bảo vệ quyền sở hữu trí tuệ nghiêm ngặt nhất thế giới. Universal Music Group (UMG), Concord Music Group cùng một số nhà xuất bản âm nhạc quyền lực khác đã đồng loạt nộp đơn khởi kiện, cáo buộc công ty công nghệ này sao chép và phân phối trái phép một lượng lớn lời bài hát đang được pháp luật bảo hộ chặt chẽ.

Sự việc pháp lý này bắt nguồn trực tiếp từ tính năng phản hồi văn bản siêu việt của Claude. Khi người dùng đưa ra các câu lệnh (prompt) yêu cầu cung cấp lời của một bài hát cụ thể, mô hình thuật toán này có khả năng xuất ra nguyên văn đoạn điệp khúc hoặc toàn bộ lời bài hát giống hệt bản gốc của các nghệ sĩ nổi tiếng. Các tập đoàn âm nhạc lập luận gay gắt rằng hành động sao chép nguyên bản này gây thiệt hại trực tiếp và nặng nề đến mô hình kinh doanh truyền thống của họ.

Theo luật định, các trang web cung cấp lời bài hát hoặc các nền tảng phát trực tuyến âm nhạc đều phải trả một khoản phí cấp phép (licensing fee) rất cao cho UMG thông qua các hệ thống quản lý quyền lợi như LyricFind. Việc cỗ máy AI cung cấp miễn phí lời bài hát ngay trên giao diện vấn đáp đã tước đoạt trực tiếp nguồn doanh thu hợp pháp này, biến công sức sáng tác của các nhạc sĩ thành một dịch vụ gia tăng giá trị miễn phí nhằm lôi kéo người dùng.

Đứng trước tòa án, đội ngũ luật sư của hãng công nghệ lập luận yếu ớt rằng hệ thống chỉ đang phân tích ngôn ngữ và việc xuất ra nguyên văn lời bài hát là một hiện tượng "ghi nhớ quá mức" (regurgitation) ngoài ý muốn trong quá trình tạo văn bản, hoàn toàn không phải tính năng cốt lõi được lập trình có chủ đích. Lập luận này ngay lập tức bị bẻ gãy trước các nguyên đơn lão luyện trong ngành luật sở hữu trí tuệ. Vụ việc nhanh chóng mở ra một cuộc tranh luận triết học và pháp lý sâu sắc về cơ chế hoạt động thực sự của máy học.

Giới chuyên gia bắt đầu đặt câu hỏi nghiêm túc về việc liệu các mô hình này thực sự đang "học hỏi" phong cách nghệ thuật giống như cách một nhạc sĩ con người tìm cảm hứng, hay bản chất của chúng vẫn mãi là một cỗ máy ghi nhớ và sao chép dữ liệu khổng lồ nhằm mục đích trục lợi. Những luồng tranh luận đa chiều này đẩy Anthropic vào thế vô cùng bất lợi, phơi bày bản chất của các mô hình sinh tạo văn bản hiện tại vẫn phụ thuộc hoàn toàn vào việc tái cấu trúc các kho dữ liệu có bản quyền.

Lằn ranh "sử dụng hợp lý" và sự định hình lại luật chơi công nghệ

Những vụ kiện liên tiếp nhắm vào Anthropic đã vượt xa giới hạn của các tranh chấp dân sự bồi thường thiệt hại, trở thành chất xúc tác mạnh mẽ định hình lại toàn bộ hành lang pháp lý cho ngành công nghiệp trí tuệ nhân tạo. Phán quyết mang tính bước ngoặt của Thẩm phán William Alsup trong vụ án liên quan đến giới tác giả sách đã vạch ra một ranh giới cực kỳ rõ ràng về khái niệm "sử dụng hợp lý" (fair use) trong kỷ nguyên kỹ thuật số.

Thẩm phán Alsup nhận định tinh tế rằng việc một cỗ máy đọc, trích xuất và phân tích cấu trúc ngôn ngữ từ một cuốn sách hoàn toàn có thể được xem xét là sử dụng hợp lý, tương tự như việc một cá nhân đọc sách để tích lũy kiến thức và rèn luyện tư duy. Điểm mấu chốt mang tính quyết định sự thắng thua nằm ở điều kiện tiên quyết: bản thân cuốn sách được đưa vào bộ nhớ của AI bắt buộc phải được thu thập thông qua các kênh phân phối hợp pháp.

Việc các kỹ sư phần mềm cố tình viết các tập lệnh tự động tải xuống hàng triệu bản sao kỹ thuật số từ các trang web vi phạm bản quyền rõ ràng là một hành vi ăn cắp trực tiếp ngay từ khâu đầu vào. Sự vi phạm mang tính hệ thống này đã làm hoen ố toàn bộ quá trình huấn luyện phía sau, khiến cho sản phẩm đầu ra mất đi đặc quyền được bảo vệ dưới lý lẽ mượn dữ liệu để phục vụ nghiên cứu.

Phán quyết sắc bén và thấu tình đạt lý này đã giáng một đòn mạnh mẽ, buộc Anthropic và hàng loạt các bệ phóng công nghệ cùng ngành phải thay đổi triệt để chiến lược thu thập dữ liệu huấn luyện. Thay vì sử dụng các công cụ cào dữ liệu (web scraping) quét qua mọi ngóc ngách trên internet để lấy thông tin miễn phí, họ buộc phải thay đổi thái độ và ngồi vào bàn đàm phán một cách sòng phẳng. Các hãng phát triển thuật toán hiện nay phải chấp nhận chi ra hàng trăm triệu đô la để ký kết các hợp đồng cấp phép dữ liệu hợp pháp với các nhà xuất bản tin tức lớn, các nền tảng mạng xã hội khổng lồ và các kho lưu trữ hình ảnh uy tín trên toàn cầu.

Sự trỗi dậy của các đạo luật bảo vệ quyền sở hữu trí tuệ đã đẩy chi phí phát triển các mô hình ngôn ngữ lên mức không tưởng. Để tạo ra được thế hệ Claude Code siêu việt ra mắt vào đầu năm nay, Anthropic đã phải đánh đổi bằng những khoản tiền dàn xếp pháp lý khổng lồ và các bản hợp đồng mua đứt dữ liệu cực kỳ đắt đỏ, tất cả nhằm xây dựng một hệ thống hoàn toàn minh bạch và an toàn về mặt pháp lý.

Sự thật trần trụi này mang đến một sự trớ trêu đầy cay đắng cho ban lãnh đạo công ty. Họ đã bấm bụng chấp nhận trả những cái giá đắt nhất để tuân thủ luật bản quyền dữ liệu của người khác, nỗ lực tẩy rửa quá khứ thu thập dữ liệu mờ ám của chính mình. Cuối cùng, công ty này lại hoàn toàn bất lực khi đứng nhìn chính tài sản cốt lõi và thiêng liêng nhất — toàn bộ mã nguồn tinh hoa của hệ thống Claude Code — bị đánh cắp, rò rỉ và mổ xẻ công khai bởi các nhà phát triển phương xa.

Trước khi lộ mã nguồn, Anthropic liên tục bị kiện bản quyền

Cuộc chiến pháp lý khốc liệt với giới tác giả sách

Sự phẫn nộ từ các đế chế công nghiệp âm nhạc

Lằn ranh "sử dụng hợp lý" và sự định hình lại luật chơi công nghệ

mã nguồn Claude Code

Anthropic

Sở hữu trí tuệ

Dữ liệu huấn luyện

Lộ mã nguồn

Trí tuệ nhân tạo