OpenAI nói khó tránh nội dung bản quyền khi đào tạo AI

Đối mặt với các vụ kiện, OpenAI cho rằng nếu không sử dụng nội dung có bản quyền, việc đào tạo những AI hàng đầu là “không thể”.

“Khái niệm bản quyền ngày nay bao trùm gần như mọi loại biểu hiện của con người, từ bài đăng blog, diễn đàn, hình ảnh cho đến mã code phần mềm và tài liệu, nên không thể đào tạo mô hình AI hàng đầu nếu không sử dụng tài liệu có bản quyền”, OpenAI nêu trong bức thư gửi lên Ủy ban Kỹ thuật số và Truyền thông thuộc Hạ viện Anh cuối tuần trước, sau khi cơ quan này điều tra về rủi ro đối với các mô hình AI như ChatGPT.

Sam Altman, đồng sáng lập và cựu CEO OpenAI. Ảnh: TechCrunch

Theo bản đệ trình, nếu chỉ lấy dữ liệu miễn phí vốn đã có cách đây hàng thập kỷ để huấn luyện, AI “chỉ mang lại trải nghiệm thú vị nhưng không đáp ứng đủ các yêu cầu mà người dùng ngày nay cần”. OpenAI khẳng định sẽ tuân thủ luật bản quyền, nhưng “còn nhiều việc phải làm để hỗ trợ cho người sáng tạo”.

OpenAI đang trong tầm ngắm về bản quyền, khi giới nhà văn, nghệ sĩ, nhà khoa học… cáo buộc các mô hình như ChatGPT sử dụng tác phẩm của họ để đào tạo mà không xin phép hoặc trả tiền tác quyền. Cuối năm ngoái, New York Times đã nộp đơn kiện với lý do OpenAI và Microsoft sử dụng hàng triệu bài báo để đào tạo các mô hình ngôn ngữ lớn (LLM). Ngày 6/1, hai nhà văn và nhà báo cũng kiện hai công ty này vì sử dụng tác phẩm của họ để làm dữ liệu huấn luyện mô hình GPT.

Theo Washington Post, các mô hình LLM như ChatGPT hoạt động bằng cách thu thập tài nguyên khổng lồ trên Internet, sau đó phân tích các mối liên hệ, phát triển khả năng dự đoán từ nào sẽ nói tiếp theo trong câu để bắt chước lời nói của con người. OpenAI, Microsoft và Google nhiều lần từ chối tiết lộ dùng dữ liệu gì để đào tạo AI, nhưng các LLM trước đây được chứng minh đã sử dụng lượng lớn nội dung có bản quyền.

Nghiên cứu được công bố ngày 5/1 của Hiệp hội Kỹ sư Điện và Điện tử IEEE cho thấy Midjourney và Dall-E 3 của OpenAI, hai trong số các mô hình AI tạo ảnh, có thể dựng lại cảnh có bản quyền từ phim và trò chơi điện tử dựa trên dữ liệu đào tạo chúng.

Về thư của OpenAI gửi lên Hạ viện Anh, Gary Marcus, một trong hai tác giả của nghiên cứu trên, nhận xét trên X: “Họ nói vậy có nghĩa: Chúng tôi sẽ không thể trở nên giàu có nếu bạn không cho chúng tôi ăn trộm, vì vậy đừng bắt chúng tôi phải trả phí bản quyền”.

Tyler Ochoa, giáo sư khoa luật tại Đại học Santa Clara ở California, nói với The Register rằng việc xác định bản quyền trong các tác phẩm AI rất khó thống nhất. “Vấn đề của luật bản quyền là cần xem ai chịu trách nhiệm về những kết quả đạo văn này: người tạo ra mô hình AI, hay người yêu cầu AI tạo ra sản phẩm”, ông nói.

Bài viết liên quan

Trả lời