Apple bị cáo buộc sao chép hàng triệu video trên YouTube
Mới đây, Apple đã bị cáo buộc thu thập hàng triệu video từ YouTube, khiến nhiều người thất vọng.
Những nỗ lực về trí tuệ nhân tạo (AI) của Apple gần đây không mấy khả quan và diễn biến mới này càng làm trầm trọng thêm điều đó. Mới đây, Apple đã bị kiện tập thể, bị cáo buộc thu thập hàng triệu video từ YouTube để huấn luyện một mô hình AI. Đối với một công ty coi trọng quyền riêng tư, đây là một điều đáng thất vọng.
Ba nhà sáng tạo nội dung trên YouTube kiện Apple ra tòa
Một báo cáo mới tiết lộ ba kênh YouTube (Ted Entertainment, Matt Fisher và Golfholics) đã đệ đơn kiện, cáo buộc Apple đã vượt qua các biện pháp bảo vệ chống thu thập dữ liệu trái phép của YouTube để tải xuống hàng triệu video. Mục đích được cho là để huấn luyện một mô hình AI tạo video được mô tả trong một bài nghiên cứu mà Apple đã công bố vào cuối năm 2024.
Nghiên cứu đó đề cập đến Panda-70M, một chỉ mục khổng lồ về các video YouTube được sắp xếp theo URL, ID video và dấu thời gian. Các nguyên đơn cho biết, nội dung của họ xuất hiện hơn 500 lần trong tập dữ liệu và họ muốn đại diện cho tất cả những người sáng tạo nội dung trong tình huống tương tự.

CEO Apple - Tim Cook.
Lỗ hổng trong bộ dữ liệu bị khai thác
Điều khiến vụ việc này trở nên nghiêm trọng là cách thức hoạt động của bộ dữ liệu. Panda-70M không chứa chính các video. Chúng giống như một bản đồ chi tiết chỉ ra nội dung của người khác nhưng việc tải xuống và sử dụng những video đó vẫn đồng nghĩa với việc vượt qua các biện pháp bảo vệ của YouTube.
Apple cũng không phải là trường hợp duy nhất. Amazon và OpenAI cũng phải đối mặt với các vụ kiện tương tự về cùng một bộ dữ liệu. Điều này đang trở thành một xu hướng trên toàn ngành: các công ty công nghệ coi nội dung của người sáng tạo như nguồn nhiên liệu AI miễn phí và hy vọng không ai phản đối.
"Nhà Táo" cũng đã từng trải qua điều này. Vào năm 2024, công ty đã sử dụng phụ đề YouTube mà không được phép để huấn luyện các mô hình AI mã nguồn mở.
Người sáng tạo và nhà xuất bản đang phản đối
Vấn đề cốt lõi là ngành công nghiệp AI đang gặp vấn đề về dữ liệu huấn luyện. Khi các công ty chạy đua để xây dựng các mô hình tốt hơn, việc thu thập nội dung có sẵn công khai đang thắng thế so với việc cấp phép sử dụng.
Các nhà xuất bản đã bắt đầu phản đối các trình thu thập dữ liệu web của Apple, và giờ đây các nhà sáng tạo cá nhân cũng đang tham gia cùng họ. Về cơ bản, các tính năng AI trên điện thoại đang được xây dựng dựa trên nội dung mà người tạo ra chúng chưa đồng ý.
Apple không thể chấp nhận sự trớ trêu này
Điều khiến sự liên quan của Apple trở nên đặc biệt khó xử là hãng vẫn đang cố gắng bắt kịp trong lĩnh vực AI. Apple Intelligence đã trải qua nhiều khó khăn, từ việc trì hoãn các tính năng, thất hứa cho đến các vụ kiện của cổ đông. Công ty liên tục mất đi các nhà nghiên cứu AI hàng đầu vào tay các "đối thủ" cạnh tranh, chính ban lãnh đạo cũng thừa nhận rằng công ty đã chậm chân trong lĩnh vực AI.

Ảnh minh họa.
Vì vậy, chúng ta đang chứng kiến một công ty đã tụt hậu, vội vàng thu hẹp khoảng cách, bị cáo buộc đã cắt giảm chi phí trong việc thu thập dữ liệu huấn luyện. Trong khi đó, hãng vẫn khẳng định rằng quyền riêng tư là một quyền cơ bản của con người.
Khi Amazon và OpenAI cũng phải đối mặt với những cáo buộc tương tự, những vụ kiện của các công ty công nghệ này sẽ gây ảnh hưởng nặng nề hơn rất nhiều tới người dùng.
Bình luận