文件指出,Anna’s Archive 承诺向英伟达开放约 500 TB 的数据,个中包含数百万本平日只能经由过程 Internet Archive 数字借阅体系拜访的图书,而后者自身也正卷入与出版商之间的版权诉讼。告状书未明白披露英伟达是否最终向 Anna’s Archive 付出费用,但同时指称,英伟达还被控应用了 Books3 以外的其他盗版来源,例如 LibGen、Sci‑Hub 和 Z‑Library 等网站。

芯片巨擘英伟达(NVIDIA)在人工智能海潮中成为最大年夜受益者之一,其用于 AI 练习的芯片和数据中间办事需求暴涨,同时还自行开辟多种大年夜模型,包含 NeMo、Retro‑48B、InstructRetro 和 Megatron,并依附海量文本数据进行练习。然而,这一过程也招致版权方日益激烈的司法还击,多名作家指控该公司大年夜范围应用盗疆土书练习模型,并在美国提起集体诉讼。

早在 2024 岁首年代,多位作者就已在集体诉讼中指控英伟达应用包含大年夜量受版权保护作品的 Books3 数据集进行练习,称个中作品来源于盗版电子书站点 Bibliotik,且未获授权,因而请求补偿损掉。英伟达方面则辩称,其模型中“书本不过是统计相干性”,试图以“合理应用”为抗辩来由,但跟着证据开示推动,原告声称控制了更多内部材料。

最新提交的一份修改告状书大年夜幅扩大了诉讼范围,除了新增更多作品、作者与模型外,还引入了更广泛的“影子藏书楼”相干指控。包含 Abdi Nazemian 在内的多名作者在文件中引用英伟达内部邮件和文件,称该公司在竞争压力下“被驱赶向盗版”,主动从多个盗版数据源获取图书,个中包含备受争议的 Anna’s Archive。

告状书声称,英伟达数据计谋团队的一名成员曾主动接洽 Anna’s Archive,询问这家“影子藏书楼”能为这家市值数万亿美元的公司供给什么,并明白提到欲望将 Anna’s Archive 纳入其大年夜说话模型(LLM)的预练习数据。因为 Anna’s Archive 为“高速拜访”其盗版资本收取数万美元费用,英伟达据称还专门打听若何获得这种高速拜访情势。

据指控,Anna’s Archive 随后明白提示英伟达,其馆藏是经由过程不法方法获取并保持的,并表示此前已被其他 AI 公司“白白浪费过时光”,是以请求英伟达方面确认是否获得内部授权方可推动会谈。告状书称,在获得这一警告仅几天后,英伟达治理层即在一周内给出了“绿灯”,赞成持续推动,并获得了对 Anna’s Archive 大年夜量盗版书本的拜访权。

除了为自家模型下载并应用盗疆土书,英伟达还被指向企业客户分发脚本和对象,使其可以主动下载包含 Books3 数据集的“The Pile”数据集。原告据此提出新的“替代侵权”“合营侵权”等指控,称英伟达一方面经由过程内部练习应用盗版数据获益,另一方面又经由过程赞助客户获取这些数据间接收益,从而从侵权行动中获得收入。

基于上述指控,作者们请求法院判令英伟达就其遭受的损掉进行补偿,既包含已签字的作者,也包含将来可能参加集体诉讼的浩瀚作者。这也是初次有文件公开披露大年夜型美国科技公司与 Anna’s Archive 之间的直接接触记录,舆论认为,这一披露很可能进一步举高这家方才因法院敕令而损掉多个域名的盗疆土书馆在"大众,"视野中的曝光度。

相干修改后的归并告状书已提交至美国加州北区联邦地区法院,文件中列出的签字作者包含 Abdi Nazemian、Brian Keene、Stewart O’Nan、Andre Dubus III 和 Susan Orlean 等。案件的进展不仅将进一步考验 AI 练习与版权法之间的界线,也可能对全部行业应用“影子藏书楼”数据的合规风险产生示范效应。

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部