


IT之家 1 月 20 日消息,据 Torrentfreak 报道,英伟达高管曾批准使用“安娜档案馆”的数百万本盗版书籍,为其人工智能模型训练提供数据支持。在一项援引英伟达内部文件的集体诉讼案中,数位图书作者指控这家公司曾直接联系“安娜档案馆”,寻求该影子图书馆数据的高速访问权限。
据IT之家了解,芯片巨头英伟达一直是人工智能热潮中的主要财务受益者之一。得益于市场对其人工智能训练芯片及数据中心服务的旺盛需求,该公司营收大幅增长,且这一增长势头尚无见顶迹象。
除了销售市场炙手可热的硬件产品外,英伟达也在自主研发人工智能模型,包括 NeMo、Retro-48B、InstructRetro 以及 Megatron。与其他科技巨头的做法类似,这些模型均依托英伟达自研硬件,并借助海量文本库开展训练。
与其他科技公司一样,英伟达的模型训练方法也遭到版权方的强烈法律抵制,其中就包括图书作者。在多起诉讼中,作者们指控科技公司使用盗版书籍训练人工智能模型。
例如,2024 年初,数位作者就曾以涉嫌侵犯版权为由将英伟达告上法庭。在这起集体诉讼中,原告方主张,英伟达的人工智能模型是基于 Books3 数据集训练的,而该数据集包含了从盗版网站 Bibliotik 获取的受版权保护作品。由于上述行为未经版权方许可,作者们要求英伟达作出赔偿。
对此,英伟达辩称其行为属于“合理使用”,声称书籍对其人工智能模型而言不过是一组统计关联数据。然而,相关指控并未就此平息。相反,原告方在证据开示阶段发现了更多佐证。
上周五,原告方提交了经修订的起诉状,大幅扩大了诉讼范围。除新增更多涉案书籍、作者及人工智能模型外,诉状还纳入了更广泛的“影子图书馆”相关指控。
包括阿布迪 · 纳泽米安在内的原告作者,如今援引了英伟达的多份内部邮件及文件,指出该公司曾蓄意下载数百万本受版权保护的图书。这份新诉状指出,“市场竞争压力驱使英伟达走上盗版之路”,其中就包括与颇具争议的“安娜档案馆”图书馆展开合作。
诉状称,英伟达数据战略团队的一名成员曾主动联系“安娜档案馆”,旨在了解这家盗版图书馆能为这家企业提供哪些资源。诉状中提到:“因急需海量图书数据,英伟达主动接洽了现存规模最大、也最为肆无忌惮的影子图书馆 ——‘安娜档案馆’,洽谈获取其数百万份盗版资料,并探讨将‘安娜档案馆’纳入其大语言模型预训练数据的可行性。由于‘安娜档案馆’对其盗版资源的‘高速访问权限’收取数万美元费用…… 英伟达试图了解获取该数据高速访问权限的具体方案。”
诉状显示,“安娜档案馆”随后向英伟达警示,其图书馆内的藏书均为非法获取和留存。鉴于该网站此前曾与其他人工智能公司合作并耗费大量时间,这家盗版图书馆要求英伟达高管确认,其是否已获得内部授权推进相关合作。
据称,英伟达方面在一周内就批准了这项合作,随后“安娜档案馆”便向这家芯片巨头开放了盗版书籍的访问权限。诉状称:“在联系‘安娜档案馆’一周后,且在被告知其藏书存在非法性的数天后,英伟达管理层仍‘开绿灯’批准推进这项盗版合作。‘安娜档案馆’向英伟达提供了数百万本受版权保护的盗版书籍。”
诉状指出,“安娜档案馆”承诺向英伟达开放约 500TB 的数据访问权限,其中包含数百万本图书,这些图书通常仅能通过“互联网档案馆”的数字借阅系统获取,而该档案馆本身也已身陷相关诉讼。
诉状并未明确提及英伟达最终是否向“安娜档案馆”支付了数据访问费用。
此外,值得注意的是,英伟达还被指控使用了其他盗版数据源。除此前涉案的 Books3 数据库外,新诉状还指出,该公司曾从“图书馆基因”(LibGen)、“科学枢纽”(Sci-Hub)以及“Z 图书馆”(Z-Library)等平台下载图书。
原告方称,英伟达除了自身下载并使用盗版书籍训练人工智能模型外,还向企业客户分发脚本和工具,使其能够自动下载包含盗版 Books3 数据集的“The Pile”数据库。
这些指控衍生出两项新的诉讼主张 —— 辅助侵权与共同侵权,原告方认为英伟达通过为客户获取盗版数据集提供便利,从中牟利。
基于上述及其他相关指控,作者们要求英伟达就其所遭受的损失作出赔偿。该诉求不仅适用于本案具名原告,也涵盖未来可能加入这起集体诉讼的其他数百位作者。
据目前掌握的信息,这是美国大型科技公司与“安娜档案馆”的往来函件首次被公开披露。而就在不久前,“安娜档案馆”刚丢失了多个域名,此次事件无疑将进一步提升这家盗版图书馆的公众关注度。
“特别声明:以上作品内容(包括在内的视频、图片或音频)为凤凰网旗下自媒体平台“大风号”用户上传并发布,本平台仅提供信息存储空间服务。
Notice: The content above (including the videos, pictures and audios if any) is uploaded and posted by the user of Dafeng Hao, which is a social media platform and merely provides information storage space services.”