鞭牛士报道,11月21日消息,据外电报道,《纽约时报》和《每日新闻》起诉OpenAI未经许可抓取其作品来训练其 AI 模型,两家公司的律师表示,OpenAI 工程师意外删除了可能与案件相关的数据。
今年秋初,OpenAI 同意提供两台虚拟机,以便《纽约时报》和《每日新闻》的律师可以在其 AI 训练集中搜索其受版权保护的内容。
虚拟机是基于软件的计算机,存在于另一台计算机的操作系统中,通常用于测试、备份数据和运行应用程序。
出版商的律师在一封信中表示,他们和他们聘请的专家自 11 月 1 日以来已经花了 150 多个小时搜索 OpenAI 的训练数据。
但根据上述信件(该信件于周三晚间提交给纽约南区美国地方法院)显示,11 月 14 日,OpenAI 工程师删除了其中一台虚拟机上存储的所有出版商的搜索数据。
OpenAI 尝试恢复数据,并且基本成功。然而,由于文件夹结构和文件名无法挽回地丢失,恢复的数据无法用于确定新闻原告复制的文章在何处用于构建OpenAI模型。
「新闻原告被迫投入大量人力和计算机处理时间,从头开始重新制作他们的工作。」《纽约时报》和《每日新闻》的律师写道。「新闻原告昨天才得知恢复的数据无法使用,专家和律师整整一周的工作必须重新完成,这就是今天提交这封补充信的原因。」
原告律师明确表示,他们没有理由相信删除是故意的。但他们表示,这一事件凸显了 OpenAI最有能力利用自己的工具在自己的数据集中搜索潜在的侵权内容。
OpenAI 发言人拒绝发表声明。
在本案和其他案件中,OpenAI 一直坚持认为,使用公开数据(包括《纽约时报》和《每日新闻》的文章)训练模型是合理使用。
换句话说,在创建 GPT-4o这样的模型时,OpenAI 认为它不需要获得许可或以其他方式为这些示例付费——即使它从这些模型中赚钱。GPT-4o 可以从数十亿电子书、论文等示例中学习以生成听起来像人类的文本。
话虽如此,OpenAI 已经与越来越多的新出版商签署了许可协议,其中包括美联社、Business Insider 所有者 Axel Springer、金融时报、People 母公司 Dotdash Meredith 和新闻集团。OpenAI 拒绝公开这些交易的条款,但据报道,其中一个内容合作伙伴 Dotdash每年至少获得 1600 万美元的报酬。
OpenAI 既没有确认也没有否认其在未经许可的情况下将其 AI 系统训练在任何特定的受版权保护的作品上。
“特别声明:以上作品内容(包括在内的视频、图片或音频)为凤凰网旗下自媒体平台“大风号”用户上传并发布,本平台仅提供信息存储空间服务。
Notice: The content above (including the videos, pictures and audios if any) is uploaded and posted by the user of Dafeng Hao, which is a social media platform and merely provides information storage space services.”