为了创造克劳德,我们切碎了数百万本书:Anthropic“巴拿马计划”的真相

15亿美元和解,数百万本书籍被毁:主要内容

  • Anthropic购买数百万本用于训练Claude的书籍后将其销毁,扫描后销毁
  • 内部文件:“巴拿马项目是试图破坏性地扫描全球书籍”
  • 15亿美元和解,作者每本书获得约3,000美元

发生了什么?

Anthropic的秘密项目因公开超过4,000页的法庭文件而曝光。代号为“巴拿马项目”。内部计划文件明确指出“巴拿马项目是我们试图破坏性地扫描全球书籍的努力”。从Better World Books和World of Books等二手书店大量购买数万本书籍。用“液压切割机”干净利落地切割书脊。用高速、高质量的扫描仪扫描页面。然后回收公司收集剩余的残骸。[Techmeme]

该项目由Tom Turvey领导。他是20年前创建Google Books项目的前Google高管。大约一年时间里,Anthropic花费数千万美元来获取和扫描数百万本书籍。[Futurism]

为什么重要?

坦率地说,这展示了获取AI训练数据的真实面貌。

Anthropic为什么选择这种方法?首先,为了避免非法下载的风险。其次,购买二手书并随意处理可能根据“首次销售原则”是合法的。实际上,法官承认这种扫描方法本身是合理使用。[CNBC]

但是,存在问题。在巴拿马项目之前,Anthropic从Library Genesis和Pirate Library Mirror等非法网站免费下载了超过700万本书籍。法官裁定这部分可能构成侵犯版权。[NPR]

我个人认为这是关键。问题在于他们首先非法下载,而不是为了销毁“合法”书籍而进行扫描。Anthropic本身也意识到了这一点。内部文件明确指出“我们不希望这项工作被公开”。它会奏效吗?

15亿美元的和解是AI版权纠纷历史上最大的一笔。对于估计的50万本书籍,作者每本书将获得约3,000美元。[PBS]

AI有其他先例。对公司的影响是巨大的。OpenAI、Google和Meta也面临类似的诉讼。“购买书籍并扫描是可以的,但非法下载是不允许的”这一标准已经明确。

Anthropic已经卷入了音乐版权诉讼。另一项诉讼于1月份提起,音乐出版商声称Claude 4.5接受了“记忆”受版权保护作品的训练。[Watchdog]

常见问题

问:巴拿马项目中实际可以使用多少本书?它们被销毁了吗?

答:法庭文件显示,最多有200万本书籍是“破坏性扫描”的目标。Anthropic从Better World Books和World of Books等二手书店购买了数万本书籍,估计在一年左右的时间里花费了数千万美元来处理数百万本书籍。

问:作者将获得多少钱?

答:15亿美元的和解适用于约50万本书籍。每本书约3,000美元。非法下载书籍的作者有资格提出索赔,如果和解获得法院批准,他们可以单独提出索赔。但是,如果并非所有作者都提出索赔,那么实际收到的金额可能会增加。

问:购买书籍并扫描是合法的吗?

答:法官承认这种方法是合理使用。这是因为根据“首次销售原则”,购买的书籍可以随意处置。但是,Anthropic的问题在于在巴拿马项目之前从非法网站下载了书籍。合法购买书籍的扫描目前是合法的。


如果这篇文章对您有帮助,请订阅AI Digester。

参考资料

发表评论