为了创造克劳德,他们切割了数百万本书:Anthropic的巴拿马计划真相

15亿美元和解,数百万本书籍被毁:核心总结

  • Anthropic购买了数百万本书籍用于Claude的学习,切断书脊扫描后废弃处理
  • 内部文件:“巴拿马项目是试图破坏性地扫描世界上所有的书籍”
  • 以15亿美元(约2万亿韩元)的和解金赔偿作家,每本书约3000美元

发生了什么?

超过4000页的法院文件公开,揭露了Anthropic的秘密项目。代号“巴拿马项目”。内部规划文件写道:“巴拿马项目是我们努力破坏性地扫描世界上所有的书籍。”[Washington Post]

方式是这样的。从Better World Books、World of Books等二手书店大量购买数万本书籍。用“液压切割机”干净利落地切断书脊。用高速高质量扫描仪扫描页面。然后回收公司回收剩余的残骸。[Techmeme]

领导该项目的是Tom Turvey。他是20年前创建Google Books项目的谷歌前高管。大约一年内,Anthropic投资数千万美元,获取并扫描了数百万本书籍。[Futurism]

为什么重要?

坦率地说,这揭示了AI学习数据获取的真相。

Anthropic为什么选择这种方式?首先,为了避免非法下载的风险。其次,购买二手书并随意处理,在“首次销售原则”(first-sale doctrine)上很可能是合法的。实际上,法官也承认这种扫描方式本身是合理使用(fair use)。[CNBC]

但问题是。在巴拿马项目之前,Anthropic从Library Genesis、Pirate Library Mirror等非法网站免费下载了超过700万本书籍。法官认为这部分可能构成侵犯版权。[NPR]

我个人认为这是关键。问题在于,在“合法”的书籍销毁扫描之前,他们首先进行了非法下载。Anthropic自己也意识到了这一点——内部文件写道“不希望这项工作被公开”。

未来会怎样?

15亿美元的和解金是AI版权纠纷历史上最大的一笔。估计有50万本书籍,每本书约3000美元将返还给作者。[PBS]

这个判例对其他AI公司影响很大。OpenAI、Google、Meta也面临着类似的诉讼。“买书扫描可以,但非法下载不行”的标准变得明确。

Anthropic目前还在进行音乐版权诉讼。音乐出版商在1月份提起了单独的诉讼,声称Claude 4.5被训练成“记忆”受版权保护的作品。[IP Watchdog]

常见问题 (FAQ)

Q: 巴拿马项目中实际销毁了多少本书籍?

A: 法院文件显示,最多有200万本书籍是“破坏性扫描”的对象。Anthropic从Better World Books、World of Books等二手书店购买了数万本书籍,估计在一年内投资数千万美元处理了数百万本书籍。

Q: 作者们能得到多少钱?

A: 15亿美元的和解金适用于约50万本书籍。每本书约3000美元。非法下载书籍的作者可以提出索赔,如果和解获得法院批准,他们可以单独提出索赔。但是,如果并非所有作者都提出索赔,则实际收到的金额可能会增加。

Q: 买书扫描合法吗?

A: 法官承认这种方式是合理使用。因为根据“首次销售原则”,购买的书籍可以随意处理。但是,Anthropic的问题在于在巴拿马项目之前从非法网站下载书籍。根据目前的标准,合法购买的书籍的扫描是合法的。


如果这篇文章对您有帮助,请订阅AI Digester。

参考资料

发表评论