小红书上也有人在聊这事,说法都是标题那个夸大风格,什么“A社把人类常识库蒸馏了”“古籍全部没了”。

法官整体偏向认为,这类模式具备较强的fair use抗辩基本。比拟直接去盗版网站扒书,司法风险确切低很多。


这事吧,有真有假。真的部分远比小说还魔幻,假的部分也确切被放大年夜了不少。我翻了媒体报道和法院文件,给你们捋一捋。

真事,巴拿马项目确切存在

2026岁首年代,法庭文件曝光了Anthropic一个代号“Project Panama”的内部筹划。

这个项目标目标简单粗暴,搞到世界上所有的书。2024年2月,Anthropic挖来了曾介入Google Books项目标Tom Turvey,交给他一个听起来像反派台词的义务,获取“世界上所有的书”。

怎么搞的呢?投入了大年夜量资金,从二手书零售商和Strand如许的实体书店,大年夜量采购实体书。然后拉到仓库里,切掉落书脊进行破坏性高速扫描成PDF,剩下的纸质残骸送去收受接收公司烧毁。


A社为什么敢这么干,不违法吗?

但实际上,Anthropic也干了盗版的事。这事就复杂了。

巴拿马项目之所以被曝光,是因为Anthropic同时被作家们告状,他们早期就从LibGen(一个盗版电子书网站)下载了大年夜量书本用于练习。CEO Dario Amodei管出版商的许可会谈叫“司法/实践/贸易上的麻烦”,所以早期干脆用盗版。后来认为风险太大年夜,才回头搞了实体书破坏性扫描这套筹划。

2025年,媒体曾报道Anthropic推动了一项范围约15亿美元的和解筹划,针对的是盗版数据集的集体诉讼。留意,这15亿重要指向盗版那笔账,不是为巴拿马项目本身买单。这在AI版权范畴被认为是金额最高的和解之一。

中文翻译过来叫巴拿马项目。

法官对“合法购买加扫描练习”这个模式整体持支撑立场,假如Anthropic从一开端就走这条路,他们的fair use抗辩会更有力。但先干盗版再转正的做法,至少在道义和舆论上已经把本身的门路走窄了。当然话说回来,AI练习的fair use在美国整体仍然没有最终定论,Meta、OpenAI的案子都还在打,这个范畴远没到盖棺定论的时刻。

真的和小说情节一毛一样

这确切是最魔幻的部分。

Vernor Vinge在2006年写的小说《The Rainbow's End》里,有一个名为Librareome Project的设定:藏书楼用破坏性扫描的方法数字化馆藏,然后烧毁纸质书本。

2026年,Anthropic在实际世界里做了高度类似的事。

科幻作家不是在预言将来,他只是在写一个听起来合理但又够极端的故事。谁知道二十年后的AI公司看了一眼,认为这是个好主意。

被夸大的部分

不过网上传的那些说法,确切有不少须要改正的。

第一,不是“珍稀古籍”。Anthropic采购的主如果流畅量比较大年夜的二手通俗书本,从大年夜型零售商那边批量拿货。不是孤本、善本,不是什么具有文物价值的器械。真正抗议的主如果作家和出版商协会,因为他们主意版权被侵犯,而不是文博界的文物保护单位——被烧毁的只是工业印刷品,不是弗成再生的文化遗产。

第二,没有“蒸馏了人类大年夜部分常识库”那么夸大。他们处理了几百万册书没错,但人类汗青上出版的书本以数十亿计。几百万册在这个量级面前,只是很小的一部分。更精确的说法是,他们获取了一部分高质量文本用于练习,不是把人类常识蒸馏了。

Anthropic的司法论证部分依附于“初次发卖原则”,你买了实体书,就有权对这个副本做任何处理,包含烧毁。再叠加“合理应用”的多身分断定,合法取得副本、扫描后烧毁原件、数字文件仅内部应用纰谬外分发、且不替代原书市场——法官综合评估了这几条,最终认定构成合理应用。

推文浏览超百万,转发评论一大年夜堆。

第三,做法固然粗暴,但偏向其实挺明白的。Anthropic的结合开创人早在2023年就写过,用书本练习模型能让AI学会“若何写得更好”,而不是去模仿那些质量参差不齐的收集用语。这个念头本身没什么问题,问题出在履行方法上。

Anthropic为了给AI喂书,雇人切书脊、高速扫描、然后烧毁。Claude学会写那些漂亮句子的同时,上百万本实体书变成了收受接收纸浆。

有效户曾让Claude评价这一事宜,Claude给出过一段颇具文学性的回应:「这些烧毁行动赞助创造了可以或许评论辩论文学、帮人写作、与人类常识对话的我,这层复杂性我还在消化傍边。就像是用一座藏书楼的灰烬建造起来的一样。

这话说的,看起来确切像蒸馏了不少文学书本。

但说真的,用灰烬聚积出来的智能,到底能在人类常识的废墟上站多久,谁也不知道。

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部