泡泡资讯网

赛博秦始皇,修AI版本《四库全书》 AI训练已经消耗完毕了人类的文字信息,只能

赛博秦始皇,修AI版本《四库全书》

AI训练已经消耗完毕了人类的文字信息,只能蒸馏实体书本了;

Anthropic购买百万实体书,扫描蒸馏后销毁,就是购买实体书籍,然后切开,扫描,形成文字,供大模型使用;然后将书籍纸张回收处理。

为什么要销毁?因为成本,无破坏扫描成本太高,效率极低。

用液压切纸机将书脊切开,变成一坨纸,然后有一台工业扫描仪自动扫描文字。

因为如今的互联网上的文字太水,网络污染太严重了,旧书经过人类编辑审校,高质量且无污染;

我怎么感觉有点像赛博秦始皇,修AI版本《四库全书》