赛博秦始皇,修AI版本《四库全书》
AI训练已经消耗完毕了人类的文字信息,只能蒸馏实体书本了;
Anthropic购买百万实体书,扫描蒸馏后销毁,就是购买实体书籍,然后切开,扫描,形成文字,供大模型使用;然后将书籍纸张回收处理。
为什么要销毁?因为成本,无破坏扫描成本太高,效率极低。
用液压切纸机将书脊切开,变成一坨纸,然后有一台工业扫描仪自动扫描文字。
因为如今的互联网上的文字太水,网络污染太严重了,旧书经过人类编辑审校,高质量且无污染;
我怎么感觉有点像赛博秦始皇,修AI版本《四库全书》
赛博秦始皇,修AI版本《四库全书》 AI训练已经消耗完毕了人类的文字信息,只能
阅读:0
点赞:0