[LG]《A Bitter Lesson for Data Filtering》

[LG]《A Bitter Lesson for Data Filtering》C Mohri, J Duchi, T Hashimoto [Stanford University] (2026)

在预训练数据筛选领域，“保留高质量文本”是一个被默认接受的难题。过去的方法受困于小算力下的筛选收益，本质原因是把短期训练效率误认成了数据的最终价值。

本文的核心洞见是：把脏数据重新看作可被大模型容量吸收的弱信号。由此，在模型足够大、训练足够久时直接使用完整 Common Crawl，使低质文本不再只是噪声。

这项工作真正留下的遗产是把数据过滤从“越干净越好”改写为“算力决定边界”。它为后来者打开的新门是按规模重新设计数据策略，但尚未跨过的门槛是真假混杂内容仍可能教错事实。

arxiv.org/abs/2605.19407 机器学习人工智能论文 AI创造营

泡泡资讯网