前两天 Andrej karpathy 解释模型生成合成数据,再用合成数据训练新的模型这种左脚踩右脚上天的「模型坍塌」问题:
『LLM 生成的内容,我们称之为「坍塌的」;它们的数据分布是「坍塌的数据分布」。举一个简单的例子就是,你去问 ChatGPT 让它讲个笑话,它翻来覆去可能就只有那么三个。它给不了你各种各样可能的笑话,它就只会那几个。这就是隐性坍塌。
所以,你根本无法从这些模型中获得人类所拥有的那种丰富性、多样性和熵。人类的思想则要复杂得多,但至少我们没有那种系统性的偏差。从统计学上讲,我们的思想不是隐性坍塌的,而是保持了巨大的熵。
因此,如何克服这种「坍塌」问题,在进行合成数据生成的同时,又能保持足够的熵,这是一个核心的研究难题。』
说到这里,他话锋一转,开始讲人类自身:
『而且我也认为,人类自身也会随着时间推移而「坍塌」。
人类在一生中确实会经历思维的「坍塌」。这就是为什么小孩子还没有过拟合。他们会说出一些让你震惊的话,虽然你能理解他们想法的逻辑,但那完全不是成年人会说的话。就是因为他们还没有「坍塌」。
而我们成年人,已经「坍塌」了。我们最终会反复地陷入同样的思维模式,说的话也越来越千篇一律,学习新事物的效率不断下降,这种「坍塌」会持续恶化,最终一切都会退化。』
——
「坍塌」简直就是绝症,唯有持续学习方能对抗!