“没吃过猪肉,还没见过猪跑吗?”= 世界模型
说到世界模型,我可就不困了。
打住,枯燥的科普到后面去看,现在我们先来关注猪。
我们可以见过猪跑,来预测猪的行为轨迹。这就是我们大脑构建的世界模型。
这应该是三岁儿童就能构建出来的世界模型
当我们认识到更多世界之后,我们还能有预测更复杂的逻辑,比如“风大了,猪都能飞起来。”这都是因为我们见到了足够多的世界,才能理解到这个世界的运行规律。
这也就是世界模型的本质。通过对海量因果关系的学习,获得了对于世界的理解。
好了我们理解了猪的规律之后,回来看看科普。
这两天人工智能泰斗 Lifeifei 和小鹏汽车AD掌门人分别对世界模型发表了看法。Lifeifei 说:世界模型可以分类为渲染器和模拟器和规划器。 三者分别对应不同的具体任务。但是有一点是一样的,都理解了世界发展的规律。输出表现分别是 像素,状态,动作。到猪这里分别是,猪的视频,猪的速度,猪的运动轨迹。
而刘先明这边界定了VLA 和世界模型的区隔,从人类行为中学习,从世界演变过程中学习。学习的途径不一样,但是其实实现的都是同一个目标: 能够充分理解世界并且与之互动的基础模型。
不仅要理解猪,也要理解车,还要理解人,还能进行互动。
PS: 我本来也要去CVPR的,一些原因导致我在这里写猪,发微博。
PS: 要是他们知道我把图片但在一个这样的科普下面,会不会要求我删掉?
小鹏特斯拉英伟达高管同框小鹏第三次受邀出席国际学术顶会CVPR

