谷歌新论文 Vision Banana
图像生成模型其实是隐藏的"全能视觉大师"——你只需轻轻教它一下格式,它就能在分割、深度估计、法线估计等各种视觉理解任务上打败专门训练的专家模型。
谷歌给的结论:
- 生成式视觉预训练扮演着与 LLM 预训练相似的基础性角色。- 图像生成可以作为视觉任务的通用接口,这与文本生成在语言理解和推理中的作用如出一辙。目前计算机视觉领域的主流做法是:每个任务训一个专门的模型。比如:- 分割用 SAM 3- 深度估计用 Depth Anything- 表面法线估计用 Lotus-2但 NLP 领域已经证明:一个通用的大模型(LLM)通过生成式预训练 + 指令微调,就能搞定所有语言任务。这篇论文问了一个关键问题:视觉领域是不是也能走同样的路?图像生成模型是不是已经偷偷学会了理解视觉世界,只是还没被"激活"?怎么做的?1. 基座模型:Nano Banana Pro (NBP) —— 一个强大的图像生成模型2. 关键技巧——RGB 统一输出:把所有视觉任务的输出都编码成 RGB 图像比如:- 分割 → 用不同颜色标注不同类别/实例的图- 深度估计 → 用颜色编码距离(黑=近,白=远)- 法线估计 → 法线方向直接映射到 RGB 三通道3. 轻量指令微调:只在 NBP 原有训练数据中混入少量视觉任务数据,教模型"按特定格式输出",而不是教它从头学视觉理解。4. 结果模型:Vision Banana主要成果2D 理解 - 分割任务: - 语义分割(Cityscapes):mIoU 0.699,超过 SAM 3(0.652) - 指代表达分割(RefCOCOg):cIoU 0.738,超过 SAM 3 Agent(0.734) - 推理分割(ReasonSeg):gIoU 0.793,超过 SAM 3 Agent(0.770) 3D 理解: - 度量深度估计:4个数据集平均 δ1 达到 0.929,超过 Depth Anything V3(0.918) - 表面法线估计:室内平均角度误差 15.55°,超过 Lotus-2(16.56°)生成能力没丢: - 文生图(GenAI-Bench):53.5% 胜率 vs 基座模型 - 图像编辑:47.8% 胜率 vs 基座模型(基本持平)局限和未来方向 - 计算开销大:生成模型推理比轻量专家模型贵很多 - 目前只处理单目图像,还没扩展到多视角/视频 - 实例分割还有差距(SA-Co/Gold 上不如 SAM 3) - 未来可能扩展到视频生成模型、多视角输入、与 LLM 深度融合整体评价:这是一篇相当有分量的论文。它用扎实的实验证据证明了"图像生成 = 隐式视觉理解"这个直觉,而且方法优雅——用 RGB 编码统一所有任务,用指令微调"解锁"已有能力。如果这个方向成立,未来的视觉基础模型可能不需要判别式预训练了,直接从生成模型出发就行。
链接:vision-banana.github.io


