谷歌新论文 Vision Banana图像生成模型其实是隐藏的"全能视觉大师"—

谷歌新论文 Vision Banana

图像生成模型其实是隐藏的"全能视觉大师"——你只需轻轻教它一下格式，它就能在分割、深度估计、法线估计等各种视觉理解任务上打败专门训练的专家模型。

谷歌给的结论：

- 生成式视觉预训练扮演着与 LLM 预训练相似的基础性角色。- 图像生成可以作为视觉任务的通用接口，这与文本生成在语言理解和推理中的作用如出一辙。目前计算机视觉领域的主流做法是：每个任务训一个专门的模型。比如：- 分割用 SAM 3- 深度估计用 Depth Anything- 表面法线估计用 Lotus-2但 NLP 领域已经证明：一个通用的大模型（LLM）通过生成式预训练 + 指令微调，就能搞定所有语言任务。这篇论文问了一个关键问题：视觉领域是不是也能走同样的路？图像生成模型是不是已经偷偷学会了理解视觉世界，只是还没被"激活"？怎么做的？1. 基座模型：Nano Banana Pro (NBP) —— 一个强大的图像生成模型2. 关键技巧——RGB 统一输出：把所有视觉任务的输出都编码成 RGB 图像比如：- 分割 → 用不同颜色标注不同类别/实例的图- 深度估计 → 用颜色编码距离（黑=近，白=远）- 法线估计 → 法线方向直接映射到 RGB 三通道3. 轻量指令微调：只在 NBP 原有训练数据中混入少量视觉任务数据，教模型"按特定格式输出"，而不是教它从头学视觉理解。4. 结果模型：Vision Banana主要成果2D 理解 - 分割任务： - 语义分割（Cityscapes）：mIoU 0.699，超过 SAM 3（0.652） - 指代表达分割（RefCOCOg）：cIoU 0.738，超过 SAM 3 Agent（0.734） - 推理分割（ReasonSeg）：gIoU 0.793，超过 SAM 3 Agent（0.770） 3D 理解： - 度量深度估计：4个数据集平均 δ1 达到 0.929，超过 Depth Anything V3（0.918） - 表面法线估计：室内平均角度误差 15.55°，超过 Lotus-2（16.56°）生成能力没丢： - 文生图（GenAI-Bench）：53.5% 胜率 vs 基座模型 - 图像编辑：47.8% 胜率 vs 基座模型（基本持平）局限和未来方向 - 计算开销大：生成模型推理比轻量专家模型贵很多 - 目前只处理单目图像，还没扩展到多视角/视频 - 实例分割还有差距（SA-Co/Gold 上不如 SAM 3） - 未来可能扩展到视频生成模型、多视角输入、与 LLM 深度融合整体评价：这是一篇相当有分量的论文。它用扎实的实验证据证明了"图像生成 = 隐式视觉理解"这个直觉，而且方法优雅——用 RGB 编码统一所有任务，用指令微调"解锁"已有能力。如果这个方向成立，未来的视觉基础模型可能不需要判别式预训练了，直接从生成模型出发就行。

链接：vision-banana.github.io

泡泡资讯网

谷歌新论文 Vision Banana图像生成模型其实是隐藏的"全能视觉大师"—

热门分类