泡泡资讯网

麻了,大模型也开始卷牛马属性了

忽然发现,今年AI圈有一个挺明显的变化:大家开始重新看待 Flash 模型了。Google 在推 Gemini Flash,DeepSeek 也在推 Flash,阶跃从 Step 3.5 Flash 到 Step 3.7 Flash 连续迭代。

去年大家聊大模型,最容易被带到一个方向上去:谁参数更大,谁推理更强,谁智能指标更逼近极限,谁就更“王炸”。

但是今年头部模型厂有了一点共识:除了追求智能上限,Agent 时代,同样稀缺的是“最能跑活”的模型。未必最聪明,但必须把效率和稳定性提上去。

因为到了 Agent 场景,游戏规则变了。

Agent要进入真实业务场景,交付执行结果,不是坐在那里跟你聊两句,测个智能峰值就结束。它要读图、看文档、搜资料、调工具、写代码、跑验证,来来回回执行很多轮。这里面模型会被反复调用,调用次数一上来,速度、成本、稳定性就不再是边缘指标,而是决定这个东西能不能真正在生产环境里跑起来的关键。

所以我现在越来越觉得,Flash 不是旗舰模型的“青春版”,它反而更像 Agent 时代的主力模型。

因为真实世界里,企业要的不是一个偶尔灵光一现的“天才模型”,而是一个能连续跑任务、成本压得住、速度跟得上、结果还稳定的“S级打工人”。

最近看到阶跃出了Step 3.7 Flash,我觉得跟这个洞察是同频的。

它的定位是面向真实 Agent 工作流做了完整平衡,可以简单概括为是一款追求“多快好省”的模型:
多,是多模态、多工具、多任务;
快,是最高 400 TPS 级别的推理速度;
好,是能在 Agent 工作流里稳定完成任务;
省,是企业和开发者真的用得起、跑得动。

比较戳中我的是多模态、Search、Tool Use、Coding、GUI 理解这些能力都往一个执行闭环里放。这点挺关键。

过去很多模型的视觉能力,有点像“一眼定生死”:看一张图,给一个判断。复杂一点的场景,比如截图里信息太密、文档里有表格、页面里有按钮,模型经常就开始凭感觉了。

Step 3.7 Flash 的思路更像人干活:看不清就放大,信息不够就再查,判断不稳就交叉验证。它可以在推理过程中自主 crop、zoom、re-read,也能通过 Visual Search 去补足模型参数里没有的最新知识。