Google 发布 “Gemini Computer Use” 模型:AI 开始“动手”,像人一样操作网页! Google 推出 Gemini 2.5 Computer Use 模型,让 AI 不再只是对话,而是能像真人一样在浏览器里操作网页:打开标签、点击按钮、填写表单、拖拽元素……甚至完成一整套网页任务,而无需依赖后台 API。 🔸 功能亮点: · 支持 13 种网页交互:开标签页、输入、点击、拖放、提交表单等; · 适用于没有 API 的网站,比如 UI 自动化测试、表单填报、网页模拟操作; · 在多项网页/移动端任务基准中,性能超过一些主流自动化工具; · 已对开发者开放,可通过 Google AI Studio、Vertex AI 或 Browserbase 演示体验。 个人观点: 这标志着 Google 正在推动 AI 向“Agent”路线迈进:不只是会说,更会干活。相比 GPT 通过 API 调用的方式,浏览器级操作更通用,也更贴近真实用户场景。 当然,也存在局限:目前只支持浏览器层面操作,对复杂网页 UI 的适应性仍有限,权限与安全控制也必须加强。 🔹 如果让 AI 来“帮你上网”,你最希望它自动完成什么任务?自动填报网页?抢票?UI 测试?还是信息采集? GoogleAIMode Gemini agenticAI 浏览器自动化
下次能不用这一眼假的AI图吗?你自己看看这图里多少BUG……
【16评论】【9点赞】