📝AI产品动态

Gemini 3.5 Flash 加入 computer use:浏览器、桌面和移动端自动化进入主模型时代

作者:YmNav ???·2026-06-26·浏览 2

Google 6 月 24 日宣布 Gemini 3.5 Flash 原生支持 computer use,开发者可通过 Gemini API 和企业智能体平台构建能看见界面、推理并执行操作的自动化 Agent。

Gemini 3.5 Flash 加入 computer use:浏览器、桌面和移动端自动化进入主模型时代
阅读提示当前文章有842字,阅读完大概需要3分钟。

事件背景:computer use 从专用模型走向 Gemini Flash 主线

Google 在 2026 年 6 月 24 日宣布,computer use 已成为 Gemini 3.5 Flash 支持的内置工具。按照 Google 官方博客的描述,这项能力此前主要以 Gemini 2.5 computer use 专用模型形态提供,现在被整合进 Gemini Flash 主模型,让开发者在同一个模型里调用函数、使用工具,并让 Agent 理解界面后执行操作。

Google 表示,开发者和企业可以通过 Gemini API 以及 Gemini Enterprise Agent Platform 使用这项能力。Google AI for Developers 文档也把 gemini-3.5-flash 列为 computer use 的推荐模型,强调它面向浏览器、移动端和桌面环境,并包含可配置安全策略与提示注入检测。

它解决什么问题:让 Agent 面对真实软件界面

传统自动化依赖 API、脚本和固定选择器;一旦页面结构变化、应用没有开放接口,自动化流程就很脆弱。computer use 的方向,是让模型读取截图或界面状态,理解按钮、输入框、列表和上下文,再决定下一步点击、输入、导航或提取信息。

这类能力尤其适合企业里的长链条任务:持续软件测试、跨 SaaS 系统录入、后台运营巡检、知识工作流整理、内部工具质检等。它不一定取代 API 自动化,但可以覆盖那些 API 不完整、流程多变、需要视觉理解和人工界面判断的场景。

行业影响:Agent 产品会更依赖安全护栏

让模型直接操作界面,意味着能力上限更高,风险也更具体。一个能点击和输入的 Agent,必须知道哪些动作需要用户确认,哪些页面包含敏感信息,遇到支付、删除、发送邮件、修改权限等动作时如何停下来。

因此,computer use 不是简单的“让模型会点鼠标”。对企业级产品来说,真正重要的是运行环境隔离、操作日志、敏感动作确认、提示注入检测、权限分级和失败恢复。谁能把这些护栏做成默认能力,谁就更可能进入真实生产流程。

适合哪些人关注

AI 应用开发者需要关注:如果产品要跨网页、桌面和移动端执行任务,computer use 能减少对单一 API 的依赖,但需要更严格的动作约束。

QA 和测试团队需要关注:这类模型可能把自然语言测试目标转成界面操作,有机会降低端到端测试维护成本。

企业自动化负责人需要关注:适合先从低风险、可回放、可人工确认的流程试点,而不是直接接管核心业务操作。

YmNav 观察

Gemini 3.5 Flash 加入 computer use,说明大模型厂商正在把“看屏幕并操作软件”做成基础能力。接下来 AI Agent 的竞争不会只看模型分数,还会看它能否在真实软件环境中稳定执行、可审计地执行,以及在不确定时主动请求人工确认。

来源参考

Google Blog:Introducing computer use in Gemini 3.5 Flash

Google AI for Developers:Computer Use 文档

Google Cloud:Gemini Enterprise Agent Platform Computer Use