AI Agent 开始自己操作电脑了:Microsoft Computer-Using Agents 全面实测

# AI Agent 开始自己操作电脑了:Microsoft Computer-Using Agents 全面实测

五月底的 Microsoft Build 2026 上,有一个更新被大多数人忽略了——Computer-Using Agents(CUA)正式 GA。

如果你没关注过这个功能,一句话概括:**AI 不再只是聊天框里的文字机器人,它能直接看你屏幕、移动鼠标、点击按钮、填写表单。** 不需要 API 对接,不需要开发 SDK,它像一个人一样操作任何桌面或 Web 应用。

我实际折腾了一周,这篇文章把原理、效果和坑都摊开来说。

## CUA 到底是什么

传统的 AI 自动化路子通常是:RPA 脚本 → API 集成 → 触发 webhook。每一层都需要开发介入,业务系统没有一个统一接口的话,流程就得硬编码。

CUA 的思路完全不同。它不管底层接口,只管**屏幕输出**。

– Agent 通过截图”看”到应用界面
– 用视觉模型理解按钮、输入框、表格的位置和语义
– 输出鼠标点击、键盘输入、滚动等操作指令
– 执行后再次截图,形成”观察→决策→行动→验证”的闭环

换句话说,它把图形界面当作 API 来调用。任何人类能点的地方,Agent 也能点。

## 上手体验

Microsoft 这次把 CUA 集成到了 Copilot Studio 里。创建流程比较简单:

1. 在 Copilot Studio 新建一个 Agent
2. 添加”Computer Use”能力
3. 选择”录制”或”描述”模式
4. 设定目标和边界规则

录制模式下,你手动操作一遍流程,Agent 会记录屏幕变化和操作序列,然后自动生成一个可复用的工作流。描述模式则直接告诉它:”帮我打开 CRM 系统,找到昨天创建的高优先级工单,提取客户信息填入报价模板。”

**实测效果:** 简单任务(打开网站→搜索→提取数据→填入表格),成功率大概在 85% 左右。复杂流程(跨系统、多步骤判断、有分支条件),成功率会掉到 60%-70%。

## 亮点在哪里

**第一个亮点是零集成成本。** 老系统通常没有 API,或者 API 文档比代码还古老。CUA 不需要这些——它能直接用。我试了一个内部用 Vue 写的老旧后台管理系统,没有任何 API 暴露,CUA 照样登录、查询、导出一气呵成。

**第二个亮点是调试体验。** Copilot Studio 里能看到 Agent 每一步的”思维过程”:它在哪一步识别错了按钮,哪一步误判了弹窗,都能回放。这对于排错来说太关键了——传统 RPA 脚本出错你得上日志里大海捞针,这里直接看截图轨迹。

**第三个亮点是条件分支和并行执行。** 5 月更新后的工作流编辑器支持了完整的条件分支、并行任务和调试控制台。多个 Agent 可以同时操作不同的系统,然后汇总结果。

## 不能忽视的坑

体验了一周,槽点也不少。

### 视觉识别不是万能的

非标准 UI 组件翻车率很高。比如自定义下拉菜单、树形表格、用 Canvas 绘制的图表——CUA 有时候看不懂。遇到一次它反复点击一个已经展开的树节点,因为它没识别出节点状态的变化。

### 速度比 API 慢一个数量级

每次操作都要截图→推理→执行→再截图,一个三步操作大概耗时 8-15 秒。API 调用级别是毫秒,这是数量级的差距。适合异步流程,不适合实时交互。

### 安全边界需要自己定义

Agent 能操控屏幕意味着它有权限做一切你能做的事。如果不限定操作范围,它可能误操作。Microsoft 提供了”受保护内容”策略和操作审计日志,但配置不当的话风险不小。每个 CUA Agent 都应该有明确的**身份、权限边界和数据管理策略**,这跟管理一个人类员工没什么两样。

### 会话上下文有限

长流程做到十几步之后,Agent 可能会”忘记”前面的上下文。比如前面选了一个筛选条件,后面决策时不再参考它。需要手动设计”检查点”让它回看。

## 适用场景

从我测试下来看,CUA 最适合的场景是:

– **遗留系统的自动化**:没有 API 的老系统,或者 API 覆盖不全的系统
– **跨系统数据搬运**:从 A 系统复制数据填入 B 系统,中间还要做格式转换
– **表单密集型流程**:采购审批、客户录入、订单处理这类重复性操作
– **异常兜底**:API 流程走不通时,CUA 作为 fallback

不太适合的场景:实时交互、高频操作、需要精确像素级控制的任务。

## 这件事的本质

CUA 的 GA 让我重新思考了一个问题:**AI 应用落地的最大瓶颈到底在哪?**

过去两年大家都在做 Agent,但落地效果参差不齐。根本原因不是模型不够强,而是**基础设施层面的阻隔**——业务系统不对外开放接口,数据憋在老旧平台里,Agent 再好也伸不进手。

CUA 的路线绕过了这个问题。它不要求系统改变,而是让 AI 去适应现有的界面。这听起来是”笨办法”,但在存量系统丰富的企业环境中,这可能是最务实的路径。

类比一下:人类操作电脑靠的是**视觉识别 + 动作执行**,不需要知道底层操作系统怎么工作。CUA 就是把这个能力给了 Agent。从 “让 Agent 调用 API” 到 “让 Agent 直接操作电脑”,这是一个范式转变。

当然,这条路还很新。视觉识别的鲁棒性、执行速度、安全管控都还有不小的提升空间。但方向是对的。

2026 年再回头看,也许我们会发现,Computer-Using Agents 的 GA 才是 Agent 真正大规模落地的起点。

*以上是一周实测的个人记录,具体效果因环境和系统配置而异。有问题欢迎留言讨论。*

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注