AI Agent 开始自己操作电脑了：Microsoft Computer-Using Agents 全面实测

发表于2026年5月29日作者 zoran

# AI Agent 开始自己操作电脑了：Microsoft Computer-Using Agents 全面实测

五月底的 Microsoft Build 2026 上，有一个更新被大多数人忽略了——Computer-Using Agents（CUA）正式 GA。

如果你没关注过这个功能，一句话概括：**AI 不再只是聊天框里的文字机器人，它能直接看你屏幕、移动鼠标、点击按钮、填写表单。** 不需要 API 对接，不需要开发 SDK，它像一个人一样操作任何桌面或 Web 应用。

我实际折腾了一周，这篇文章把原理、效果和坑都摊开来说。

## CUA 到底是什么

传统的 AI 自动化路子通常是：RPA 脚本 → API 集成 → 触发 webhook。每一层都需要开发介入，业务系统没有一个统一接口的话，流程就得硬编码。

CUA 的思路完全不同。它不管底层接口，只管**屏幕输出**。

– Agent 通过截图”看”到应用界面
– 用视觉模型理解按钮、输入框、表格的位置和语义
– 输出鼠标点击、键盘输入、滚动等操作指令
– 执行后再次截图，形成”观察→决策→行动→验证”的闭环

换句话说，它把图形界面当作 API 来调用。任何人类能点的地方，Agent 也能点。

## 上手体验

Microsoft 这次把 CUA 集成到了 Copilot Studio 里。创建流程比较简单：

1. 在 Copilot Studio 新建一个 Agent
2. 添加”Computer Use”能力
3. 选择”录制”或”描述”模式
4. 设定目标和边界规则

录制模式下，你手动操作一遍流程，Agent 会记录屏幕变化和操作序列，然后自动生成一个可复用的工作流。描述模式则直接告诉它：”帮我打开 CRM 系统，找到昨天创建的高优先级工单，提取客户信息填入报价模板。”

**实测效果：** 简单任务（打开网站→搜索→提取数据→填入表格），成功率大概在 85% 左右。复杂流程（跨系统、多步骤判断、有分支条件），成功率会掉到 60%-70%。

## 亮点在哪里

**第一个亮点是零集成成本。** 老系统通常没有 API，或者 API 文档比代码还古老。CUA 不需要这些——它能直接用。我试了一个内部用 Vue 写的老旧后台管理系统，没有任何 API 暴露，CUA 照样登录、查询、导出一气呵成。

**第二个亮点是调试体验。** Copilot Studio 里能看到 Agent 每一步的”思维过程”：它在哪一步识别错了按钮，哪一步误判了弹窗，都能回放。这对于排错来说太关键了——传统 RPA 脚本出错你得上日志里大海捞针，这里直接看截图轨迹。

**第三个亮点是条件分支和并行执行。** 5 月更新后的工作流编辑器支持了完整的条件分支、并行任务和调试控制台。多个 Agent 可以同时操作不同的系统，然后汇总结果。

## 不能忽视的坑

体验了一周，槽点也不少。

### 视觉识别不是万能的

非标准 UI 组件翻车率很高。比如自定义下拉菜单、树形表格、用 Canvas 绘制的图表——CUA 有时候看不懂。遇到一次它反复点击一个已经展开的树节点，因为它没识别出节点状态的变化。

### 速度比 API 慢一个数量级

每次操作都要截图→推理→执行→再截图，一个三步操作大概耗时 8-15 秒。API 调用级别是毫秒，这是数量级的差距。适合异步流程，不适合实时交互。

### 安全边界需要自己定义

Agent 能操控屏幕意味着它有权限做一切你能做的事。如果不限定操作范围，它可能误操作。Microsoft 提供了”受保护内容”策略和操作审计日志，但配置不当的话风险不小。每个 CUA Agent 都应该有明确的**身份、权限边界和数据管理策略**，这跟管理一个人类员工没什么两样。

### 会话上下文有限

长流程做到十几步之后，Agent 可能会”忘记”前面的上下文。比如前面选了一个筛选条件，后面决策时不再参考它。需要手动设计”检查点”让它回看。

## 适用场景

从我测试下来看，CUA 最适合的场景是：

– **遗留系统的自动化**：没有 API 的老系统，或者 API 覆盖不全的系统
– **跨系统数据搬运**：从 A 系统复制数据填入 B 系统，中间还要做格式转换
– **表单密集型流程**：采购审批、客户录入、订单处理这类重复性操作
– **异常兜底**：API 流程走不通时，CUA 作为 fallback

不太适合的场景：实时交互、高频操作、需要精确像素级控制的任务。

## 这件事的本质

CUA 的 GA 让我重新思考了一个问题：**AI 应用落地的最大瓶颈到底在哪？**

过去两年大家都在做 Agent，但落地效果参差不齐。根本原因不是模型不够强，而是**基础设施层面的阻隔**——业务系统不对外开放接口，数据憋在老旧平台里，Agent 再好也伸不进手。

CUA 的路线绕过了这个问题。它不要求系统改变，而是让 AI 去适应现有的界面。这听起来是”笨办法”，但在存量系统丰富的企业环境中，这可能是最务实的路径。

类比一下：人类操作电脑靠的是**视觉识别 + 动作执行**，不需要知道底层操作系统怎么工作。CUA 就是把这个能力给了 Agent。从 “让 Agent 调用 API” 到 “让 Agent 直接操作电脑”，这是一个范式转变。

当然，这条路还很新。视觉识别的鲁棒性、执行速度、安全管控都还有不小的提升空间。但方向是对的。

2026 年再回头看，也许我们会发现，Computer-Using Agents 的 GA 才是 Agent 真正大规模落地的起点。

—

*以上是一周实测的个人记录，具体效果因环境和系统配置而异。有问题欢迎留言讨论。*

发表回复 取消回复

发表回复取消回复