传统的CUA主要依赖原子化GUI操作,例如点击、输入、拖拽、滚动。这类操作泛化性强,只要界面上能看到按钮,理论上模型就能点;但它也有明显短板:步骤长、误差容易累积,在复杂任务中很容易出现cascading errors。
ToolCUA 的核心价值在于指出了 CUA 训练中的一个关键转折:当 Agent 从 GUI-only 进入 hybrid action space 后,能力瓶颈从“能否看懂界面”进一步变成“能否编排多种动作路径”。 这个问题看起来答案应该是肯定的 ...