Loading...

不是所有业务都该上 AI Agent:几类更适合 Workflow 的场景

发布于

开篇

过去半年,Agent 几乎成了 AI 圈最热的关键词。

从 Claude Code 到 Codex app,很多新产品都在传递同一个信号:模型够强、工具够全、上下文够长,Agent 就能一路做到底。这股风不只停留在技术圈,也在往更广的办公场景里扩散,越来越多人开始把 Agent 当成通用解法。

但问题恰恰在这里。

Agent 当然很强,尤其适合探索式、开放式、目标不完全确定的任务。可一旦把它直接套进业务生产环境,很多团队会发现:有些问题并不是”模型再强一点”就能解决,反而是任务形态本身更适合 Workflow。

如果选错了路径,后面遇到的就不只是成本高、效果不稳,而是流程不可控、责任不好追、系统也很难规模化落地。

一、Agent 模式的 4 个天花板

AI Agent 在探索型任务里确实很亮眼,作为个人效率工具也很好用。但一旦进入生产环境,它有4个很难绕过去的限制。

1. 严谨性:模型偶尔跳一步 = 事故

Agent 的核心是让模型自己决定下一步做什么。换句话说,模型也可能随时觉得某一步不重要,于是跳过,或者把顺序打乱。

写代码、做调研,漏一步未必是大问题;但如果换到内容审校、金融风控、报销审批,这件事的性质就完全变了。

业务规则不是建议,而是合同条款、合规要求、追责依据。该走哪一步、先后顺序是什么,本来就不应该交给概率模型临场判断。再往深一层看,Agent 还有一个更麻烦的问题:执行过程天然不够可审计。出了问题,事后往往只能回看一段对话,很难看到一条清晰、可复盘、可追责的执行链路。

2. Token 消耗:贵,而且不可预测

Token 消耗对比

Agent 模式下的 token 消耗,通常会被三类因素放大:

  • 每次工具调用之后,结果和上下文都要重新回灌模型
  • 工具调用次数由模型临场决定,波动大,很难预估
  • 一些框架还会叠加”反思""自我批评”之类的额外推理链路,每一轮都会再走一次完整推理

同样一件事,Workflow 可以按节点拆开、按模型分配,而 Agent 模式的 token 消耗往往是 Workflow 的数倍,而且上下波动很大。

一个连预算都做不稳的 AI 能力,很难真正进入大规模生产。

3. 上下文不是越长越好

上下文变长,并不等于模型理解会线性变强。注意力衰减、lost in the middle 这类问题早就被反复验证过。工具调用结果、历史弯路、过期信息、临时判断,全都堆进同一个上下文之后,本身就会污染后续推理。

4. 稳定性,Demo 漂亮,不代表能量产

Demo 跑 10 次成 9 次,已经很惊艳了。

但生产环境不是跑 10 次,而是一天跑 10 万次。

这时候,90% 的成功率听起来不错,换算到真实规模上,就是一天 1 万次失败。更麻烦的是,Agent 的失败往往还不好复现:同样输入,今天成功、明天失败,并不罕见。

Workflow 则完全是另一种特性。

它的失败通常是确定的、可定位的、可单步重试的。每一步成功率、耗时、失败原因,都可以直接挂到监控面板上。对生产系统来说,这种可观测性不是锦上添花,而是及格线。

二、什么样的业务建议走 Workflow

说完限制,再看正面问题:到底哪些业务更适合 Workflow?

智能客服 / 客服质检场景

智能客服场景

企业级客服复杂程度高,比如一开始需要识别10-20个意图,每个意图的子意图需要与目前企业内部的各种MCP,Connector和Plugin等准确无误的在对应节点调用,Agent + Skills化很难追溯准确性。这些都决定了 Workflow 比自由 Agent 更适合作为主链路。

医疗健康 / 生物医药场景

医疗健康场景

医疗服务机器人、医院助手、临床辅助工具和生物医药工具,都可能涉及患者信息、医学文献、检查结果、药品说明、临床流程或内部 SOP。系统不能只追求”答得像医生”,更要明确哪些问题可以回答、哪些问题必须提示风险、哪些问题必须转人工或医生审核。

翻译场景

翻译场景

在企业场景中,翻译往往是标准化内容生产流程。尤其是产品文档、合同条款、官网内容、公告等。

每个步骤都可以单独配置和优化:术语库可以换,语气规则可以调,质检节点可以增强,人工审核也可以只放在高风险内容上。相比让 Agent 一次性包办,Workflow 更适合企业级翻译的稳定交付和规模化管理。

金融证券 / 财务审计场景

金融证券场景

金融证券、财富管理和财务审计场景更适合 Workflow,因为它们的核心不是生成一个看起来专业的答案,而是按照监管、内控和审计要求完成一套可证明的流程。无论是财报审核、证券助手、财富管理咨询,还是合同审计、费用审计和营销材料合规检查,每个核验动作都可能对应一条业务规则、合规要求或审计责任。

三、Workflow 真实用下来:好的、不好的、和 Agent 的边界

把 Workflow 吹完了,得诚实地讲讲它的痛点——这些痛点恰恰说明了为什么它必须和 Claw、Sandbox 组合。

真正好用的地方

  • 执行确定性强:每个节点的输入输出是契约,不是模型的自由发挥
  • 多模型/多服务编排自然:异构能力放在一张图上像搭积木

多模型编排

  • 失败局部重试和调试:第 7 步挂了不影响前 6 步,长任务不必整个重来

局部重试

  • 业务方能看懂:画布形态让 PM、运营、合规都能参与评审,比对着 prompt 猜强一万倍

画布可读性

真正不爽的地方

第一类:闭环逻辑不自然。

工作流是有向无环图(DAG),天然不能成环。像”自我反思—修正—再尝试”这类逻辑,Agent 在一次会话里顺手就能做,但 Workflow 必须显式拆成:

生成结果 → 判断是否达标 → 不达标则进入修正子流 → 再回到判断

能做,但建模成本高,画布也容易变复杂。

闭环逻辑复杂度

第二类:缺少可持续演化的工作区。

Claw 类 Agent 有 Workspace:默认 cwd、文件系统、AGENTS.md、MEMORY.md、skills/ 等都可以沉淀下来。它可以跨轮记住偏好、积累上下文、维护一批会持续变化的文件。

Workflow 节点之间更多是瞬态变量,所以一遇到这类任务就很难受:

  • 生成多文件网页:文件之间要互相引用、反复调整
  • 编辑复杂表格:同一份表会被多轮修订,不能只靠一次性变量传递
  • 维护长期文档:文档会演化,需要记住历史版本、修改意图和上下文

工作区持久化问题

第三类:没有 Skill 体系的承载环境。

Skill 不是单纯的一段提示词,有文件、有脚本、有命令、有依赖,也有使用说明。它依赖一个能读写文件、能执行命令、能保存状态的环境。

换句话说,工作区 + 命令执行 = Sandbox。没有 Sandbox,Workflow 就更像流程编排器。

Sandbox 必要性

好消息,ADP 正在把它们结合起来!

  • Workflow 提供流程的确定性(DAG、节点契约、可观测)
  • Claw 提供节点内的智能(理解、生成、判断)
  • Sandbox 提供工作区和行动力(持久化文件、命令执行、Skill 载体、安全隔离)

Workflow 控流程,Sandbox 管边界和工作区,Claw 提供智能。

ADP的智能工作台能使用对话一键构建工作流。

如果想要一起做实践:

四、智能体开发平台 ADP

讲完范式讲选型。市面上能搭工作流的平台不少(n8n、Zapier、Dify、LangGraph……),最终选 ADP 的原因不复杂:

  1. 注重流程编排:不是把 LLM 当成一个普通 HTTP 节点塞进通用工作流,而是围绕 LLM 调用做了 schema、重试、上下文管理这些专门的能力
  2. 正在补齐 Sandbox 能力:ADP 已经有 Workflow,正在重点打磨云端沙箱和与 Claw 的深度结合,方向上是对的
  3. 业务方看得懂:画布的可读性让产品、运营、合规能直接参与评审,这一点对企业级落地的影响远比技术圈想象的大
  4. Claw应用:沙盒自带工作区,毫秒级启动,安全隔离、超大规模并发(数十万实例/分钟),使用ADP统一模型

ADP即将于5月底进行4.0发布升级

专为企业AI团队及业务部门打造,一站式解决智能体开发成本高、周期长、治理与集成难等痛点。

新版本引入支持 Agentic Loop 的开发模式,支持创建可在云端沙箱自动运行代码并调用企业Skills的”深度执行Agent”。此外,全新推出 Agentic RAG、企业级 Skills 审核治理及场景化Plug-in等特性,全面赋能生产级 Agent 的构建、托管、评测、治理及多渠道集成。

加入学习交流群:

加入交流群