AI Agent 产品设计实战：让每次输出成为复利资产

以产品调研为例，拆解垂直 Agent-First 产品的6个设计理念

一边是 Coding Agent 和通用 Agent 发展得如火如荼，一边是”SaaS 已死”被大谈特谈。这段时间在 AI Coding 的时候，这个问题一直萦绕在心头：未来垂直领域的 Agentic First 产品还会有出路吗，应该怎么做？

Codex 和 Claude Code 这类 Coding Agent 已经证明了一件事——Agent 接入代码仓库之后，能跑测试、能记住项目约定、能跨会话读取上下文、能跨时间沉淀记忆，“越用越聪明”是真实的。Claude 的 Cowork 模式也是同一个方向：它能接入你的文件系统、不断积累记忆、调用浏览器、终端和外部工具，Agent 不再是聊完就走，而是真的开始在你的工作环境里埋头苦干。

但这些都是通用或编程场景。到了一个具体的垂直业务领域，Agent 的输出靠什么结构积累起来、越用越值钱？这个问题是否还值得讨论？

就这样，我边做边学，大致整理出了 Agentic Asset Loop 这个思路，也在离我最近的”产品调研“这个场景做了一场实践。

这个产品调研的工具，帮产品经理持续理解一个产品，跟着它一起演化。为什么选这个场景？竞品调研是产品经理的日常工作，够垂直、够聚焦，先不碰复杂的业务流程、权限和多人协作——只是用来验证一件事：Agentic 产品的设计理念在非 Coding 的垂直领域怎么落地？

目前跑着 5 个产品空间（Dify、Linear、Manus、Notion、钉钉悟空），其中 Dify 已经做到了第 5 轮增量研究，积累了 57 条有证据支撑的产品判断。

这篇文章不是产品宣讲。我想聊的是做这个东西过程中碰到的 6 个设计决策——如果你也在想怎么做 Agentic 产品，不管在什么领域，可能会觉得有点意思。

1 在你的领域里，Agent 输出的”确定性单元”应该是什么？

这是我碰到的第一个、也是最重要的设计问题。

Agent 每次跑完，产出的是一整段内容——你没法对其中某句话单独追溯来源、更新状态、标记置信度。即使有引用、有记忆，这段内容作为一个整体，没法被拆开来管理。

传统 SaaS 能跑起来，核心就是做了数据建模——把混沌的信息拆成可操作的最小单元。CRM 里是销售线索，Excel 里是单元格。有了这个单元，才有数据的生产、处理和消费，整个产品才转得动。

Agent 产品要让输出”活”起来，也得做同样的事——定义你这个领域里的”确定性单元”，一个能单独拎出来说”这条是什么、对不对、怎么进化”的最小知识单元。

在代码领域，这个单元天然就有：一个函数、一个测试用例、一次 commit。写完跑一遍测试就知道对不对，有明确的反馈。

在产品调研这个场景中，我最初的直觉是用”文档摘要”作为核心对象——让 Agent 读完资料生成结构化的摘要，存起来。但很快发现不行：摘要丢了证据链（某个判断依据是什么你不知道），而且没法增量更新（新信息来了只能重新生成）。

考虑到调研的目的是观察和判断，我选了 判断 + 证据——一条有明确立场的判断，加上支撑它的证据。判断可以被验证、被反驳、被更新。

一条 Claim 长什么样？以 Dify 产品空间为例：

“Dify 定位为 Agentic Workflow Builder（智能体工作流构建器），是一个面向团队的开源 AI 应用开发平台。”

这条 Claim 不只是一句话。它带有：

类型：这是一条”官方表述”（来自官网），跟”推断”或”假设”不同
置信度：高——直接来自官方定位描述
证据：1 条，指向 dify.ai 官网的具体快照
审核状态：自动审核——高置信度自动审核

57 条这样的判断，按”定位与市场”（20 条）、“定价与商业”（11 条）、“产品与功能”（6 条）等维度归类，构成了 Dify 这个产品空间的认知骨架。

内容本身是一样的，为什么判断比 AI 摘要更适合作为确定性单元？因为它可以被单独操作：

当 Dify 更新了定价策略，相关的判断可以被标记为”可能过时”，而不需要重写整篇调研报告
当 PM 认为某条推断不够准确，可以把它的置信度从”高”调到”中”，或者标记为”有争议”
当新一轮研究发现了矛盾信息，可以创建一条新判断标注为”与 claim-xxx 冲突”

每条判断的证据链接到具体的信源和快照。这里的信源不只是一个 URL——它记了这个来源是什么性质（官网？帮助文档？博客？定价页？）、优先级多高、上次检查是什么时候、内容有没有变过。

不断尝试的过程中，也抽象出了 Agentic Asset Loop 中的一个原则，就是 Evidence-backed：一条产品认知必须由”判断 + 证据 + 运行记录“三样构成，缺一个都不算数。

判断的质量取决于 Agent 的分析能力。事实型判断（“Dify Cloud Service Professional 版 $59/月”）基本靠谱，因为信息是明确的。推断型判断（“Dify 正在从个人工具转向团队协作”）则需要 PM 的判断来确认——Agent 做的是把散落在更新日志、博客、帮助文档里的信号综合到一起，最终判断还是人的事。

有人可能会问：这跟”爬虫 + 结构化知识库”有什么区别？

单次运行来看，区别确实不大——Agent 扫完信源生成一批判断，跟 AI 摘要工具差不多。差别在于时间的魔法。

第 1 轮研究生成了 30 条判断。第 2 轮增量运行时，Agent 带着这 30 条已有判断去看新信息，新发现融进已有框架里。每轮结束后 Agent 还会写一段”执行复盘“，前几轮积累的开放问题和探索性判断也会变成下一轮的小目标——Agent 带着”上次没想明白的事”继续挖。

到了第 5 轮，57 条判断里有第 1 轮就有的，有第 3 轮新增的推断，有第 5 轮才验证的。5 轮下来长出来的是一个持续演化的认知结构，不是 5 份独立报告摞在一起。

这就是标题里说的”复利”——不是每轮产出翻倍，而是每轮的产出会变成下一轮的起点。第 1 轮的 30 条判断是第 2 轮的上下文，第 2 轮的修正是第 3 轮的基础。轮次越多，Agent 看新信息时的视角越丰富，发现新洞察的边际成本越低。

爬虫 + 知识库做的是”内容更新”：检测到网页变了，重新抓取存储。这里做的是”认知升级”：内容变化会关联回已有判断，触发判断的状态更新、置信度调整、甚至产生新的开放问题。底层技术大致是一样的，但上层的产品逻辑不同。

总之，判断的价值要在多轮增量之后才真正体现——它给了系统一个可以持续长东西的骨架。

2 Agent 的输出怎么”活着”？

有了判断和证据，接下来的问题很自然：这些东西怎么组织起来，变得为 PM 所用？

这里给每个产品空间做了九个知识页：概览、产品定位、用户画像、工作流、功能地图、帮助文档、商业模式、时间线、开放问题。基本上就是一个 PM 理解竞品时会问的那些问题。

知识页不是写完就不动的”死文档“。Dify 的功能地图上标着”第 5 轮复查（2026-05-19）“，右侧目录中多处标记”本轮新增”。时间线页跨越了 2023 到 2026 年，每条事件都标注了来源——这不是一次写出来的，是跑了五轮一点点攒出来的。

我把这个环节称为 Output-as-view：底层的判断和证据是资产，知识页是从它们聚合出来的视图，目的是方便人类浏览、分发。每次知识页变更时，系统会保存 before/after 快照，关联到触发这次更新的 Claim 和信源。你可以追溯”这段话是哪次研究运行写的，依据了哪些证据”。

除了单产品的纵向知识页，还有进一步的跨产品、按主题的主题报告，目的是为了更好的”内容消费“。比如”Manus 与 Notion 异同对比”，引用了 2 个产品空间的 8 条已有判断，按 5 个维度展开比较。

这就是我说的资产复利——两个产品空间各自攒了几十条判断之后，做跨产品对比不用从零开始，直接从已有资产里聚合就行。积累越多，新分析越省力。图中虽然只做了 1 个主题报告，“复利”还没真正跑起来，但方向是对的。

3 没有编程的测试套件，怎么知道 Agent 跑得对不对？

Codex 写完代码可以 npm test，结果好不好有明确反馈。产品调研的 Agent 跑完一轮，谁来判断结果质量？我目前的回答是：无法绝对验证结果正确与否，至少让过程可追溯。 产品在每次研究运行都有完整的研究运行记录。

一次运行历史记录的是 PM 能看懂的审计信息（暂且称为 Run-traceable）：

这次研究的目标（“增量复查 Dify 帮助文档、更新日志、定价页变化”）
检查了哪些信源、哪些有变化、哪些抓取失败
产出了多少条新判断、更新了多少条旧判断
Agent 对这次运行的复盘（每轮结束后 Agent 会写一段复盘，说自己做得怎么样、遗漏了什么）

这种过程追溯对不同类型的历史判断帮助各有不同。

对于事实型判断（“Dify Cloud Service Professional 版 $59/月”），追溯到来源页面就能验证，价值很直接。
对于推断型判断（“Dify 正在从个人工具转向团队协作”），追溯能告诉你 Agent 读了哪些页面、看到了什么信号，但最终判断是否合理还是需要 PM 自己来。

换句话说，事实类判断追溯之后接近”可验证”，推断类判断追溯之后只是”可审计”——审核成本降低了，但审核本身省不掉。

增量研究：不是每次重头来

另一个更实际的机制是增量研究。每次增量运行前会做一次”预检“：重新抓取所有已跟踪的信源，跟上次快照比对，只把变化了的内容交给 Agent。所以 Dify 的第 5 轮研究不用重新看所有 33 个信源——系统先筛出哪些变了，Agent 只关注这些变化对已有判断的影响。

增量的关键不是检测”哪个网页变了”——爬虫就能做——而是把内容变化关联回已有的判断：变化影响了某条判断？标记”可能过时”，生成”重要变化“推给 PM。这就是前面说的”认知级增量”落到实现上的样子。

4 怎么控制 Agent 的研究行为？

现在主流 Agent 普遍在引入记忆、Skill、上下文这些控制手段。本质上，垂直领域要做的也是这些事情——只不过如果把这些机制”翻译“成垂直用户能直接理解的语言，使用体感可能会更好。用户可以不理解 Skill、上下文，只需要关注具体的研究方法、研究过程和报告输出规范就行。

也就是把技能、系统提示词变成结构化的显式配置。举个例子：我近期更关注 Dify 的商业化进展——最近他们推了 Premium 方案和云服务分层定价，我想知道定价策略、目标用户群和跟开源版的差异化。在产品里只需要这样配：

在个人偏好里，我把”定价包装”和”商业模式”设为高优先关注维度，“上手流程”暂时降低优先级。在来源策略里，我把定价页和博客/更新日志设为主来源并开启持续跟踪，访谈和第三方文章设为补充来源。在研究能力里，“定价与商业模式分析”保持开启，“帮助文档地图构建”这次可以关掉——不需要 Agent 花时间爬帮助中心。然后选择”增量跟踪”这套研究流程发起运行。

这样 Agent 跑出来的结果就会聚焦在定价和商业变化上，而不是面面俱到地重新扫一遍所有维度。下次如果我的关注点变了——比如 Dify 发布了新的工作流功能，我想看产品能力变化——调整几个配置项就行，不需要重新描述整个研究上下文。

上面提到的研究能力、来源策略、研究流程、个人偏好只是关于”如何研究“的配置项。更好的控制 AI 的产出，还包括 AI 研究能力（比如是否允许浏览器采集、是否写入知识库）、输出设置（语言、术语风格、事实和推断怎么区分）等等。

这些配置注入每次研究或会话的上下文，PM 不用写重复的提示词，勾勾选选就行。我把这个设计叫 Human-calibrated——人在事前就定好 Agent 的方向和边界，而且配置是持久的，设一次后面每轮都按这个来。

5 当 Agent 越跑越多，人审核不过来怎么办？

这个问题还没有终极的方案。

目前的做法是每次研究跑完后自动生成关注项——简单说就是一个”这次有什么值得你看的”的清单：哪些信源变了、哪些判断可能过时了。

而审核队列则汇总了所有产品空间的待办事项，人工扫一眼就知道该看什么，处理完的标记掉就行。

目前 5 个产品空间累积了 72 条待处理、5 条待复查、4 条已审核。说白了，连我自己都没审完。 72 条其实还扛得住——每条花 2 分钟，2.5 小时清完。但产品空间涨到几十个、Agent 持续跑增量的时候，待审核项会翻好几倍。到那时候纯靠人审就不行了。

这可能是做垂类 Agent 产品最根本的张力：Agent 的执行量可以无限扩展，但人的判断带宽有上限。 Codex 的 code review 至少有明确的 diff 边界（改了什么一目了然），但”这条关于 Dify 商业化策略的判断是否准确”需要 PM 的专业经验，没法简单自动化。

当前的做法是按置信度和证据充分度分层——证据硬的 Claim 降低审核优先级，弱证据或推断型的优先推给 PM。但这只能缓解，不能解决。

前面第 4 部分提到 Human-calibrated——人校准 Agent 的方向和边界。但”持续校准”说起来容易，人的精力是有限的，这才是这套逻辑能不能规模化的最大瓶颈。

这个问题目前只有一些初步思路——比如用置信度分层做自动审核、让审核策略本身也能随信任积累演化，但还有待实际验证。

6 会话：Agent 产品里绕不开的交互界面

前面 5 个部分讲的都是”资产怎么建、怎么长、怎么管”。但回到日常使用，人和系统打交道的主要方式还是保留了对话——打开一个对话框，用自然语言告诉 Agent 该干什么。这是当前几乎所有 AI 产品的主交互形式，垂直 Agent 产品也不例外。

会话本身不是资产，但它是与人连接的入口。一次”帮我看看 Dify 最新的定价变化”的会话，背后触发的是一整套研究流程：信源抓取、判断生成、知识页更新、关注项推送。会话结束后，价值沉淀在判断和知识库里，会话本身成为一个会话历史。

当然”会话”不代表不需要管理。实际使用中，会话历史承担着几个容易被忽略的功能：

回溯上下文。 两周前跑了一次 Linear 的调研，结果里有个奇怪的判断。想知道当时的指令是什么、Agent 怎么理解的——翻会话历史比翻研究运行记录更直观，因为它保留了人和 Agent 之间的完整对话脉络。
积累记忆。 用户会逐渐形成自己的提问习惯——“先看定价页变化，再对比上轮判断，最后给我三条关键变化”。这些模式藏在历史会话里，”记忆机制“能把这些沉淀到”个人偏好“中。
区分会话的生命周期。 有些会话是一次性的快速提问，用完即弃；有些是重要研究任务的触发记录，值得保留；还有些已经过时了，应该归档清理。

这里没有太多”创新”可言——会话管理在 ChatGPT、Claude 等产品里已经是标配。但在垂直 Agent 产品里，关键在于会话和资产之间的联动：一条会话触发了哪些判断的更新？一次研究运行是从哪个会话发起的？如果能把会话和它产生的资产变更串起来，会话就不只是聊天记录，也是资产演化的操作日志。

总之，方向是明确的：会话是手段，资产是目的。 会话管理的核心不是让聊天记录更好看，而是让”从对话到资产沉淀”这条链路更透明、更可追溯。

写在最后

回到开头的问题。 Claude Code、Codex 证明了 Agent 产品在编程领域能大放异彩；Manus 这类通用 Agent 什么都能做，但仍然不够聚焦。目前我想试的是：在一个垂直领域，让 Agent 能发光发热，输出能留下来、能长在之前的基础上、能成为时间的朋友。

尝试到现在，最大的感受是：难题大多不在 AI 能力上，而在新的产品架构上。 模型会越来越强，但 Agent 输出什么形态、怎么随时间演化、人在哪个环节介入——这些不会因为模型变强而自动消失。让 Agent 的输出从”一次性的报告”变成”越用越值钱的资产”，需要的不是更强的模型，而是一套让产出能积累、能关联、能被人校准的产品框架。

以上只是我在产品调研这个小众场景中尝试给出的一种回答，还很粗糙。但我觉得这些问题本身仍然值得探讨——你的领域里，Agent 的确定性单元是什么？没有自动验证机制的时候怎么做追溯？人就那么多精力，怎么不被 Agent 的爆炸式产出淹没？

如果你也在想这些问题，或者在其他垂直领域有不同的解法，很想听听你的思路。欢迎进一步沟通。

mhsj.me

探索