创业者思考：如何做 AI Agent 喜欢的基础软件？

AI Agent 喜欢什么样的基础软件？

好的心智模型

当时用着从人类变成 AI，软件真正暴露给用户的不再是 UI 和 API，而是它背后的心智模型。
比如，文件系统、操作系统、编程语言、进程模型、I/O 抽象。它们的共同特点是：底层心智模型极其稳定，上层胶水非常灵活。
Agent 不是在等待一个更聪明强大的系统，而是更喜欢一个「它已经懂的系统」然后用比人类娴熟 1000 倍的效率写胶水代码扩展它。
如果你的软件是建立在一个正确的心智模型之下，那么它和主流方案之间，很多时候真的只是语法差别。
Agent 并没有「偏好」。它不会在乎语法优不优雅，也不会在乎社区文化，更不会纠结「哪一个更像正统」。只要接口是稳定的、语义是清楚的，生态的是完备的，网上能找到丰富的文档，它就可以很快适配。
在这个大的心智模型框架是正确的前提下，你用 MySQL 还是 Postgres，其实都能做 CRUD，都能保证一致性，也都能被 Agent 理解和使用。语法和生态的差别，更像是方言问题，而不是世界观的差别。

好的接口设计

在 Agent 作为用户的时代，一个好的软件接口，至少需要同时满足三个条件：

可以被自然语言描述（自然语言负责探索空间）
1. 你的软件接口本身，是否适合用自然语言来表达意图。
2. 比如，图形界面在很多时候，其实是很难被自然语言准确描述的。你很难用一句话把「点哪里、拖到哪里、选中哪个状态」讲清楚，而一旦脱离了视觉上下文，这套接口对 Agent 来说就几乎是不可见的，而编码绝大多数场景是在符号和语言打交道。
3. 让模型理解一段文字，远比让它理解一张图片或隐含的交互状态要简单可靠。
可以被符号逻辑固化（符号语言负责收敛空间）
1. 自然语言非常适合用来表达意图，但它并不适合承担执行语义。一旦任务要被复用，组合和自动化验证，就必须被压缩成一种明确、稳定、可推理的形式。
2. 这也是为什么，几乎所有成功的系统，都会在「人类可读的输入」和「机器可执行的行为」之间，放置一个中间层，例子仍然是： SQL，脚本，代码，配置文件等，它们的共同点是一旦生成，就不再依赖上下文解释。
3. Agent 可以容忍输入阶段的模糊，通过猜测和多轮指正（与人类）来逼近意图。一个 Agent 友好的接口设计要明确回答一个问题：“在什么时候，歧义被彻底消除了？”
4. 至此，系统可以将一次模糊的意图，冻结为一个确定的结构，可存储、可审计、可复用，也可以被重新加载执行。
5. 评价标准：这个中间逻辑符号描述表示应该用最少的 token，实现最多的可能性，而它就是——代码。
并且能够交付确定性的结果。
其中如果第二条做得足够好，第三条是自然完成的。

Agent 的产品特征

真正意义上的「计算」民主化。服务于极少数用户、长尾需求。满足大量过去被忽略、被认为“不值得做”的需求
并行探索、快速试错， 快速写、快速跑、快速验证
日抛型代码。开箱即用、随时创建、失败即丢弃，成功也不一定保留
代码不追求优雅，只要能跑、能验证即可
供给侧成本，几乎趋近于零

Agent Infra 的必要特征

假设实例本身是便宜的、生命周期很短、数量涨的非常快
可靠性和总租户数量爆炸性增长的同时，对于服务连续性和可靠性要求没有下降
访问频率低，但确实有人或 Agent 在用
不再可能为每一个需求、每一个 Agent，提供一个真实的物理实例
必须引入虚拟化：虚拟数据库实例、虚拟分支虚拟环境。在资源层面高度共享，在语义层面，必须隔离。在实现极致资源复用的同时，还要在交互层面让 Agent 感觉：这是我自己的独立环境，我可以随便折腾。
如果 Agent 会天然倾向于这种并行探索，那你的系统是不是能让它低成本快速地开 1000 个工位？能不能稳定地分发任务、收敛结果、去重、纠错？失败是不是可控、可回放？成本是不是实时可见？这里面可能是一个 K8s 和Hadoop级别的机会。

Agent 产品的商业模式

单纯卖 token 这件事，本身是有结构性问题的。随着用户越来越多、任务越来越复杂，模型调用次数和上下文长度都会持续增长，而 token 的边际成本并不会自动下降，哪怕 Token 单价在变得越来越便宜也好，只要你卖得越多，成本也随之增长（而且别的竞争对手也会降价），这在商业上其实是非常脆弱的。
真正能跑通的模式，或一家成功的 AI Agent 公司反而更像是一家把目标用户群体放大了 100 倍、1000 倍的云服务公司。关键不在于 token，成本，而在于你能不能把原本持续燃烧的 token 消耗，逐步沉淀成一些「boring」的在线服务，或者更进一步，沉淀成静态、确定性、可以被复用的系统能力。 一旦做到这一点，边际成本就会被极大地摊薄，甚至接近于零。

mhsj.me

探索