AI Agent 喜欢什么样的基础软件?
好的心智模型
当时用着从人类变成 AI,软件真正暴露给用户的不再是 UI 和 API,而是它背后的心智模型。
比如,文件系统、操作系统、编程语言、进程模型、I/O 抽象。它们的共同特点是:底层心智模型极其稳定,上层胶水非常灵活。
Agent 不是在等待一个更聪明强大的系统,而是更喜欢一个「它已经懂的系统」然后用比人类娴熟 1000 倍的效率写胶水代码扩展它。
如果你的软件是建立在一个正确的心智模型之下,那么它和主流方案之间,很多时候真的只是语法差别。
Agent 并没有「偏好」。它不会在乎语法优不优雅,也不会在乎社区文化,更不会纠结「哪一个更像正统」。只要接口是稳定的、语义是清楚的,生态的是完备的,网上能找到丰富的文档,它就可以很快适配。
在这个大的心智模型框架是正确的前提下,你用 MySQL 还是 Postgres,其实都能做 CRUD,都能保证一致性,也都能被 Agent 理解和使用。语法和生态的差别,更像是方言问题,而不是世界观的差别。
好的接口设计
在 Agent 作为用户的时代,一个好的软件接口,至少需要同时满足三个条件:
- 可以被自然语言描述(自然语言负责探索空间)
- 你的软件接口本身,是否适合用自然语言来表达意图。
- 比如,图形界面在很多时候,其实是很难被自然语言准确描述的。你很难用一句话把「点哪里、拖到哪里、选中哪个状态」讲清楚,而一旦脱离了视觉上下文,这套接口对 Agent 来说就几乎是不可见的,而编码绝大多数场景是在符号和语言打交道。
- 让模型理解一段文字,远比让它理解一张图片或隐含的交互状态要简单可靠。
- 可以被符号逻辑固化(符号语言负责收敛空间)
- 自然语言非常适合用来表达意图,但它并不适合承担执行语义。一旦任务要被复用,组合和自动化验证,就必须被压缩成一种明确、稳定、可推理的形式。
- 这也是为什么,几乎所有成功的系统,都会在「人类可读的输入」和「机器可执行的行为」之间,放置一个中间层,例子仍然是: SQL,脚本,代码,配置文件等,它们的共同点是一旦生成,就不再依赖上下文解释。
- Agent 可以容忍输入阶段的模糊,通过猜测和多轮指正(与人类)来逼近意图。一个 Agent 友好的接口设计要明确回答一个问题:“在什么时候,歧义被彻底消除了?”
- 至此,系统可以将一次模糊的意图,冻结为一个确定的结构,可存储、可审计、可复用,也可以被重新加载执行。
- 评价标准:这个中间逻辑符号描述表示应该用最少的 token,实现最多的可能性,而它就是——代码。
- 并且能够交付确定性的结果。
其中如果第二条做得足够好,第三条是自然完成的。
Agent 的产品特征
- 真正意义上的「计算」民主化。服务于极少数用户、长尾需求。满足大量过去被忽略、被认为“不值得做”的需求
- 并行探索、快速试错, 快速写、快速跑、快速验证
- 日抛型代码。开箱即用、随时创建、失败即丢弃,成功也不一定保留
- 代码不追求优雅,只要能跑、能验证即可
- 供给侧成本,几乎趋近于零
Agent Infra 的必要特征
- 假设实例本身是便宜的、生命周期很短、数量涨的非常快
- 可靠性和总租户数量爆炸性增长的同时,对于服务连续性和可靠性要求没有下降
- 访问频率低,但确实有人或 Agent 在用
- 不再可能为每一个需求、每一个 Agent,提供一个真实的物理实例
- 必须引入虚拟化:虚拟数据库实例、虚拟分支虚拟环境。在资源层面高度共享,在语义层面,必须隔离。在实现极致资源复用的同时,还要在交互层面让 Agent 感觉:这是我自己的独立环境,我可以随便折腾。
- 如果 Agent 会天然倾向于这种并行探索,那你的系统是不是能让它低成本快速地开 1000 个工位?能不能稳定地分发任务、收敛结果、去重、纠错?失败是不是可控、可回放?成本是不是实时可见?这里面可能是一个 K8s 和Hadoop级别的机会。
Agent 产品的商业模式
单纯卖 token 这件事,本身是有结构性问题的。随着用户越来越多、任务越来越复杂,模型调用次数和上下文长度都会持续增长,而 token 的边际成本并不会自动下降,哪怕 Token 单价在变得越来越便宜也好,只要你卖得越多,成本也随之增长(而且别的竞争对手也会降价),这在商业上其实是非常脆弱的。
真正能跑通的模式,或一家成功的 AI Agent 公司反而更像是一家把目标用户群体放大了 100 倍、1000 倍的云服务公司。关键不在于 token,成本,而在于你能不能把原本持续燃烧的 token 消耗,逐步沉淀成一些「boring」的在线服务,或者更进一步,沉淀成静态、确定性、可以被复用的系统能力。 一旦做到这一点,边际成本就会被极大地摊薄,甚至接近于零。