什么是 AI Harness Engineering

2026-04-16

ChatGPT 发布也有好几年了。

毫无疑问，短短几年时间，深刻改变了碳基与硅基的交互方式。

同时，不仅模型在迭代，模型的使用技巧，相关基础工具，被陆续开发出来。

从最开始的 Prompt Engineering，到后来的 MCP、Skills、Memory 等。

LLM 可以做的事情越来越多，但始终有一个问题不可避免：结果不确定。

这点，经常使用的人，感受应该比较深刻。

传统软件，固定输入便会得到固定输出，可复现，稳定，可靠。LLM 是基于概率的，随机性刻在骨子里。

对于这样一个能力强，但脾气不稳定的家伙，大规模推广会面临巨大挑战。

因为企业和人一样，都有求稳的倾向。失控，是不允许的。

好在，工程学（Engineering）就是用来解决这类问题的。

于是一门新的学科：AI Harness Engineering，衍生出来。

1. 概念

Harness 原意是马具，AI 在这里指代一匹有力量、但失控的野马。翻译过来，就是驾驭 AI 的工程。

不得不说，外国人还是很会起名字的，准确、生动。

这个词条很新，维基百科尚没有收录。

通俗的解释：

AI Harness Engineering 是指围绕大模型构建一整套“控制、编排、约束、评估”的工程体系，让模型稳定、可控地为业务服务。

想象一下，如果没有 AI Harness Engineering，与 LLM 的交流会怎样？

基本每次交流都像是在开盲盒
相同问题，询问多次，可能得到的结果都不相同，陷入决策困难
回答里存在政治、道德，甚至法律风险

因此，一套完整的“控制-评价-反馈-调整”系统是必要的，可以让 LLM 输出结果确定化。

否则即便它很强大，也很难真正应用到日常生活里。

就像一辆汽车，尽管可以开得很快，但刹车有问题，我想是没有多少人愿意开的。

2. 架构

AI Harness Engineering 不是一个单点技术，而是一套系统工程。

主要可以拆分为 5 个模块。

Prompt Harness（提示词控制层）
Evaluation Harness（评估系统）
Execution Harness（执行编排）
Observability Harness（可观测性）
Safety & Guardrails（安全护栏）

2.1 Prompt Harness

这一层是将 Prompt 参数化。

对于普通用户，可以借助 Prompt Engineering 优化 LLM 的返回结果。

工程上同样如此，只不过提供的是 Prompt 模板。

比如：

用户可能这么写：

You are a code reviewer.
Focus on:
- correctness
- performance

Harness 里将变成：

prompt("code_review", {
  focus: ["correctness", "performance"]
})

在触发的时候自动调用，省却用户的主动提示。

2.2 Evaluation Harness

对于一个系统，

If you cannot measure it, you cannot improve it.

如果你不能评估它，你就不能改进它。

在优化前，你需要一套中立的、客观的评价系统，否则你将很容易被 argue：

如何证明新版本比老版本更好？

常见的方式有三种：

静态测试集（golden set）

利用标准数据集进行测试。成本最低，效率最高，缺点是有“漏题”风险。
自动评分（LLM-as-judge）

用性能更强的模型评价。缺点是考官可能存在“自我偏好”，给与自己风格类似的模型打高分。
人工评估（user feedback）

同时给人展示多个模型的结果，让其判断。投票的人越多，可信度越高，缺点是成本较高。

通常第一种办法就够用，而且很方便放置在 Pipeline 中，实现自动评估。

2.3 Execution Harness

这个过程也被成为 Orchestration（编排）。

核心目标是如何更加巧妙地集成不同的 AI 工具，从而更好地完成用户给定任务。

一个复杂的任务会涉及到：

工具调用（function calling）
记忆管理
Agent 协同

等等。

可玩性很高，后续会出一篇专题文章。

2.4 Observability Harness

就是为 LLM 增加一层可观测系统。

主要包括：

输入和输出
模型思考内容
Token 消耗量
Latency

主要是为了在出现问题时，便于追查和复现，不至于一头雾水，无计可施。

2.5 Safety & Guardrails

有时用户会恶意引导 LLM 回答一些敏感问题，比如密码、安全漏洞、政治观点等。

LLM 的安全性和合规性将面临极大挑战。

因此有必要为返回结果增加一层校验，比如：

输出过滤（toxicity / PII）
schema 校验（JSON 必须合法）
fallback（失败降级）

3. 例子

举一个简单的例子，如果你要做一个问答系统：

3.1❌ 没有 Harness

response = llm("Answer this: " + question)

实现简单，但是：

结果不可预测
无法评估答案准确性
复杂任务效果差
出现问题难以排查

3.2✅ 有 Harness

docs = retrieve(question)

prompt = build_prompt(
    question=question,
    context=docs
)

response = llm(prompt)

if not is_valid(response):
    response = retry()

score = evaluate(response)

通过流程的确定性，对冲 LLM 返回结果的不确定性：

结果可预测，在给定范围内
可观测（observable）
可评估（optimizable）

4. 总结

AI Harness Engineering 本质是借助工程手段，驯化不确定的 LLM，让结果可预测、可评价、可迭代。

把 LLM 关在工程的笼子里，这是大规模商业化的前置条件。

本身没有什么魔法，都是既有工具和思想在 LLM 领域的应用。

这让我想起中国经济学家周其仁的一句话：

以规则的确定应对结果的不确定。

华为创始人任正非也提到过类似观点。

道理相同。

（完）

参考

本文作者:Plantree
本文链接:https://plantree.me/blog/2026/ai-harness-engineering/
版权声明:所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明出处！

AI Agent 是什么

清明游记

在 GitHub 上编辑本页面

最后更新于: 2026-04-16T03:11:38+08:00