什么是 AI Harness Engineering

2026-04-16 pv

ChatGPT 发布也有好几年了。

毫无疑问,短短几年时间,深刻改变了碳基与硅基的交互方式。

同时,不仅模型在迭代,模型的使用技巧,相关基础工具,被陆续开发出来。

从最开始的 Prompt Engineering,到后来的 MCP、Skills、Memory 等。

LLM 可以做的事情越来越多,但始终有一个问题不可避免:结果不确定

这点,经常使用的人,感受应该比较深刻。

传统软件,固定输入便会得到固定输出,可复现,稳定,可靠。LLM 是基于概率的,随机性刻在骨子里。

对于这样一个能力强,但脾气不稳定的家伙,大规模推广会面临巨大挑战。

因为企业和人一样,都有求稳的倾向。失控,是不允许的。

好在,工程学(Engineering)就是用来解决这类问题的。

于是一门新的学科:AI Harness Engineering,衍生出来。

1. 概念

Harness 原意是马具,AI 在这里指代一匹有力量、但失控的野马。翻译过来,就是驾驭 AI 的工程。

不得不说,外国人还是很会起名字的,准确、生动。

这个词条很新,维基百科尚没有收录。

通俗的解释:

AI Harness Engineering 是指围绕大模型构建一整套“控制、编排、约束、评估”的工程体系,让模型稳定、可控地为业务服务。

想象一下,如果没有 AI Harness Engineering,与 LLM 的交流会怎样?

  • 基本每次交流都像是在开盲盒
  • 相同问题,询问多次,可能得到的结果都不相同,陷入决策困难
  • 回答里存在政治、道德,甚至法律风险

因此,一套完整的“控制-评价-反馈-调整”系统是必要的,可以让 LLM 输出结果确定化。

否则即便它很强大,也很难真正应用到日常生活里。

就像一辆汽车,尽管可以开得很快,但刹车有问题,我想是没有多少人愿意开的。

2. 架构

AI Harness Engineering 不是一个单点技术,而是一套系统工程

主要可以拆分为 5 个模块。

  • Prompt Harness(提示词控制层)
  • Evaluation Harness(评估系统)
  • Execution Harness(执行编排)
  • Observability Harness(可观测性)
  • Safety & Guardrails(安全护栏)

2.1 Prompt Harness

这一层是将 Prompt 参数化

对于普通用户,可以借助 Prompt Engineering 优化 LLM 的返回结果。

工程上同样如此,只不过提供的是 Prompt 模板。

比如:

用户可能这么写:

You are a code reviewer.
Focus on:
- correctness
- performance

Harness 里将变成:

prompt("code_review", {
focus: ["correctness", "performance"]
})

在触发的时候自动调用,省却用户的主动提示。

2.2 Evaluation Harness

对于一个系统,

If you cannot measure it, you cannot improve it.

如果你不能评估它,你就不能改进它。

在优化前,你需要一套中立的、客观的评价系统,否则你将很容易被 argue:

如何证明新版本比老版本更好?

常见的方式有三种:

  • 静态测试集(golden set)

    利用标准数据集进行测试。成本最低,效率最高,缺点是有“漏题”风险。

  • 自动评分(LLM-as-judge)

    用性能更强的模型评价。缺点是考官可能存在“自我偏好”,给与自己风格类似的模型打高分。

  • 人工评估(user feedback)

    同时给人展示多个模型的结果,让其判断。投票的人越多,可信度越高,缺点是成本较高。

通常第一种办法就够用,而且很方便放置在 Pipeline 中,实现自动评估。

2.3 Execution Harness

这个过程也被成为 Orchestration(编排)。

核心目标是如何更加巧妙地集成不同的 AI 工具,从而更好地完成用户给定任务。

一个复杂的任务会涉及到:

  • 工具调用(function calling)
  • 记忆管理
  • Agent 协同

等等。

可玩性很高,后续会出一篇专题文章。

2.4 Observability Harness

就是为 LLM 增加一层可观测系统。

主要包括:

  • 输入和输出
  • 模型思考内容
  • Token 消耗量
  • Latency

主要是为了在出现问题时,便于追查和复现,不至于一头雾水,无计可施。

2.5 Safety & Guardrails

有时用户会恶意引导 LLM 回答一些敏感问题,比如密码、安全漏洞、政治观点等。

LLM 的安全性和合规性将面临极大挑战。

因此有必要为返回结果增加一层校验,比如:

  • 输出过滤(toxicity / PII)
  • schema 校验(JSON 必须合法)
  • fallback(失败降级)

3. 例子

举一个简单的例子,如果你要做一个问答系统:

3.1❌ 没有 Harness

response = llm("Answer this: " + question)

实现简单,但是:

  • 结果不可预测
  • 无法评估答案准确性
  • 复杂任务效果差
  • 出现问题难以排查

3.2✅ 有 Harness

docs = retrieve(question)
prompt = build_prompt(
question=question,
context=docs
)
response = llm(prompt)
if not is_valid(response):
response = retry()
score = evaluate(response)

通过流程的确定性,对冲 LLM 返回结果的不确定性:

  • 结果可预测,在给定范围内
  • 可观测(observable)
  • 可评估(optimizable)

4. 总结

AI Harness Engineering 本质是借助工程手段,驯化不确定的 LLM,让结果可预测、可评价、可迭代。

把 LLM 关在工程的笼子里,这是大规模商业化的前置条件。

本身没有什么魔法,都是既有工具和思想在 LLM 领域的应用。

这让我想起中国经济学家周其仁的一句话:

以规则的确定应对结果的不确定。

华为创始人任正非也提到过类似观点。

道理相同。

(完)

参考

  1. 工程学 - 维基百科,自由的百科全书🔗
  2. 工程技术:在智能体优先的世界中利用 Codex | OpenAI🔗
  3. 周其仁:以规则的确定应对结果的不确定 - 北京大学国家发展研究院🔗
在 GitHub 上编辑本页面

最后更新于: 2026-04-16T03:11:38+08:00