什么是 AI Harness Engineering
2026-04-16
ChatGPT 发布也有好几年了。
毫无疑问,短短几年时间,深刻改变了碳基与硅基的交互方式。
同时,不仅模型在迭代,模型的使用技巧,相关基础工具,被陆续开发出来。
从最开始的 Prompt Engineering,到后来的 MCP、Skills、Memory 等。
LLM 可以做的事情越来越多,但始终有一个问题不可避免:结果不确定。
这点,经常使用的人,感受应该比较深刻。
传统软件,固定输入便会得到固定输出,可复现,稳定,可靠。LLM 是基于概率的,随机性刻在骨子里。
对于这样一个能力强,但脾气不稳定的家伙,大规模推广会面临巨大挑战。
因为企业和人一样,都有求稳的倾向。失控,是不允许的。
好在,工程学(Engineering)就是用来解决这类问题的。
于是一门新的学科:AI Harness Engineering,衍生出来。
1. 概念
Harness 原意是马具,AI 在这里指代一匹有力量、但失控的野马。翻译过来,就是驾驭 AI 的工程。
不得不说,外国人还是很会起名字的,准确、生动。
这个词条很新,维基百科尚没有收录。
通俗的解释:
AI Harness Engineering 是指围绕大模型构建一整套“控制、编排、约束、评估”的工程体系,让模型稳定、可控地为业务服务。
想象一下,如果没有 AI Harness Engineering,与 LLM 的交流会怎样?
- 基本每次交流都像是在开盲盒
- 相同问题,询问多次,可能得到的结果都不相同,陷入决策困难
- 回答里存在政治、道德,甚至法律风险
因此,一套完整的“控制-评价-反馈-调整”系统是必要的,可以让 LLM 输出结果确定化。
否则即便它很强大,也很难真正应用到日常生活里。
就像一辆汽车,尽管可以开得很快,但刹车有问题,我想是没有多少人愿意开的。
2. 架构
AI Harness Engineering 不是一个单点技术,而是一套系统工程。
主要可以拆分为 5 个模块。
- Prompt Harness(提示词控制层)
- Evaluation Harness(评估系统)
- Execution Harness(执行编排)
- Observability Harness(可观测性)
- Safety & Guardrails(安全护栏)
2.1 Prompt Harness
这一层是将 Prompt 参数化。
对于普通用户,可以借助 Prompt Engineering 优化 LLM 的返回结果。
工程上同样如此,只不过提供的是 Prompt 模板。
比如:
用户可能这么写:
You are a code reviewer.Focus on:- correctness- performanceHarness 里将变成:
prompt("code_review", { focus: ["correctness", "performance"]})在触发的时候自动调用,省却用户的主动提示。
2.2 Evaluation Harness
对于一个系统,
If you cannot measure it, you cannot improve it.
如果你不能评估它,你就不能改进它。
在优化前,你需要一套中立的、客观的评价系统,否则你将很容易被 argue:
如何证明新版本比老版本更好?
常见的方式有三种:
-
静态测试集(golden set)
利用标准数据集进行测试。成本最低,效率最高,缺点是有“漏题”风险。
-
自动评分(LLM-as-judge)
用性能更强的模型评价。缺点是考官可能存在“自我偏好”,给与自己风格类似的模型打高分。
-
人工评估(user feedback)
同时给人展示多个模型的结果,让其判断。投票的人越多,可信度越高,缺点是成本较高。
通常第一种办法就够用,而且很方便放置在 Pipeline 中,实现自动评估。
2.3 Execution Harness
这个过程也被成为 Orchestration(编排)。
核心目标是如何更加巧妙地集成不同的 AI 工具,从而更好地完成用户给定任务。
一个复杂的任务会涉及到:
- 工具调用(function calling)
- 记忆管理
- Agent 协同
等等。
可玩性很高,后续会出一篇专题文章。
2.4 Observability Harness
就是为 LLM 增加一层可观测系统。
主要包括:
- 输入和输出
- 模型思考内容
- Token 消耗量
- Latency
主要是为了在出现问题时,便于追查和复现,不至于一头雾水,无计可施。
2.5 Safety & Guardrails
有时用户会恶意引导 LLM 回答一些敏感问题,比如密码、安全漏洞、政治观点等。
LLM 的安全性和合规性将面临极大挑战。
因此有必要为返回结果增加一层校验,比如:
- 输出过滤(toxicity / PII)
- schema 校验(JSON 必须合法)
- fallback(失败降级)
3. 例子
举一个简单的例子,如果你要做一个问答系统:
3.1❌ 没有 Harness
response = llm("Answer this: " + question)实现简单,但是:
- 结果不可预测
- 无法评估答案准确性
- 复杂任务效果差
- 出现问题难以排查
3.2✅ 有 Harness
docs = retrieve(question)
prompt = build_prompt( question=question, context=docs)
response = llm(prompt)
if not is_valid(response): response = retry()
score = evaluate(response)通过流程的确定性,对冲 LLM 返回结果的不确定性:
- 结果可预测,在给定范围内
- 可观测(observable)
- 可评估(optimizable)
4. 总结
AI Harness Engineering 本质是借助工程手段,驯化不确定的 LLM,让结果可预测、可评价、可迭代。
把 LLM 关在工程的笼子里,这是大规模商业化的前置条件。
本身没有什么魔法,都是既有工具和思想在 LLM 领域的应用。
这让我想起中国经济学家周其仁的一句话:
以规则的确定应对结果的不确定。
华为创始人任正非也提到过类似观点。
道理相同。
(完)
参考
- 本文作者:Plantree
- 本文链接:https://plantree.me/blog/2026/ai-harness-engineering/
- 版权声明:所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明出处!
最后更新于: 2026-04-16T03:11:38+08:00