TMK提示将LLM规划能力提高3倍：从31%到97%

LLM 计划性能从 31% 飙升至 97%

TMK 提示使推理模型准确率提高 3 倍以上
通过认知科学框架突破了现有 Chain-of-Thought 的局限性
引导从语言推理转向形式化代码执行路径

发生了什么？

佐治亚理工学院的研究团队将源于认知科学的 Task-Method-Knowledge(TMK) 框架应用于 LLM 提示，从而大幅提高了计划性能。^[arXiv] 在 PlanBench 基准的 Blocksworld 领域进行的实验结果表明，现有 31.5% 的准确率上升至 97.3%。 Erik Goh, John Kos, Ashok Goel 进行了这项研究。^[arXiv]

与仅处理做什么 (Task)、如何做 (Method) 的现有分层框架不同，TMK 明确地表达了为什么要做 (Knowledge)。它捕捉了 HTN 或 BDI 等现有方法遗漏的因果和目的论结构。^[arXiv]

为什么重要？

这项研究是在对 LLM 的推理能力本身持怀疑态度的情况下进行的。 Chain-of-Thought(CoT) 提示被广泛使用，但关于它到底是真正的推理还是模式匹配的争论仍在继续。 TMK 在结构上绕过了这个限制。

尤其值得注意的是“性能逆转”现象。推理模型在以前随机失败的不透明和符号化任务中表现出最佳性能。研究团队解释说，TMK 使模型脱离了基本的语言模式，并激活了形式化代码执行路径。

从实用的角度来看，这意味着仅通过提示工程就可以将计划能力提高 3 倍以上，而无需重新训练模型。它可以立即应用于代理系统或自动化工作流程设计。

未来会怎样？

TMK 提示是一种首先在教育领域得到验证的方法。可以说，它将 AI 辅导系统中有效的方法扩展到了 LLM 推理。推广到其他领域将是下一个研究课题。

目前的实验仅限于 Blocksworld 这个经典的计划问题。需要验证 TMK 效果是否在更复杂的现实世界场景中仍然有效。但是 97.3% 这个数字已经足够令人印象深刻了。

从提示设计的角度来看，还可以研究自动生成 TMK 结构的元提示技术。即使使用者不直接编写 TMK，模型也可以自行创建任务分解结构。

常见问题 (FAQ)

Q: TMK 提示比 Chain-of-Thought 更好吗？

A: CoT 列出了顺序思维过程，但 TMK 明确地构建了分层分解和因果关系。尤其是解释为什么执行特定行为的 Knowledge 元素激活了推理模型的形式化处理路径，从而提高了符号操作能力。

Q: 哪种类型的任务最有效？

A: 研究表明，在语义上不透明的符号操作任务中，效果最大化。在像堆积木块这样规则明确但语言意义较少的问题中，性能从 31% 提高到 97%。它比可以用日常语言解释的任务更适合抽象计划问题。

Q: 如何在实际项目中应用 TMK？

A: 在提示中明确三个要素即可。 Task 是目标状态，Method 是子任务分解和执行顺序，Knowledge 是每个行为的原因和前提条件。它可以应用于需要复杂计划的代理系统或工作流程自动化。

如果这篇文章对您有帮助，请订阅 AI Digester。

参考资料

Knowledge Model Prompting Increases LLM Performance on Planning Tasks – arXiv (2026-02-03)