TMK提示将LLM规划能力提高3倍:从31%到97%

LLM 计划性能从 31% 飙升至 97%

  • TMK 提示使推理模型准确率提高 3 倍以上
  • 通过认知科学框架突破了现有 Chain-of-Thought 的局限性
  • 引导从语言推理转向形式化代码执行路径

发生了什么?

佐治亚理工学院的研究团队将源于认知科学的 Task-Method-Knowledge(TMK) 框架应用于 LLM 提示,从而大幅提高了计划性能。[arXiv] 在 PlanBench 基准的 Blocksworld 领域进行的实验结果表明,现有 31.5% 的准确率上升至 97.3%。 Erik Goh, John Kos, Ashok Goel 进行了这项研究。[arXiv]

与仅处理做什么 (Task)、如何做 (Method) 的现有分层框架不同,TMK 明确地表达了为什么要做 (Knowledge)。 它捕捉了 HTN 或 BDI 等现有方法遗漏的因果和目的论结构。[arXiv]

为什么重要?

这项研究是在对 LLM 的推理能力本身持怀疑态度的情况下进行的。 Chain-of-Thought(CoT) 提示被广泛使用,但关于它到底是真正的推理还是模式匹配的争论仍在继续。 TMK 在结构上绕过了这个限制。

尤其值得注意的是“性能逆转”现象。 推理模型在以前随机失败的不透明和符号化任务中表现出最佳性能。 研究团队解释说,TMK 使模型脱离了基本的语言模式,并激活了形式化代码执行路径。

从实用的角度来看,这意味着仅通过提示工程就可以将计划能力提高 3 倍以上,而无需重新训练模型。 它可以立即应用于代理系统或自动化工作流程设计。

未来会怎样?

TMK 提示是一种首先在教育领域得到验证的方法。 可以说,它将 AI 辅导系统中有效的方法扩展到了 LLM 推理。 推广到其他领域将是下一个研究课题。

目前的实验仅限于 Blocksworld 这个经典的计划问题。 需要验证 TMK 效果是否在更复杂的现实世界场景中仍然有效。 但是 97.3% 这个数字已经足够令人印象深刻了。

从提示设计的角度来看,还可以研究自动生成 TMK 结构的元提示技术。 即使使用者不直接编写 TMK,模型也可以自行创建任务分解结构。

常见问题 (FAQ)

Q: TMK 提示比 Chain-of-Thought 更好吗?

A: CoT 列出了顺序思维过程,但 TMK 明确地构建了分层分解和因果关系。 尤其是解释为什么执行特定行为的 Knowledge 元素激活了推理模型的形式化处理路径,从而提高了符号操作能力。

Q: 哪种类型的任务最有效?

A: 研究表明,在语义上不透明的符号操作任务中,效果最大化。 在像堆积木块这样规则明确但语言意义较少的问题中,性能从 31% 提高到 97%。 它比可以用日常语言解释的任务更适合抽象计划问题。

Q: 如何在实际项目中应用 TMK?

A: 在提示中明确三个要素即可。 Task 是目标状态,Method 是子任务分解和执行顺序,Knowledge 是每个行为的原因和前提条件。 它可以应用于需要复杂计划的代理系统或工作流程自动化。


如果这篇文章对您有帮助,请订阅 AI Digester。

参考资料

发表评论