跳到主要内容

spec-coding-skills 演示基准

这个项目包含一个小型的 3 轮提示演示基准,用来对比:

  • 通用 agent 的基线输出
  • spec-coding-skills 引导的输出

结果摘要

Eval基线使用技能后
规划一个已有功能33.3%100.0%
修复一个失败测试0.0%100.0%
保存一个可复用的根因0.0%100.0%
总体均值11.1%100.0%

它衡量什么

这个演示并不声称最终代码质量也以同样幅度提升。

它衡量的是,agent 是否产出了能让真实开发更稳妥的工作流产物:

  • 清晰范围
  • 可测试的验收标准
  • 明确的验证步骤
  • 可复用的项目记忆
  • 结构化的纠偏输出

把它看作一个演示信号,而不是统计意义上严格的基准。