跳到主要内容

spec-coding-skills 演示基准

这个项目包含一个小型的 3 轮提示演示基准，用来对比：

通用 agent 的基线输出
由 spec-coding-skills 引导的输出

结果摘要

Eval	基线	使用技能后
规划一个已有功能	33.3%	100.0%
修复一个失败测试	0.0%	100.0%
保存一个可复用的根因	0.0%	100.0%
总体均值	11.1%	100.0%

它衡量什么

这个演示并不声称最终代码质量也以同样幅度提升。

它衡量的是，agent 是否产出了能让真实开发更稳妥的工作流产物：

清晰范围
可测试的验收标准
明确的验证步骤
可复用的项目记忆
结构化的纠偏输出

把它看作一个演示信号，而不是统计意义上严格的基准。

结果摘要
它衡量什么