spec-coding-skills 演示基准
这个项目包含一个小型的 3 轮提示演示基准,用来对比:
- 通用 agent 的基线输出
- 由
spec-coding-skills引导的输出
结果摘要
| Eval | 基线 | 使用技能后 |
|---|---|---|
| 规划一个已有功能 | 33.3% | 100.0% |
| 修复一个失败测试 | 0.0% | 100.0% |
| 保存一个可复用的根因 | 0.0% | 100.0% |
| 总体均值 | 11.1% | 100.0% |
它衡量什么
这个演示并不声称最终代码质量也以同样幅度提升。
它衡量的是,agent 是否产出了能让真实开发更稳妥的工作流产物:
- 清晰范围
- 可测试的验收标准
- 明确的验证步骤
- 可复用的项目记忆
- 结构化的纠偏输出
把它看作一个演示信号,而不是统计意义上严格的基准。