Benchmark Store
/install benchmark-store
Benchmark Store
Frozen benchmarks, hidden tests, Pareto front, and evaluation standards.
When to Use
- 初始化或查询基准数据库
- 对比 skill 评分与冻结基线
- 检查 Pareto front(任何维度回退 >5% 即拒绝)
- 查阅质量分级标准(POWERFUL/SOLID/GENERIC/WEAK)
- 添加新的冻结测试用例到基准库
- 查看某个 skill 在所有维度上的历史最优分数
- 为 improvement-gate 的 RegressionGate 提供 Pareto 基线数据
- 在批量评估场景下列出所有已注册的 benchmark 条目
When NOT to Use
- 给候选打分 → use
improvement-discriminator - 自动改进 → use
improvement-learner - 全流程 → use
improvement-orchestrator - 执行变更 → use
improvement-executor - 门禁决策 → use
improvement-gate(它消费 benchmark-store 的数据)
Quality Tiers
| Tier | Score | Ship? |
|---|---|---|
| POWERFUL ⭐ | ≥ 85% | Marketplace ready |
| SOLID | 70–84% | GitHub |
| GENERIC | 55–69% | Needs iteration |
| WEAK | \x3C 55% | Reject or rewrite |
分级基于所有维度的加权综合分。每个维度在 evaluation-standards.md 中有独立权重。accuracy 和 coverage 权重最高(各 0.2),security 权重 0.15,其余维度各 0.1-0.15。分级用于 improvement-orchestrator 决定是否继续迭代:POWERFUL 即停止,WEAK 必须重试。
Why Pareto Front Instead of Weighted Average
Tradeoff: 用加权平均分来判断回退看似简单(一个数字对比),但它会隐藏维度间的此消彼长。例如 accuracy 从 0.9 降到 0.6 而 coverage 从 0.5 升到 0.8,加权平均可能持平甚至上升,但 accuracy 的大幅回退被掩盖了。Because Pareto front 逐维度检查,任何单一维度回退超过 5% 阈值都会触发拒绝,确保改进是真正的帕累托改进(没有维度变差)而非以牺牲某个维度为代价的伪改进。
这个设计的代价是改进更难被接受(通过率约 40-50%),但避免了"越改越偏"的漂移问题。在 autoloop 场景下,Pareto 保护是防止 LLM 在多轮迭代中逐步丢失已有优势的关键机制。
Pareto Front
ParetoFront.check_regression(new_scores) → {"regressed": bool, "regressions": [...]}
# 5% tolerance — minor fluctuations allowed
Pareto 回退检查的完整流程:加载历史最优分 → 逐维度对比 → 超过 5% 阈值的维度标记为 regression → 任何一个 regression 即判定整体 regressed=True。
# Pareto regression check — full example
from lib.pareto import ParetoFront
pf = ParetoFront("state/pareto.json")
new_scores = {"accuracy": 0.82, "coverage": 0.90, "reliability": 1.0,
"efficiency": 0.95, "security": 1.0, "trigger_quality": 0.75}
result = pf.check_regression(new_scores)
# result = {"regressed": True,
# "regressions": [{"dim": "accuracy", "before": 0.90, "after": 0.82, "delta": -0.08}]}
# accuracy dropped 8% (> 5% threshold) → regression detected → candidate rejected
\x3Cexample> 正确: 检查 Pareto front 是否有回退 $ python3 -c "from lib.pareto import ParetoFront; pf = ParetoFront('state/pareto.json'); print(pf.check_regression({'accuracy': 0.9, 'coverage': 0.8}))" → {"regressed": false, "regressions": []} # 无回退,可以接受 \x3C/example>
\x3Canti-example> 错误: 用 benchmark-store 给候选打分 → benchmark-store 只存数据,打分用 improvement-discriminator \x3C/anti-example>
CLI
# List benchmarks
python3 scripts/benchmark_db.py --action list --db-path benchmarks.db
# Compare skill against baselines
python3 scripts/benchmark_db.py --action compare --skill-path /path/to/skill --category general --db-path benchmarks.db
# Add a benchmark
python3 scripts/benchmark_db.py --action add --category general --test-name "test1" --db-path benchmarks.db
Output Artifacts
| Request | Deliverable |
|---|---|
| Init | SQLite database with schema |
| Compare | JSON comparison with per-dimension delta |
| Pareto check | JSON with regressed flag and details |
| List | All registered benchmarks with metadata |
| Add | Confirmation of new benchmark insertion |
Compare 输出包含每个维度的 before/after/delta 三元组,以及整体的 tier_before/tier_after 分级变化。当从 SOLID 升级到 POWERFUL 或从 GENERIC 降级到 WEAK 时会额外标注 tier_changed: true。
Related Skills
- improvement-learner: Imports ParetoFront for self-improvement loop
- improvement-gate: RegressionGate uses Pareto data to block regressions
- improvement-discriminator: References evaluation standards for scoring context
- improvement-orchestrator: Full pipeline queries benchmark-store at gate stage
- autoloop-controller: Uses historical benchmark data to detect convergence plateau
Data Files
data/evaluation-standards.md— Quality tiers, dimensions, weights (v2.0.0)data/fixtures/— Frozen test fixturesstate/pareto.json— Per-skill Pareto front historical best scoresbenchmarks.db— SQLite database storing all benchmark entries and results
- 确保已安装 OpenClaw(本地或 Docker 部署)
- 在对话框中输入安装命令:
/install benchmark-store - 安装完成后,直接呼叫该 Skill 的名称或使用
/benchmark-store触发 - 根据 Skill 的参数说明提供必要输入,即可获得结构化输出
Benchmark Store 是什么?
当需要初始化基准数据库、对比 skill 评分与历史基线、查看 Pareto front 是否有维度回退、或查阅质量分级标准时使用。不用于给候选打分(用 improvement-discriminator)或自动改进(用 improvement-learner)。 它是一个面向 Claude Code / OpenClaw 的 AI Agent Skill 插件,目前累计下载 117 次。
如何安装 Benchmark Store?
在 OpenClaw 或 Claude Code 对话框中运行命令「/install benchmark-store」即可一键安装,无需额外配置。
Benchmark Store 是免费的吗?
是的,Benchmark Store 完全免费,采用 MIT-0 许可证,可自由下载、安装和使用。
Benchmark Store 支持哪些平台?
Benchmark Store 跨平台运行,可在任意部署了 OpenClaw / Claude Code 的环境中使用(cross-platform)。
谁开发了 Benchmark Store?
由 _silhouette(@lanyasheng)开发并维护,当前版本 v1.1.1。