推荐目录结构
PROMPT.md 写给 agent 看,描述真实任务。EVAL.ts 写给 niceeval 看,验证任务是否完成。插件安装、配置或 token 可以放在 fixture 文件、sandbox hook 或 agent adapter 的 setup 里。
写任务
PROMPT.md
EVAL.ts 里检查结果,也可以检查 o11y 摘要里的工具调用或 shell 命令。
写验证
EVAL.ts
__niceeval__/results.json:
运行
fixtures/plugin/create-button 只作为 eval ID 前缀过滤。
比较插件效果
把“开启插件”和“不开启插件”做成两个 agent 或两个 experiment cell:pass@N是否提升。- 平均耗时和 token 是否可接受。
- 失败 transcript 中 agent 是否真的使用了插件。
- diff 是否只改了任务相关文件。
Copy to your agent
下一步
- Fixtures — fixture 目录和
EVAL.ts的完整写法。 - Sandbox Agent — 内置
claude-code、codex和自定义 sandbox agent。 - 查看结果 — 看 transcript、diff 和 event stream。