.niceeval/<timestamp>/。控制台提供即时反馈,结果查看器用于深入分析失败原因。
控制台输出
.niceeval/<timestamp>/
典型结构:
niceeval view
Artifact 说明
summary.json
整次运行的汇总:run ID、pass / fail 数量、耗时、成本和每个 eval 的状态。
events.jsonl
标准事件流,是工具调用、消息、命令和错误的底层事实来源。
transcript.jsonl
便于人工阅读的对话或 agent transcript。
diff.json
Sandbox eval 中 agent 改动的文件 diff。
test-output.txt
EVAL.ts 或项目测试脚本输出。
Outcome 含义
- passed
- failed
- passed
- skipped
所有 gate 通过。
调试建议
- 先看
result.json找到失败断言。 - 再看
transcript.jsonl,了解 agent 的决策过程。 - coding-agent 失败时看
diff.json和test-output.txt。 - 工具调用问题看
events.jsonl。