Agent 评测标准 Wiki
适用于 Skill 驱动的 Agent 产品的完整评测体系
概览
本 Wiki 提供了一套完整的 Agent 评测框架,涵盖从基础能力到质量安全的 11 个核心维度,共 274 条测试用例。
核心特点
- ✅ Skill 驱动:支持用户供给 Skill 的产品评测
- ✅ 分组对照:基础能力层支持有/无 Skill 的对照测试
- ✅ 多模态覆盖:25 条多模态 case(图片、截图)
- ✅ 实战导向:所有 case 基于生活助手真实场景
评测框架结构
第一组:基础能力(B1-B3)
这些坏了,其他维度都跑不起来。必须优先达标。
| 维度 | Case 数 | 核心问题 |
|---|---|---|
| B1 意图理解 | 32 | agent 理解了用户想要什么吗? |
| B2 Tool Use | 36 | agent 正确使用工具完成任务吗? |
| B3 指令约束遵从 | 43 | agent 能严格执行精确约束条件吗? |
第二组:复合能力(C1-C5)
依赖基础能力组合而来。核心路径必须达标,边界情况持续迭代。
| 维度 | Case 数 | 核心问题 |
|---|---|---|
| C1 Skill 遵从 | 27 | agent 正确识别并执行 skill 吗? |
| C2 规划与多步推理 | 27 | agent 能规划并可靠地完成复杂任务吗? |
| C4 任务执行稳态 | 12 | agent 会死循环或过早放弃任务吗? |
| C5 长上下文性能 | 16 | 上下文变长时 agent 性能如何衰减? |
第三组:质量与安全(Q1-Q3)
基础和复合能力跑通后的品控层。上线前必须有底线,之后持续提升。
| 维度 | Case 数 | 核心问题 |
|---|---|---|
| Q1 幻觉与知识边界 | 23 | agent 知道自己不知道什么吗? |
| Q2 安全与对抗鲁棒性 | 24 | agent 能抵御恶意输入和注入攻击吗? |
| Q3 效率 | 17 | agent 用最优路径完成任务吗? |
横切维度(X)
贯穿所有层级的附加评测,每次评测均需覆盖。
| 维度 | Case 数 | 核心问题 |
|---|---|---|
| X 输出一致性与风格 | 17 | agent 的输出稳定、风格符合预期吗? |
关键统计
总体数据
| 指标 | 数值 |
|---|---|
| 总 case 数 | 274 |
| 多模态 case | 25 (9.1%) |
| 多轮对话 case | 75 (27.4%) |
| 困难 case | 105 (38.3%) |
| LLM-judge 需求 | 170 (62%) |
| 自动化 case | 82 (30%) |
难度分布
| 难度 | 数量 | 占比 |
|---|---|---|
| 简单 | 47 | 17% |
| 中等 | 122 | 45% |
| 困难 | 105 | 38% |
评分方式
| 方式 | 数量 | 占比 |
|---|---|---|
| LLM-judge | 170 | 62% |
| 自动 | 82 | 30% |
| 自动 + LLM-judge | 18 | 7% |
| 人工 | 4 | 1% |
快速开始
1. 浏览评测框架
从 评测框架 开始,了解 11 个评测维度的设计思路和方法论。
2. 查看具体用例
点击左侧导航,进入各维度文档查看详细的测试用例。
3. 查询特定用例
访问 用例详细表格,快速查找和定位特定的测试用例。
4. 了解统计数据
查看 完整用例总表 获取全面的统计分析。
使用建议
评测优先级
- 第一组(基础能力)优先:B1-B3 不达标,不用看后面
- 第二组核心路径:C1-C5 核心场景必须达标
- 第三组品控层:Q1-Q3 持续提升
分组对照评测
基础能力层(B1-B3)采用分组对照:
- Group A:关闭所有 skill(测纯基础能力)
- Group B:开启相关 skill(验证 skill 不破坏基础能力)
目标:Group B ≥ Group A(skill 不应降低基础能力)
文档更新
- 最后更新:2026-04-07
- 版本:v0.6
- 状态:✅ 完整可用
- 未完成:C3 记忆管理(待补充)
开始探索 → 点击左侧导航或上方标签页