Agent 评测标准 Wiki

适用于 Skill 驱动的 Agent 产品的完整评测体系

概览

本 Wiki 提供了一套完整的 Agent 评测框架，涵盖从基础能力到质量安全的 11 个核心维度，共 274 条测试用例。

核心特点

✅ Skill 驱动：支持用户供给 Skill 的产品评测
✅ 分组对照：基础能力层支持有/无 Skill 的对照测试
✅ 多模态覆盖：25 条多模态 case（图片、截图）
✅ 实战导向：所有 case 基于生活助手真实场景

评测框架结构

第一组：基础能力（B1-B3）

这些坏了，其他维度都跑不起来。必须优先达标。

维度	Case 数	核心问题
B1 意图理解	32	agent 理解了用户想要什么吗？
B2 Tool Use	36	agent 正确使用工具完成任务吗？
B3 指令约束遵从	43	agent 能严格执行精确约束条件吗？

第二组：复合能力（C1-C5）

依赖基础能力组合而来。核心路径必须达标，边界情况持续迭代。

维度	Case 数	核心问题
C1 Skill 遵从	27	agent 正确识别并执行 skill 吗？
C2 规划与多步推理	27	agent 能规划并可靠地完成复杂任务吗？
C4 任务执行稳态	12	agent 会死循环或过早放弃任务吗？
C5 长上下文性能	16	上下文变长时 agent 性能如何衰减？

第三组：质量与安全（Q1-Q3）

基础和复合能力跑通后的品控层。上线前必须有底线，之后持续提升。

维度	Case 数	核心问题
Q1 幻觉与知识边界	23	agent 知道自己不知道什么吗？
Q2 安全与对抗鲁棒性	24	agent 能抵御恶意输入和注入攻击吗？
Q3 效率	17	agent 用最优路径完成任务吗？

横切维度（X）

贯穿所有层级的附加评测，每次评测均需覆盖。

维度	Case 数	核心问题
X 输出一致性与风格	17	agent 的输出稳定、风格符合预期吗？

关键统计

总体数据

指标	数值
总 case 数	274
多模态 case	25 (9.1%)
多轮对话 case	75 (27.4%)
困难 case	105 (38.3%)
LLM-judge 需求	170 (62%)
自动化 case	82 (30%)

难度分布

难度	数量	占比
简单	47	17%
中等	122	45%
困难	105	38%

评分方式

方式	数量	占比
LLM-judge	170	62%
自动	82	30%
自动 + LLM-judge	18	7%
人工	4	1%

快速开始

1. 浏览评测框架

从评测框架开始，了解 11 个评测维度的设计思路和方法论。

2. 查看具体用例

点击左侧导航，进入各维度文档查看详细的测试用例。

3. 查询特定用例

访问用例详细表格，快速查找和定位特定的测试用例。

4. 了解统计数据

查看用例详细表格，按 Case ID 快速定位任意用例。

使用建议

评测优先级

第一组（基础能力）优先：B1-B3 不达标，不用看后面
第二组核心路径：C1-C5 核心场景必须达标
第三组品控层：Q1-Q3 持续提升

分组对照评测

基础能力层（B1-B3）采用分组对照：

Group A：关闭所有 skill（测纯基础能力）
Group B：开启相关 skill（验证 skill 不破坏基础能力）

目标：Group B ≥ Group A（skill 不应降低基础能力）

文档更新

最后更新：2026-04-07
版本：v0.6
状态：✅ 完整可用
未完成：C3 记忆管理（待补充）

开始探索 → 点击左侧导航或上方标签页