Agent 评测标准 Wiki

适用于 Skill 驱动的 Agent 产品的完整评测体系


概览

本 Wiki 提供了一套完整的 Agent 评测框架,涵盖从基础能力到质量安全的 11 个核心维度,共 274 条测试用例

核心特点


评测框架结构

第一组:基础能力(B1-B3)

这些坏了,其他维度都跑不起来。必须优先达标。

维度 Case 数 核心问题
B1 意图理解 32 agent 理解了用户想要什么吗?
B2 Tool Use 36 agent 正确使用工具完成任务吗?
B3 指令约束遵从 43 agent 能严格执行精确约束条件吗?

第二组:复合能力(C1-C5)

依赖基础能力组合而来。核心路径必须达标,边界情况持续迭代。

维度 Case 数 核心问题
C1 Skill 遵从 27 agent 正确识别并执行 skill 吗?
C2 规划与多步推理 27 agent 能规划并可靠地完成复杂任务吗?
C4 任务执行稳态 12 agent 会死循环或过早放弃任务吗?
C5 长上下文性能 16 上下文变长时 agent 性能如何衰减?

第三组:质量与安全(Q1-Q3)

基础和复合能力跑通后的品控层。上线前必须有底线,之后持续提升。

维度 Case 数 核心问题
Q1 幻觉与知识边界 23 agent 知道自己不知道什么吗?
Q2 安全与对抗鲁棒性 24 agent 能抵御恶意输入和注入攻击吗?
Q3 效率 17 agent 用最优路径完成任务吗?

横切维度(X)

贯穿所有层级的附加评测,每次评测均需覆盖。

维度 Case 数 核心问题
X 输出一致性与风格 17 agent 的输出稳定、风格符合预期吗?

关键统计

总体数据

指标 数值
总 case 数 274
多模态 case 25 (9.1%)
多轮对话 case 75 (27.4%)
困难 case 105 (38.3%)
LLM-judge 需求 170 (62%)
自动化 case 82 (30%)

难度分布

难度 数量 占比
简单 47 17%
中等 122 45%
困难 105 38%

评分方式

方式 数量 占比
LLM-judge 170 62%
自动 82 30%
自动 + LLM-judge 18 7%
人工 4 1%

快速开始

1. 浏览评测框架

评测框架 开始,了解 11 个评测维度的设计思路和方法论。

2. 查看具体用例

点击左侧导航,进入各维度文档查看详细的测试用例。

3. 查询特定用例

访问 用例详细表格,快速查找和定位特定的测试用例。

4. 了解统计数据

查看 完整用例总表 获取全面的统计分析。


使用建议

评测优先级

  1. 第一组(基础能力)优先:B1-B3 不达标,不用看后面
  2. 第二组核心路径:C1-C5 核心场景必须达标
  3. 第三组品控层:Q1-Q3 持续提升

分组对照评测

基础能力层(B1-B3)采用分组对照:

目标:Group B ≥ Group A(skill 不应降低基础能力)


文档更新


开始探索 → 点击左侧导航或上方标签页