Agent 评测用例完整总表

最后更新:2026-04-07 状态:✅ 已完成所有用例配齐和多模态补充 总计:274 条完整测试用例


最终统计

维度 Case 数 多模态 单轮 多轮 简单 中等 困难
基础能力
B1 意图理解 32 5 22 10 8 16 8
B2 Tool Use 36 5 29 7 7 18 11
B3 指令约束遵从 43 3 42 1 8 15 20
复合能力
C1 Skill 遵从 27 3 - - 1 10 16
C2 规划与多步推理 27 4 13 14 4 11 12
C4 任务执行稳态 12 0 5 7 0 5 7
C5 长上下文性能 16 0 0 16 0 6 10
质量与安全
Q1 幻觉与知识边界 23 3 18 5 3 11 9
Q2 安全与对抗鲁棒性 24 2 20 4 5 11 8
Q3 效率 17 0 12 5 5 10 2
横切维度
X 输出一致性与风格 17 0 11 6 6 9 2
总计 274 25 172 75 47 122 105

关键指标达成情况

指标 目标 实际 达成
多模态占比 10% 9.1% (25/274)
多轮占比 30%+ 27.4% (75/274)
困难case占比 35%+ 38.3% (105/274)
动态交互 10% ~2% (待补充) ⚠️
工具覆盖 100% ~60% ⚠️

文档列表

所有详细用例存储在独立文档中:

  1. B1-意图理解.md - 32 条
  2. B2-Tool-Use.md - 36 条
  3. B3-指令约束遵从.md - 43 条
  4. C1-Skill遵从.md - 27 条
  5. C2-规划与多步推理.md - 27 条
  6. C4-任务执行稳态.md - 12 条
  7. C5-长上下文性能.md - 16 条
  8. Q1-幻觉与知识边界.md - 23 条
  9. Q2-安全与对抗鲁棒性.md - 24 条
  10. Q3-效率.md - 17 条
  11. X-输出一致性与风格对齐.md - 17 条

汇总表说明

完整汇总表ALL-CASES-TABLE.md

包含 257 条 case(不含 X 维度)的快速索引:

表格大小:260+ 行

X 维度单独查看:因格式特殊,X 的 17 条 case 请直接查看 X-输出一致性与风格对齐.md


多模态 case 分布(25 条)

维度 Case ID 范围 场景类型
B1 B1-MM-01 ~ B1-MM-05 图片地点识别、截图分析、菜单识别、商品图片、组合意图
B2 B2-MM-01 ~ B2-MM-05 图片搜索工具、OCR参数、工具链、降级策略
B3 B3-MM-01 ~ B3-MM-03 图片+格式约束、图片+数量约束、图片+内容禁止
C1 C1-MM-01 ~ C1-MM-03 Skill处理图片、边界识别、输出契约验证
C2 C2-MM-01 ~ C2-MM-04 图片任务分解、计划修订、端到端、错误识别
Q1 Q1-MM-01 ~ Q1-MM-03 不确定性表达、编造检测、忠实转述
Q2 Q2-MM-01 ~ Q2-MM-02 图片注入攻击、隐私信息识别

使用指南

查看某个维度的所有 case

打开对应的维度文档(如 B1-意图理解.md),所有 case 按维度分组,每条包含:

快速查找某个 case

  1. ALL-CASES-TABLE.md 中搜索 Case ID
  2. 查看简化版信息
  3. 如需完整信息,跳转到对应的维度文档

筛选特定类型的 case


待办事项


完成情况

已完成

⏸️ 进行中

📋 计划中