Q3 · 效率 · 测试用例

对应框架维度：Q3 效率状态：初稿最后更新：2026-04-07

维度说明

Q3 测试 agent 完成任务的路径是否最优，避免冗余步骤和不必要的 token 消耗。这是产品部署的成本基准。

核心问题：agent 能否用最短路径、最少 token 完成任务，而不是「能完成但绕远路」。

与 B2-RC（工具冗余调用）的区别：

B2-RC：测重复调用相同工具（明显的冗余）
Q3：测整体路径效率（可能每步都不重复，但整体绕远了）

用例规范

字段	说明
ID	格式：Q3-{维度缩写}-{序号}
维度	所属评测子维度
难度	简单 / 中等 / 困难
理论最优步骤数	人工标注的最短路径步骤数
输入	用户消息 + 上下文
期望行为	agent 的高效执行路径
判定标准	Pass / Fail 条件（基于步骤数比、token 数）
评分方式	自动
Skill 配置	必须开启

一、步骤数效率（SE: Step Efficiency）

实际步骤数 vs 理论最优步骤数之比。

Q3-SE-01简单查询任务

难度：简单
理论最优步骤数：1（直接调用工具）
输入：
- 用户消息：查一下明天北京的天气
- 上下文：无
期望行为：
- 最优路径：直接调用 maps_weather(city: "北京")，1 步完成
- 不应该：先 web_search 查北京的地理位置，再调用天气工具（2 步，冗余）
判定标准：
- Pass：1 步完成（效率比 = 1.0）
- Acceptable：2 步完成（效率比 = 2.0）
- Fail：3 步及以上（效率比 ≥ 3.0）
评分方式：自动（计数工具调用次数）
Skill 配置：Group A: skill_enabled: false / Group B: skill_enabled: true（对比 Skill 对效率的影响）

Q3-SE-02搜索→详情链

难度：简单
理论最优步骤数：2（搜索 + 详情）
输入：
- 用户消息：微博热搜第二条的详细内容是什么
- 上下文：无
期望行为：
- 最优路径：
  1. weibo_get_hot_search（获取热搜榜）
  2. weibo_get_post_detail(post_id: 第二条的 ID)
- 不应该：先搜索「微博热搜」→ 再获取热搜榜 → 再查详情（3 步，冗余）
判定标准：
- Pass：2 步完成（效率比 = 1.0）
- Acceptable：3 步（效率比 = 1.5）
- Fail：4 步及以上
评分方式：自动
Skill 配置：Group A: skill_enabled: false / Group B: skill_enabled: true（对比 Skill 对效率的影响）

Q3-SE-03依赖链最优路径

难度：中等
理论最优步骤数：2（lookup + search）
输入：
- 用户消息：北京朝阳区有哪些二手房
- 上下文：无
期望行为：
- 最优路径：
  1. beike_lookup_city_id(city_name: "北京")
  2. beike_search_resale_housing(city_id: result, district: "朝阳区")
- 不应该：先 web_search 查北京的 city_id（3 步，可以直接用工具）
判定标准：
- Pass：2 步完成（效率比 = 1.0）
- Fail：3 步及以上
评分方式：自动
Skill 配置：Group A: skill_enabled: false / Group B: skill_enabled: true（对比 Skill 对效率的影响）

Q3-SE-04避免不必要的详情查询

难度：中等
理论最优步骤数：1（搜索即可）
输入：
- 用户消息：淘宝上 iPhone 16 大概多少钱
- 上下文：无
期望行为：
- 最优路径：taobao_search_products(keyword: "iPhone 16")，从搜索结果提取价格（通常包含）
- 不应该：搜索 → 对每个商品调用 taobao_get_product_detail（6+ 步，冗余）
- 用户只问「大概多少钱」，不需要详细信息
判定标准：
- Pass：1 步完成（效率比 = 1.0）
- Acceptable：2 步（如果搜索结果确实没有价格，查 1 个详情）
- Fail：3 步及以上
评分方式：自动
Skill 配置：Group A: skill_enabled: false / Group B: skill_enabled: true（对比 Skill 对效率的影响）

二、Token 消耗（TC: Token Consumption）

完成同类任务的平均 token 用量。

Q3-TC-01简洁回答（简单查询）

难度：简单
理论最优 token：约 150 tokens（1 句话说明 + 天气信息）
输入：
- 用户消息：明天北京天气
- 上下文：无
期望行为：
- 简洁输出：「明天北京晴天，15-25°C，适合出行」
- 不应输出大段内容（如详细的气象分析、穿衣建议、历史天气对比）
判定标准：
- Pass：输出 ≤ 200 tokens
- Acceptable：200-400 tokens
- Fail：> 400 tokens（过度输出）
评分方式：自动（token 计数）
Skill 配置：Group A: skill_enabled: false / Group B: skill_enabled: true（对比 Skill 对效率的影响）

Q3-TC-02避免输出冗余的背景信息

难度：中等
理论最优 token：约 300-500 tokens（推荐内容）
输入：
- 用户消息：推荐几款降噪耳机
- 上下文：无
期望行为：
- 高效输出：直接推荐 3-5 款耳机，包含型号、价格、核心特点
- 不应该：
  - 长篇介绍降噪技术原理（200+ tokens 背景）
  - 解释为什么选择这些品牌（用户没问）
  - 详细的购买指南（用户没问）
- 用户要什么给什么，不多余
判定标准：
- Pass：输出 300-600 tokens，聚焦推荐本身
- Acceptable：600-1000 tokens
- Fail：> 1000 tokens（包含大量用户未要求的信息）
评分方式：自动（token 计数）+ LLM-judge（判断是否有冗余内容）
Skill 配置：Group A: skill_enabled: false / Group B: skill_enabled: true（对比 Skill 对效率的影响）

Q3-TC-03多轮中的增量输出

难度：中等
理论最优 token：约 200 tokens（只输出新信息）

输入：

messages 注入（执行用）：

[
  {"role": "user", "content": "推荐几款笔记本"},
  {"role": "assistant", "content": "为您推荐以下 5 款笔记本：\n\n1. **苹果 MacBook Air M3**（13英寸）- 价格约 9499 元，重量 1.24kg，续航可达 18 小时，性能优秀，适合日常办公和创作。\n\n2. **联想小新 Pro 16 2024**（16英寸，i7-13700H）- 价格约 5499 元，重量 1.9kg，2.5K 分辨率屏幕，性价比高，适合学生和上班族。\n\n3. **华为 MateBook X Pro 2024**（14.2英寸）- 价格约 7999 元，重量 1.26kg，OLED 屏幕，轻薄商务本，续航约 12 小时。\n\n4. **戴尔 XPS 15 9530**（15英寸，i7-13700H）- 价格约 10999 元，重量 1.86kg，OLED 触屏可选，适合专业创作者。\n\n5. **华硕 灵耀 14 2024**（14英寸，Ultra 9 185H）- 价格约 8499 元，重量 1.39kg，OLED 2.8K 屏，轻薄旗舰定位。"}
]

用户消息：有没有轻薄一点的

期望行为：
- 高效输出：从之前 5 款中筛选出轻薄的，只输出筛选结果
- 不应该：重新输出完整的 5 款对比（重复 1000 tokens）
- 增量输出：「之前推荐的 5 款中，苹果 MacBook Air M3（1.24kg）、华为 MateBook X Pro 2024（1.26kg）和华硕灵耀 14（1.39kg）比较轻薄」
判定标准：
- Pass：输出 ≤ 300 tokens，只包含新信息
- Fail：> 800 tokens，重复了之前的全部内容
评分方式：自动（token 计数）
Skill 配置：Group A: skill_enabled: false / Group B: skill_enabled: true（对比 Skill 对效率的影响）

三、冗余调用率（RC: Redundant Calls）

不必要的重复工具调用比例。

Q3-RC-01利用已有搜索结果

难度：中等
理论最优调用数：1（利用已有结果）

输入：

messages 注入（执行用）：

[
  {"role": "user", "content": "淘宝搜一下机械键盘"},
  {"role": "assistant", "content": [{"type": "tool_use", "id": "toolu_01", "name": "taobao_search_products", "input": {"keyword": "机械键盘", "count": 10}}]},
  {"role": "user", "content": [{"type": "tool_result", "tool_use_id": "toolu_01", "content": "{\"total\": 10, \"items\": [{\"id\": \"kb001\", \"name\": \"雷柏 V500 PRO 机械键盘 87键\", \"price\": 199, \"features\": \"青轴，无背光，防水溅设计\"}, {\"id\": \"kb002\", \"name\": \"ikbc C87 机械键盘 TKL\", \"price\": 299, \"features\": \"樱桃红轴，无背光，PBT键帽\"}, {\"id\": \"kb003\", \"name\": \"达尔优 EK815 机械键盘\", \"price\": 149, \"features\": \"红轴，RGB背光，有线\"}, {\"id\": \"kb004\", \"name\": \"罗技 G412 SE 机械游戏键盘\", \"price\": 399, \"features\": \"罗技 GX 红轴，白色 LED 背光\"}, {\"id\": \"kb005\", \"name\": \"雷蛇 BlackWidow V3 机械键盘\", \"price\": 799, \"features\": \"雷蛇绿轴，Chroma RGB 背光，全尺寸\"}, {\"id\": \"kb006\", \"name\": \"双飞燕 B975 光轴键盘\", \"price\": 259, \"features\": \"光轴，RGB 背光，全键无冲\"}, {\"id\": \"kb007\", \"name\": \"Leopold FC900R 机械键盘\", \"price\": 699, \"features\": \"樱桃茶轴，无背光，PBT 二色注塑键帽\"}, {\"id\": \"kb008\", \"name\": \"腹灵 FL980 机械键盘\", \"price\": 399, \"features\": \"红轴，RGB 背光，铝合金外壳\"}, {\"id\": \"kb009\", \"name\": \"客制化 GK68XS 机械键盘\", \"price\": 499, \"features\": \"热插拔轴，RGB 背光，蓝牙+有线双模\"}, {\"id\": \"kb010\", \"name\": \"樱桃 MX 2.0S 机械键盘\", \"price\": 599, \"features\": \"樱桃红轴，无背光，静音版可选\"}]}"}]},
  {"role": "assistant", "content": "为您找到 10 款机械键盘，价格从 149 元到 799 元不等，涵盖青轴、红轴、茶轴等主流轴体，有达尔优、罗技、雷蛇、腹灵等品牌。"},
  {"role": "user", "content": "有 RGB 灯光的有哪些"}
]

用户消息：（即「有 RGB 灯光的有哪些」）

期望行为：
- 最优路径：从已有的 10 个搜索结果中筛选（0 次新调用）
- 如果搜索结果确实不包含灯光信息，可以重新搜索时加关键词（1 次调用）
- 不应该：无条件重新搜索（1 次冗余调用）
判定标准：
- Pass：未调用工具（利用已有结果）或只调用 1 次（加精确筛选）
- Fail：调用了 2 次及以上（如重新搜「机械键盘」再搜「机械键盘 RGB」）
评分方式：自动（计数工具调用）
Skill 配置：Group A: skill_enabled: false / Group B: skill_enabled: true（对比 Skill 对效率的影响）

Q3-RC-02批量查询 vs 逐个查询

难度：中等
理论最优调用数：1（批量接口）
输入：
- 用户消息：帮我查一下从朝阳公园到故宫、天坛、鸟巢这三个地方分别怎么走
- 上下文：无
期望行为：
- 如果有批量接口（如 compute_google_maps_route_matrix），应该 1 次调用查 3 条路线
- 不应该：调用 3 次 compute_google_maps_routes（逐个查询）
判定标准：
- Pass：1 次调用（使用批量接口，效率比 = 1.0）
- Acceptable：3 次调用（逐个查询，效率比 = 3.0）
- Fail：> 3 次调用（有重复）
评分方式：自动
Skill 配置：Group A: skill_enabled: false / Group B: skill_enabled: true（对比 Skill 对效率的影响）

Q3-RC-03避免重复的数据获取

难度：中等
理论最优调用数：2（搜索 + 详情 × 1）
输入：
- 用户消息：这款耳机的价格、评价、销量分别是多少
- 上下文：已通过搜索知道了 product_id
期望行为：
- 最优路径：
  1. taobao_get_product_detail（获取价格和销量）
  2. taobao_get_product_reviews（获取评价）
- 不应该：分别调用 3 次工具去获取价格、评价、销量（如果详情接口能一次返回价格和销量）
判定标准：
- Pass：2 次调用完成
- Fail：3 次及以上（冗余）
评分方式：自动
Skill 配置：Group A: skill_enabled: false / Group B: skill_enabled: true（对比 Skill 对效率的影响）

四、输出冗余度（OR: Output Redundancy）

输出是否含有超出任务需求的多余内容。

Q3-OR-01用户只问 A，不输出 B

难度：简单
理论最优输出长度：100-150 tokens
输入：
- 用户消息：AirPods Pro 2 多少钱
- 上下文：无
期望行为：
- 高效输出：「AirPods Pro 2 在淘宝上的价格是 1899 元」
- 不应该附加：
  - 产品的详细参数（用户没问）
  - 与其他型号的对比（用户没问）
  - 购买建议和使用技巧（用户没问）
判定标准：
- Pass：输出 ≤ 200 tokens，只包含价格信息
- Fail：> 400 tokens，包含大量用户未要求的信息
评分方式：自动（token 计数）+ LLM-judge
Skill 配置：Group A: skill_enabled: false / Group B: skill_enabled: true（对比 Skill 对效率的影响）

Q3-OR-02推荐时的信息密度

难度：中等
理论最优输出长度：400-600 tokens（3 款 × 150 tokens/款）
输入：
- 用户消息：推荐 3 款降噪耳机
- 上下文：无
期望行为：
- 高效输出：3 款耳机，每款包含型号、价格、核心特点（2-3 句）
- 不应该：
  - 每款都写 300+ tokens 的详细评测
  - 包含历史发展、技术原理等背景
  - 附带完整的购买指南
判定标准：
- Pass：输出 400-700 tokens，信息密度高
- Acceptable：700-1000 tokens
- Fail：> 1200 tokens（每款平均 > 400 tokens，过于冗长）
评分方式：自动（token 计数）+ LLM-judge（信息密度评估）
Skill 配置：Group A: skill_enabled: false / Group B: skill_enabled: true（对比 Skill 对效率的影响）

Q3-OR-03多轮中避免重复背景介绍

难度：中等
理论最优输出长度：200 tokens（只回答当前问题）

输入：

messages 注入（执行用）：

[
  {"role": "user", "content": "介绍一下京都的旅行特色"},
  {"role": "assistant", "content": "京都是日本最具历史文化底蕴的城市之一，保存了大量完好的传统建筑和神社寺院。以下是京都旅行的主要特色：\n\n**历史文化景点**：清水寺、金阁寺、岚山竹林、伏见稻荷大社、二条城等，合计超过 17 处世界遗产。\n\n**传统文化体验**：祇园花见小路可以邂逅艺伎；京都有众多茶道、插花、和服体验课程；三条、四条一带保留了大量传统町家建筑。\n\n**美食特色**：怀石料理发源地，豆腐料理（湯豆腐）、京都拉面、宇治抹茶点心闻名全国；锦市场（「京都的厨房」）有各种当地食材和小吃。\n\n**最佳旅游时间**：春季（3月下旬-4月初）赏樱，秋季（11月）红叶，各有特色；夏季（7月）有祇园祭，冬季（12月-2月）人少但有雪景可赏。\n\n**交通**：市内交通以公交和地铁为主，可购买京都 1-3 日公交通票；从大阪或东京乘新干线可达。"}
]

用户消息：那住宿推荐呢

期望行为：
- 高效输出：直接推荐住宿区域，不重复京都背景介绍
- 不应该：「京都是一座历史悠久的城市...（重复之前 200 tokens）...住宿方面推荐...」
判定标准：
- Pass：输出 ≤ 300 tokens，无重复背景
- Fail：> 500 tokens，重复了之前介绍过的内容
评分方式：自动（token 计数）+ LLM-judge（检测重复）
Skill 配置：Group A: skill_enabled: false / Group B: skill_enabled: true（对比 Skill 对效率的影响）

Q3-OR-04免责声明和礼貌用语的冗余

难度：困难
理论最优输出长度：300 tokens（核心内容）
输入：
- 用户消息：推荐几款 3000 元左右的手机
- 上下文：无
期望行为：
- 高效输出：直接推荐手机，核心信息为主
- 不应该包含过多：
  - 免责声明（「以上信息仅供参考，请以实际为准」「价格可能有变动」）
  - 过度礼貌用语（「非常感谢您的提问」「希望对您有所帮助」）
  - 冗长的开场白（「在为您推荐之前，我想先说明一下...」）
- 这些内容通常占 50-100 tokens，对用户价值低
判定标准：
- Pass：核心内容占比 > 80%（免责和礼貌用语 < 20%）
- Fail：冗余内容占比 > 30%
评分方式：LLM-judge（计算核心内容 vs 冗余内容比例）
Skill 配置：Group A: skill_enabled: false / Group B: skill_enabled: true（对比 Skill 对效率的影响）

五、整体效率综合测试（OE: Overall Efficiency）

综合步骤数、token 数、冗余调用的整体效率评估。

Q3-OE-01简单任务的整体效率

难度：简单
理论最优：1 步，150 tokens
输入：
- 用户消息：查北京明天天气
- 上下文：无
期望行为：
- 1 步完成，输出简洁（150-200 tokens）
- 效率得分 = (1/实际步骤数) × (150/实际 tokens) × 100
判定标准：
- Pass：效率得分 ≥ 80
- Acceptable：60-80
- Fail：< 60
评分方式：自动（综合计算）
Skill 配置：Group A: skill_enabled: false / Group B: skill_enabled: true（对比 Skill 对效率的影响）

Q3-OE-02中等复杂任务的效率

难度：中等
理论最优：3 步，500 tokens
输入：
- 用户消息：对比一下索尼和 Bose 的降噪耳机，推荐一个
- 上下文：无
期望行为：
- 3 步：搜索索尼 + 搜索 Bose + 对比，输出 500-700 tokens
- 不应该：查详情、查评论、查品牌历史等（6+ 步）
- 不应该：输出 1500+ tokens 的长篇分析
判定标准：
- Pass：3-4 步，500-800 tokens（效率得分 ≥ 70）
- Acceptable：5 步，800-1200 tokens（效率得分 50-70）
- Fail：> 6 步或 > 1500 tokens（效率得分 < 50）
评分方式：自动
Skill 配置：Group A: skill_enabled: false / Group B: skill_enabled: true（对比 Skill 对效率的影响）

Q3-OE-03复杂任务的效率（不过度优化）

难度：困难
理论最优：8-10 步，1500-2000 tokens
输入：
- 用户消息：规划端午去京都 5 天的旅行，从上海出发，预算 1 万/人，想去清水寺、金阁寺、岚山、伏见稻荷
- 上下文：当前日期为 2026-04-07
期望行为：
- 这是复杂任务，不应过度追求效率牺牲质量
- 合理步骤数：8-12 步（查机票、排行程、推荐住宿等）
- 合理输出：1500-2500 tokens（完整方案）
- 不应该：为了效率跳过关键步骤（如不查地图直接排行程）
判定标准：
- Pass：8-12 步，1500-2500 tokens，质量不降低
- Fail：< 6 步或 < 1000 tokens（过度简化，质量下降）/ > 15 步或 > 3500 tokens（效率过低）
评分方式：LLM-judge（平衡效率和质量）
Skill 配置：Group A: skill_enabled: false / Group B: skill_enabled: true（对比 Skill 对效率的影响）

评测执行说明

总用例数

维度	代号	用例数
步骤数效率	SE	4
Token 消耗	TC	3
冗余调用率	RC	3
输出冗余度	OR	4
整体效率	OE	3
合计		17

注：Q3 原计划 12 条，实际产出 17 条（增加了整体效率维度）。

难度分布

难度	数量	占比
简单	5	29%
中等	9	53%
困难	3	18%

对话轮次分布

类型	数量	占比
单轮	12	71%
多轮（2-3 轮）	5	29%

Q3 主要测单轮效率，多轮主要测增量输出。

评分方式分布

方式	数量	说明
自动	12	步骤数、token 数、工具调用次数都可自动统计
自动 + LLM-judge	5	自动统计数值，LLM 判断是否有冗余内容

效率指标计算

步骤效率比

步骤效率比 = 理论最优步骤数 / 实际步骤数

示例：
- 理论最优：2 步
- 实际执行：3 步
- 效率比 = 2/3 = 0.67

越接近 1.0 越好

Token 效率比

Token 效率比 = 理论最优 tokens / 实际 tokens

示例：
- 理论最优：300 tokens
- 实际输出：500 tokens
- 效率比 = 300/500 = 0.6

越接近 1.0 越好

综合效率得分

综合效率 = (步骤效率比 × 0.5 + Token 效率比 × 0.3 + 无冗余调用 × 0.2) × 100

示例：
- 步骤效率比 = 0.67
- Token 效率比 = 0.6
- 无冗余调用 = 1.0（无重复）
- 综合效率 = (0.67×0.5 + 0.6×0.3 + 1.0×0.2) × 100 = 71.5

≥ 80: 优秀
60-80: 良好
< 60: 需要优化

效率 vs 质量的平衡

重要原则：效率不应以牺牲质量为代价。

场景	效率优先	质量优先	说明
简单查询	✓	-	「明天天气」应该 1 步完成
推荐任务	平衡	-	可以 2-3 步，但不应 10 步
复杂规划	-	✓	旅行规划可以 10 步，不应为效率跳步
安全相关	-	✓	医疗、法律咨询不应为效率简化

判定原则：

简单任务（理论 1-2 步）：效率比 < 0.5 为 Fail
中等任务（理论 3-5 步）：效率比 < 0.6 为 Fail
复杂任务（理论 8+ 步）：效率比 < 0.7 为 Acceptable（不追求极致效率）

按任务类型的效率基准

任务类型	理论步骤数	理论 tokens	代表 case
简单查询	1	150	查天气、查价格
搜索+提取	2	250	搜笔记、读内容
对比推荐	3-4	500-700	对比 2 款产品
复杂规划	8-12	1500-2500	旅行规划全流程

Group A vs Group B 效率对比

Q3 是唯一一个需要关注「Skill 对效率的影响」的维度：

测试方法：

每个 case 在 Group A（无 skill）和 Group B（有 skill）下都跑
对比两组的步骤数和 token 数

预期结果：

理想情况：Group B 效率 ≥ Group A（skill 优化了路径）
可接受：Group B 效率略低于 Group A（skill 增加了验证步骤，但质量提升）
问题：Group B 效率显著低于 Group A（skill 设计有问题）

示例分析：

Case: 查询机票

Group A（无 skill）:
  - 步骤数: 1（直接调用 search_flights）
  - Tokens: 200（简单列出航班）
  - 效率比: 1.0

Group B（有 flight-selection skill）:
  - 步骤数: 3（±1 天搜索 + 对比）
  - Tokens: 600（包含对比说明）
  - 效率比: 0.33

分析：
  - 步骤数增加了 3 倍，但这是 skill 的核心价值（帮用户做对比）
  - 输出 tokens 增加，但信息价值更高
  - 判定：Acceptable（质量提升 > 效率降低）

后续迭代方向

补充更多复杂任务的效率测试（区分「必要的复杂」vs「冗余的复杂」）
补充 Skill 效率对比测试（量化 skill 对效率的影响）
补充并行执行的效率测试（如果框架支持并行工具调用）
补充响应时间测试（除了步骤数和 token，实际耗时也是效率指标）
从生产环境监控中提取效率异常的 case（如某个任务平均耗时过长）
建立不同任务类型的效率基准数据库（P50、P90、P99 分位值）