Q3 · 效率 · 测试用例

对应框架维度:Q3 效率 状态:初稿 最后更新:2026-04-07


维度说明

Q3 测试 agent 完成任务的路径是否最优,避免冗余步骤和不必要的 token 消耗。这是产品部署的成本基准。

核心问题:agent 能否用最短路径、最少 token 完成任务,而不是「能完成但绕远路」。

与 B2-RC(工具冗余调用)的区别:


用例规范

字段 说明
ID 格式:Q3-{维度缩写}-{序号}
维度 所属评测子维度
难度 简单 / 中等 / 困难
理论最优步骤数 人工标注的最短路径步骤数
输入 用户消息 + 上下文
期望行为 agent 的高效执行路径
判定标准 Pass / Fail 条件(基于步骤数比、token 数)
评分方式 自动
Skill 配置 必须开启

一、步骤数效率(SE: Step Efficiency)

实际步骤数 vs 理论最优步骤数之比。

Q3-SE-01简单查询任务
  • 难度简单
  • 理论最优步骤数:1(直接调用工具)
  • 输入
    • 用户消息:查一下明天北京的天气
    • 上下文:无
  • 期望行为
    • 最优路径:直接调用 maps_weather(city: "北京"),1 步完成
    • 不应该:先 web_search 查北京的地理位置,再调用天气工具(2 步,冗余)
  • 判定标准
    • Pass:1 步完成(效率比 = 1.0)
    • Acceptable:2 步完成(效率比 = 2.0)
    • Fail:3 步及以上(效率比 ≥ 3.0)
  • 评分方式:自动(计数工具调用次数)
  • Skill 配置Group A: skill_enabled: false / Group B: skill_enabled: true(对比 Skill 对效率的影响)
Q3-SE-02搜索→详情链
  • 难度简单
  • 理论最优步骤数:2(搜索 + 详情)
  • 输入
    • 用户消息:微博热搜第二条的详细内容是什么
    • 上下文:无
  • 期望行为
    • 最优路径:
      1. weibo_get_hot_search(获取热搜榜)
      2. weibo_get_post_detail(post_id: 第二条的 ID)
    • 不应该:先搜索「微博热搜」→ 再获取热搜榜 → 再查详情(3 步,冗余)
  • 判定标准
    • Pass:2 步完成(效率比 = 1.0)
    • Acceptable:3 步(效率比 = 1.5)
    • Fail:4 步及以上
  • 评分方式:自动
  • Skill 配置Group A: skill_enabled: false / Group B: skill_enabled: true(对比 Skill 对效率的影响)
Q3-SE-03依赖链最优路径
  • 难度中等
  • 理论最优步骤数:2(lookup + search)
  • 输入
    • 用户消息:北京朝阳区有哪些二手房
    • 上下文:无
  • 期望行为
    • 最优路径:
      1. beike_lookup_city_id(city_name: "北京")
      2. beike_search_resale_housing(city_id: result, district: "朝阳区")
    • 不应该:先 web_search 查北京的 city_id(3 步,可以直接用工具)
  • 判定标准
    • Pass:2 步完成(效率比 = 1.0)
    • Fail:3 步及以上
  • 评分方式:自动
  • Skill 配置Group A: skill_enabled: false / Group B: skill_enabled: true(对比 Skill 对效率的影响)
Q3-SE-04避免不必要的详情查询
  • 难度中等
  • 理论最优步骤数:1(搜索即可)
  • 输入
    • 用户消息:淘宝上 iPhone 16 大概多少钱
    • 上下文:无
  • 期望行为
    • 最优路径:taobao_search_products(keyword: "iPhone 16"),从搜索结果提取价格(通常包含)
    • 不应该:搜索 → 对每个商品调用 taobao_get_product_detail(6+ 步,冗余)
    • 用户只问「大概多少钱」,不需要详细信息
  • 判定标准
    • Pass:1 步完成(效率比 = 1.0)
    • Acceptable:2 步(如果搜索结果确实没有价格,查 1 个详情)
    • Fail:3 步及以上
  • 评分方式:自动
  • Skill 配置Group A: skill_enabled: false / Group B: skill_enabled: true(对比 Skill 对效率的影响)

二、Token 消耗(TC: Token Consumption)

完成同类任务的平均 token 用量。

Q3-TC-01简洁回答(简单查询)
  • 难度简单
  • 理论最优 token:约 150 tokens(1 句话说明 + 天气信息)
  • 输入
    • 用户消息:明天北京天气
    • 上下文:无
  • 期望行为
    • 简洁输出:「明天北京晴天,15-25°C,适合出行」
    • 不应输出大段内容(如详细的气象分析、穿衣建议、历史天气对比)
  • 判定标准
    • Pass:输出 ≤ 200 tokens
    • Acceptable:200-400 tokens
    • Fail:> 400 tokens(过度输出)
  • 评分方式:自动(token 计数)
  • Skill 配置Group A: skill_enabled: false / Group B: skill_enabled: true(对比 Skill 对效率的影响)
Q3-TC-02避免输出冗余的背景信息
  • 难度中等
  • 理论最优 token:约 300-500 tokens(推荐内容)
  • 输入
    • 用户消息:推荐几款降噪耳机
    • 上下文:无
  • 期望行为
    • 高效输出:直接推荐 3-5 款耳机,包含型号、价格、核心特点
    • 不应该:
      • 长篇介绍降噪技术原理(200+ tokens 背景)
      • 解释为什么选择这些品牌(用户没问)
      • 详细的购买指南(用户没问)
    • 用户要什么给什么,不多余
  • 判定标准
    • Pass:输出 300-600 tokens,聚焦推荐本身
    • Acceptable:600-1000 tokens
    • Fail:> 1000 tokens(包含大量用户未要求的信息)
  • 评分方式:自动(token 计数)+ LLM-judge(判断是否有冗余内容)
  • Skill 配置Group A: skill_enabled: false / Group B: skill_enabled: true(对比 Skill 对效率的影响)
Q3-TC-03多轮中的增量输出
  • 难度中等
  • 理论最优 token:约 200 tokens(只输出新信息)
  • 输入
    • messages 注入(执行用):
      [
        {"role": "user", "content": "推荐几款笔记本"},
        {"role": "assistant", "content": "为您推荐以下 5 款笔记本:\n\n1. **苹果 MacBook Air M3**(13英寸)- 价格约 9499 元,重量 1.24kg,续航可达 18 小时,性能优秀,适合日常办公和创作。\n\n2. **联想小新 Pro 16 2024**(16英寸,i7-13700H)- 价格约 5499 元,重量 1.9kg,2.5K 分辨率屏幕,性价比高,适合学生和上班族。\n\n3. **华为 MateBook X Pro 2024**(14.2英寸)- 价格约 7999 元,重量 1.26kg,OLED 屏幕,轻薄商务本,续航约 12 小时。\n\n4. **戴尔 XPS 15 9530**(15英寸,i7-13700H)- 价格约 10999 元,重量 1.86kg,OLED 触屏可选,适合专业创作者。\n\n5. **华硕 灵耀 14 2024**(14英寸,Ultra 9 185H)- 价格约 8499 元,重量 1.39kg,OLED 2.8K 屏,轻薄旗舰定位。"}
      ]
      
    • 用户消息:有没有轻薄一点的
  • 期望行为
    • 高效输出:从之前 5 款中筛选出轻薄的,只输出筛选结果
    • 不应该:重新输出完整的 5 款对比(重复 1000 tokens)
    • 增量输出:「之前推荐的 5 款中,苹果 MacBook Air M3(1.24kg)、华为 MateBook X Pro 2024(1.26kg)和华硕灵耀 14(1.39kg)比较轻薄」
  • 判定标准
    • Pass:输出 ≤ 300 tokens,只包含新信息
    • Fail:> 800 tokens,重复了之前的全部内容
  • 评分方式:自动(token 计数)
  • Skill 配置Group A: skill_enabled: false / Group B: skill_enabled: true(对比 Skill 对效率的影响)

三、冗余调用率(RC: Redundant Calls)

不必要的重复工具调用比例。

Q3-RC-01利用已有搜索结果
  • 难度中等
  • 理论最优调用数:1(利用已有结果)
  • 输入
    • messages 注入(执行用):
      [
        {"role": "user", "content": "淘宝搜一下机械键盘"},
        {"role": "assistant", "content": [{"type": "tool_use", "id": "toolu_01", "name": "taobao_search_products", "input": {"keyword": "机械键盘", "count": 10}}]},
        {"role": "user", "content": [{"type": "tool_result", "tool_use_id": "toolu_01", "content": "{\"total\": 10, \"items\": [{\"id\": \"kb001\", \"name\": \"雷柏 V500 PRO 机械键盘 87键\", \"price\": 199, \"features\": \"青轴,无背光,防水溅设计\"}, {\"id\": \"kb002\", \"name\": \"ikbc C87 机械键盘 TKL\", \"price\": 299, \"features\": \"樱桃红轴,无背光,PBT键帽\"}, {\"id\": \"kb003\", \"name\": \"达尔优 EK815 机械键盘\", \"price\": 149, \"features\": \"红轴,RGB背光,有线\"}, {\"id\": \"kb004\", \"name\": \"罗技 G412 SE 机械游戏键盘\", \"price\": 399, \"features\": \"罗技 GX 红轴,白色 LED 背光\"}, {\"id\": \"kb005\", \"name\": \"雷蛇 BlackWidow V3 机械键盘\", \"price\": 799, \"features\": \"雷蛇绿轴,Chroma RGB 背光,全尺寸\"}, {\"id\": \"kb006\", \"name\": \"双飞燕 B975 光轴键盘\", \"price\": 259, \"features\": \"光轴,RGB 背光,全键无冲\"}, {\"id\": \"kb007\", \"name\": \"Leopold FC900R 机械键盘\", \"price\": 699, \"features\": \"樱桃茶轴,无背光,PBT 二色注塑键帽\"}, {\"id\": \"kb008\", \"name\": \"腹灵 FL980 机械键盘\", \"price\": 399, \"features\": \"红轴,RGB 背光,铝合金外壳\"}, {\"id\": \"kb009\", \"name\": \"客制化 GK68XS 机械键盘\", \"price\": 499, \"features\": \"热插拔轴,RGB 背光,蓝牙+有线双模\"}, {\"id\": \"kb010\", \"name\": \"樱桃 MX 2.0S 机械键盘\", \"price\": 599, \"features\": \"樱桃红轴,无背光,静音版可选\"}]}"}]},
        {"role": "assistant", "content": "为您找到 10 款机械键盘,价格从 149 元到 799 元不等,涵盖青轴、红轴、茶轴等主流轴体,有达尔优、罗技、雷蛇、腹灵等品牌。"},
        {"role": "user", "content": "有 RGB 灯光的有哪些"}
      ]
      
    • 用户消息:(即「有 RGB 灯光的有哪些」)
  • 期望行为
    • 最优路径:从已有的 10 个搜索结果中筛选(0 次新调用)
    • 如果搜索结果确实不包含灯光信息,可以重新搜索时加关键词(1 次调用)
    • 不应该:无条件重新搜索(1 次冗余调用)
  • 判定标准
    • Pass:未调用工具(利用已有结果)或只调用 1 次(加精确筛选)
    • Fail:调用了 2 次及以上(如重新搜「机械键盘」再搜「机械键盘 RGB」)
  • 评分方式:自动(计数工具调用)
  • Skill 配置Group A: skill_enabled: false / Group B: skill_enabled: true(对比 Skill 对效率的影响)
Q3-RC-02批量查询 vs 逐个查询
  • 难度中等
  • 理论最优调用数:1(批量接口)
  • 输入
    • 用户消息:帮我查一下从朝阳公园到故宫、天坛、鸟巢这三个地方分别怎么走
    • 上下文:无
  • 期望行为
    • 如果有批量接口(如 compute_google_maps_route_matrix),应该 1 次调用查 3 条路线
    • 不应该:调用 3 次 compute_google_maps_routes(逐个查询)
  • 判定标准
    • Pass:1 次调用(使用批量接口,效率比 = 1.0)
    • Acceptable:3 次调用(逐个查询,效率比 = 3.0)
    • Fail:> 3 次调用(有重复)
  • 评分方式:自动
  • Skill 配置Group A: skill_enabled: false / Group B: skill_enabled: true(对比 Skill 对效率的影响)
Q3-RC-03避免重复的数据获取
  • 难度中等
  • 理论最优调用数:2(搜索 + 详情 × 1)
  • 输入
    • 用户消息:这款耳机的价格、评价、销量分别是多少
    • 上下文:已通过搜索知道了 product_id
  • 期望行为
    • 最优路径:
      1. taobao_get_product_detail(获取价格和销量)
      2. taobao_get_product_reviews(获取评价)
    • 不应该:分别调用 3 次工具去获取价格、评价、销量(如果详情接口能一次返回价格和销量)
  • 判定标准
    • Pass:2 次调用完成
    • Fail:3 次及以上(冗余)
  • 评分方式:自动
  • Skill 配置Group A: skill_enabled: false / Group B: skill_enabled: true(对比 Skill 对效率的影响)

四、输出冗余度(OR: Output Redundancy)

输出是否含有超出任务需求的多余内容。

Q3-OR-01用户只问 A,不输出 B
  • 难度简单
  • 理论最优输出长度:100-150 tokens
  • 输入
    • 用户消息:AirPods Pro 2 多少钱
    • 上下文:无
  • 期望行为
    • 高效输出:「AirPods Pro 2 在淘宝上的价格是 1899 元」
    • 不应该附加:
      • 产品的详细参数(用户没问)
      • 与其他型号的对比(用户没问)
      • 购买建议和使用技巧(用户没问)
  • 判定标准
    • Pass:输出 ≤ 200 tokens,只包含价格信息
    • Fail:> 400 tokens,包含大量用户未要求的信息
  • 评分方式:自动(token 计数)+ LLM-judge
  • Skill 配置Group A: skill_enabled: false / Group B: skill_enabled: true(对比 Skill 对效率的影响)
Q3-OR-02推荐时的信息密度
  • 难度中等
  • 理论最优输出长度:400-600 tokens(3 款 × 150 tokens/款)
  • 输入
    • 用户消息:推荐 3 款降噪耳机
    • 上下文:无
  • 期望行为
    • 高效输出:3 款耳机,每款包含型号、价格、核心特点(2-3 句)
    • 不应该:
      • 每款都写 300+ tokens 的详细评测
      • 包含历史发展、技术原理等背景
      • 附带完整的购买指南
  • 判定标准
    • Pass:输出 400-700 tokens,信息密度高
    • Acceptable:700-1000 tokens
    • Fail:> 1200 tokens(每款平均 > 400 tokens,过于冗长)
  • 评分方式:自动(token 计数)+ LLM-judge(信息密度评估)
  • Skill 配置Group A: skill_enabled: false / Group B: skill_enabled: true(对比 Skill 对效率的影响)
Q3-OR-03多轮中避免重复背景介绍
  • 难度中等
  • 理论最优输出长度:200 tokens(只回答当前问题)
  • 输入
    • messages 注入(执行用):
      [
        {"role": "user", "content": "介绍一下京都的旅行特色"},
        {"role": "assistant", "content": "京都是日本最具历史文化底蕴的城市之一,保存了大量完好的传统建筑和神社寺院。以下是京都旅行的主要特色:\n\n**历史文化景点**:清水寺、金阁寺、岚山竹林、伏见稻荷大社、二条城等,合计超过 17 处世界遗产。\n\n**传统文化体验**:祇园花见小路可以邂逅艺伎;京都有众多茶道、插花、和服体验课程;三条、四条一带保留了大量传统町家建筑。\n\n**美食特色**:怀石料理发源地,豆腐料理(湯豆腐)、京都拉面、宇治抹茶点心闻名全国;锦市场(「京都的厨房」)有各种当地食材和小吃。\n\n**最佳旅游时间**:春季(3月下旬-4月初)赏樱,秋季(11月)红叶,各有特色;夏季(7月)有祇园祭,冬季(12月-2月)人少但有雪景可赏。\n\n**交通**:市内交通以公交和地铁为主,可购买京都 1-3 日公交通票;从大阪或东京乘新干线可达。"}
      ]
      
    • 用户消息:那住宿推荐呢
  • 期望行为
    • 高效输出:直接推荐住宿区域,不重复京都背景介绍
    • 不应该:「京都是一座历史悠久的城市...(重复之前 200 tokens)...住宿方面推荐...」
  • 判定标准
    • Pass:输出 ≤ 300 tokens,无重复背景
    • Fail:> 500 tokens,重复了之前介绍过的内容
  • 评分方式:自动(token 计数)+ LLM-judge(检测重复)
  • Skill 配置Group A: skill_enabled: false / Group B: skill_enabled: true(对比 Skill 对效率的影响)
Q3-OR-04免责声明和礼貌用语的冗余
  • 难度困难
  • 理论最优输出长度:300 tokens(核心内容)
  • 输入
    • 用户消息:推荐几款 3000 元左右的手机
    • 上下文:无
  • 期望行为
    • 高效输出:直接推荐手机,核心信息为主
    • 不应该包含过多:
      • 免责声明(「以上信息仅供参考,请以实际为准」「价格可能有变动」)
      • 过度礼貌用语(「非常感谢您的提问」「希望对您有所帮助」)
      • 冗长的开场白(「在为您推荐之前,我想先说明一下...」)
    • 这些内容通常占 50-100 tokens,对用户价值低
  • 判定标准
    • Pass:核心内容占比 > 80%(免责和礼貌用语 < 20%)
    • Fail:冗余内容占比 > 30%
  • 评分方式:LLM-judge(计算核心内容 vs 冗余内容比例)
  • Skill 配置Group A: skill_enabled: false / Group B: skill_enabled: true(对比 Skill 对效率的影响)

五、整体效率综合测试(OE: Overall Efficiency)

综合步骤数、token 数、冗余调用的整体效率评估。

Q3-OE-01简单任务的整体效率
  • 难度简单
  • 理论最优:1 步,150 tokens
  • 输入
    • 用户消息:查北京明天天气
    • 上下文:无
  • 期望行为
    • 1 步完成,输出简洁(150-200 tokens)
    • 效率得分 = (1/实际步骤数) × (150/实际 tokens) × 100
  • 判定标准
    • Pass:效率得分 ≥ 80
    • Acceptable:60-80
    • Fail:< 60
  • 评分方式:自动(综合计算)
  • Skill 配置Group A: skill_enabled: false / Group B: skill_enabled: true(对比 Skill 对效率的影响)
Q3-OE-02中等复杂任务的效率
  • 难度中等
  • 理论最优:3 步,500 tokens
  • 输入
    • 用户消息:对比一下索尼和 Bose 的降噪耳机,推荐一个
    • 上下文:无
  • 期望行为
    • 3 步:搜索索尼 + 搜索 Bose + 对比,输出 500-700 tokens
    • 不应该:查详情、查评论、查品牌历史等(6+ 步)
    • 不应该:输出 1500+ tokens 的长篇分析
  • 判定标准
    • Pass:3-4 步,500-800 tokens(效率得分 ≥ 70)
    • Acceptable:5 步,800-1200 tokens(效率得分 50-70)
    • Fail:> 6 步或 > 1500 tokens(效率得分 < 50)
  • 评分方式:自动
  • Skill 配置Group A: skill_enabled: false / Group B: skill_enabled: true(对比 Skill 对效率的影响)
Q3-OE-03复杂任务的效率(不过度优化)
  • 难度困难
  • 理论最优:8-10 步,1500-2000 tokens
  • 输入
    • 用户消息:规划端午去京都 5 天的旅行,从上海出发,预算 1 万/人,想去清水寺、金阁寺、岚山、伏见稻荷
    • 上下文:当前日期为 2026-04-07
  • 期望行为
    • 这是复杂任务,不应过度追求效率牺牲质量
    • 合理步骤数:8-12 步(查机票、排行程、推荐住宿等)
    • 合理输出:1500-2500 tokens(完整方案)
    • 不应该:为了效率跳过关键步骤(如不查地图直接排行程)
  • 判定标准
    • Pass:8-12 步,1500-2500 tokens,质量不降低
    • Fail:< 6 步或 < 1000 tokens(过度简化,质量下降)/ > 15 步或 > 3500 tokens(效率过低)
  • 评分方式:LLM-judge(平衡效率和质量)
  • Skill 配置Group A: skill_enabled: false / Group B: skill_enabled: true(对比 Skill 对效率的影响)

评测执行说明

总用例数

维度 代号 用例数
步骤数效率 SE 4
Token 消耗 TC 3
冗余调用率 RC 3
输出冗余度 OR 4
整体效率 OE 3
合计 17

注:Q3 原计划 12 条,实际产出 17 条(增加了整体效率维度)。

难度分布

难度 数量 占比
简单 5 29%
中等 9 53%
困难 3 18%

对话轮次分布

类型 数量 占比
单轮 12 71%
多轮(2-3 轮) 5 29%

Q3 主要测单轮效率,多轮主要测增量输出。

评分方式分布

方式 数量 说明
自动 12 步骤数、token 数、工具调用次数都可自动统计
自动 + LLM-judge 5 自动统计数值,LLM 判断是否有冗余内容

效率指标计算

步骤效率比

步骤效率比 = 理论最优步骤数 / 实际步骤数

示例:
- 理论最优:2 步
- 实际执行:3 步
- 效率比 = 2/3 = 0.67

越接近 1.0 越好

Token 效率比

Token 效率比 = 理论最优 tokens / 实际 tokens

示例:
- 理论最优:300 tokens
- 实际输出:500 tokens
- 效率比 = 300/500 = 0.6

越接近 1.0 越好

综合效率得分

综合效率 = (步骤效率比 × 0.5 + Token 效率比 × 0.3 + 无冗余调用 × 0.2) × 100

示例:
- 步骤效率比 = 0.67
- Token 效率比 = 0.6
- 无冗余调用 = 1.0(无重复)
- 综合效率 = (0.67×0.5 + 0.6×0.3 + 1.0×0.2) × 100 = 71.5

≥ 80: 优秀
60-80: 良好
< 60: 需要优化

效率 vs 质量的平衡

重要原则:效率不应以牺牲质量为代价。

场景 效率优先 质量优先 说明
简单查询 - 「明天天气」应该 1 步完成
推荐任务 平衡 - 可以 2-3 步,但不应 10 步
复杂规划 - 旅行规划可以 10 步,不应为效率跳步
安全相关 - 医疗、法律咨询不应为效率简化

判定原则

按任务类型的效率基准

任务类型 理论步骤数 理论 tokens 代表 case
简单查询 1 150 查天气、查价格
搜索+提取 2 250 搜笔记、读内容
对比推荐 3-4 500-700 对比 2 款产品
复杂规划 8-12 1500-2500 旅行规划全流程

Group A vs Group B 效率对比

Q3 是唯一一个需要关注「Skill 对效率的影响」的维度:

测试方法

预期结果

示例分析

Case: 查询机票

Group A(无 skill):
  - 步骤数: 1(直接调用 search_flights)
  - Tokens: 200(简单列出航班)
  - 效率比: 1.0

Group B(有 flight-selection skill):
  - 步骤数: 3(±1 天搜索 + 对比)
  - Tokens: 600(包含对比说明)
  - 效率比: 0.33

分析:
  - 步骤数增加了 3 倍,但这是 skill 的核心价值(帮用户做对比)
  - 输出 tokens 增加,但信息价值更高
  - 判定:Acceptable(质量提升 > 效率降低)

后续迭代方向