Q3 · 效率 · 测试用例

对应框架维度:Q3 效率 状态:初稿 最后更新:2026-04-07


维度说明

Q3 测试 agent 完成任务的路径是否最优,避免冗余步骤和不必要的 token 消耗。这是产品部署的成本基准。

核心问题:agent 能否用最短路径、最少 token 完成任务,而不是「能完成但绕远路」。

与 B2-RC(工具冗余调用)的区别:


用例规范

字段 说明
ID 格式:Q3-{维度缩写}-{序号}
维度 所属评测子维度
难度 简单 / 中等 / 困难
理论最优步骤数 人工标注的最短路径步骤数
输入 用户消息 + 上下文
期望行为 agent 的高效执行路径
判定标准 Pass / Fail 条件(基于步骤数比、token 数)
评分方式 自动
Skill 配置 必须开启

一、步骤数效率(SE: Step Efficiency)

实际步骤数 vs 理论最优步骤数之比。

Q3-SE-01 · 简单查询任务


Q3-SE-02 · 搜索→详情链


Q3-SE-03 · 依赖链最优路径


Q3-SE-04 · 避免不必要的详情查询


二、Token 消耗(TC: Token Consumption)

完成同类任务的平均 token 用量。

Q3-TC-01 · 简洁回答(简单查询)


Q3-TC-02 · 避免输出冗余的背景信息


Q3-TC-03 · 多轮中的增量输出


三、冗余调用率(RC: Redundant Calls)

不必要的重复工具调用比例。

Q3-RC-01 · 利用已有搜索结果


Q3-RC-02 · 批量查询 vs 逐个查询


Q3-RC-03 · 避免重复的数据获取


四、输出冗余度(OR: Output Redundancy)

输出是否含有超出任务需求的多余内容。

Q3-OR-01 · 用户只问 A,不输出 B


Q3-OR-02 · 推荐时的信息密度


Q3-OR-03 · 多轮中避免重复背景介绍


Q3-OR-04 · 免责声明和礼貌用语的冗余


五、整体效率综合测试(OE: Overall Efficiency)

综合步骤数、token 数、冗余调用的整体效率评估。

Q3-OE-01 · 简单任务的整体效率


Q3-OE-02 · 中等复杂任务的效率


Q3-OE-03 · 复杂任务的效率(不过度优化)


评测执行说明

总用例数

维度 代号 用例数
步骤数效率 SE 4
Token 消耗 TC 3
冗余调用率 RC 3
输出冗余度 OR 4
整体效率 OE 3
合计 17

注:Q3 原计划 12 条,实际产出 17 条(增加了整体效率维度)。

难度分布

难度 数量 占比
简单 5 29%
中等 9 53%
困难 3 18%

对话轮次分布

类型 数量 占比
单轮 12 71%
多轮(2-3 轮) 5 29%

Q3 主要测单轮效率,多轮主要测增量输出。

评分方式分布

方式 数量 说明
自动 12 步骤数、token 数、工具调用次数都可自动统计
自动 + LLM-judge 5 自动统计数值,LLM 判断是否有冗余内容

效率指标计算

步骤效率比

步骤效率比 = 理论最优步骤数 / 实际步骤数

示例:
- 理论最优:2 步
- 实际执行:3 步
- 效率比 = 2/3 = 0.67

越接近 1.0 越好

Token 效率比

Token 效率比 = 理论最优 tokens / 实际 tokens

示例:
- 理论最优:300 tokens
- 实际输出:500 tokens
- 效率比 = 300/500 = 0.6

越接近 1.0 越好

综合效率得分

综合效率 = (步骤效率比 × 0.5 + Token 效率比 × 0.3 + 无冗余调用 × 0.2) × 100

示例:
- 步骤效率比 = 0.67
- Token 效率比 = 0.6
- 无冗余调用 = 1.0(无重复)
- 综合效率 = (0.67×0.5 + 0.6×0.3 + 1.0×0.2) × 100 = 71.5

≥ 80: 优秀
60-80: 良好
< 60: 需要优化

效率 vs 质量的平衡

重要原则:效率不应以牺牲质量为代价。

场景 效率优先 质量优先 说明
简单查询 - 「明天天气」应该 1 步完成
推荐任务 平衡 - 可以 2-3 步,但不应 10 步
复杂规划 - 旅行规划可以 10 步,不应为效率跳步
安全相关 - 医疗、法律咨询不应为效率简化

判定原则

按任务类型的效率基准

任务类型 理论步骤数 理论 tokens 代表 case
简单查询 1 150 查天气、查价格
搜索+提取 2 250 搜笔记、读内容
对比推荐 3-4 500-700 对比 2 款产品
复杂规划 8-12 1500-2500 旅行规划全流程

Group A vs Group B 效率对比

Q3 是唯一一个需要关注「Skill 对效率的影响」的维度:

测试方法

预期结果

示例分析

Case: 查询机票

Group A(无 skill):
  - 步骤数: 1(直接调用 search_flights)
  - Tokens: 200(简单列出航班)
  - 效率比: 1.0

Group B(有 flight-selection skill):
  - 步骤数: 3(±1 天搜索 + 对比)
  - Tokens: 600(包含对比说明)
  - 效率比: 0.33

分析:
  - 步骤数增加了 3 倍,但这是 skill 的核心价值(帮用户做对比)
  - 输出 tokens 增加,但信息价值更高
  - 判定:Acceptable(质量提升 > 效率降低)

后续迭代方向