C2 · 规划与多步推理 · 测试用例

对应框架维度:C2 规划与多步推理 状态:初稿 最后更新:2026-04-07


维度说明

C2 测试 agent 在复杂任务中的能力:

  1. 任务分解:把「规划京都旅行」拆成可执行的子任务
  2. 计划修订:执行中发现问题时调整计划
  3. 端到端成功:多步骤任务能否最终完成
  4. 错误恢复:中间步骤失败不导致全盘崩溃

与 B2(Tool Use)的区别:


用例规范

字段 说明
ID 格式:C2-{维度缩写}-{序号}
维度 所属评测子维度
难度 简单 / 中等 / 困难
上下文类型 synthetic(静态历史)/ organic(动态交互)
输入 用户消息 + 对话历史(如有)
期望行为 agent 应该如何规划和执行
判定标准 Pass / Fail 条件
评分方式 自动 / LLM-judge
Skill 配置 必须开启

一、任务分解质量(TD: Task Decomposition)

拿到复杂任务后,是否能拆解成合理的子任务序列。

C2-TD-01 · 简单线性任务分解


C2-TD-02 · 任务分解考虑依赖关系


C2-TD-03 · 识别不必要的子任务


C2-TD-04 · 动态交互:复杂旅行规划分解


二、计划修订能力(PR: Plan Revision)

执行中发现计划不对,是否能及时调整而非一路错到底。

C2-PR-01 · 工具失败后的计划调整


C2-PR-02 · 用户需求变更的计划调整


C2-PR-03 · 中间结果影响后续计划


C2-PR-04 · 预算超支的计划修订


三、端到端任务成功率(E2E: End-to-End Success)

复杂任务整体完成率(最终结果正确)。

C2-E2E-01 · 三步任务(查询→比较→决策)


C2-E2E-02 · 五步任务(旅行规划全流程)


C2-E2E-03 · 七步以上复杂任务


C2-E2E-04 · 动态交互:端到端购物决策


四、步骤完成率(SC: Step Completion)

即使最终失败,完成了多少中间步骤(partial credit)。

C2-SC-01 · 部分成功的任务


C2-SC-02 · 计算 partial credit 分数


五、错误传播率(EP: Error Propagation)

中间步骤出错后,是否导致后续步骤连锁失败。

C2-EP-01 · 第一步失败不影响后续


C2-EP-02 · 错误信息传递导致后续失败


C2-EP-03 · 隔离错误避免连锁


六、错误自修复率(SR: Self-Correction)

中间步骤出错后,agent 自行发现并修正的比例。

C2-SR-01 · 参数错误自我修正


C2-SR-02 · 逻辑错误自我发现


C2-SR-03 · 输出自检(交付前验证)


七、复杂度衰减曲线(CD: Complexity Degradation)

随任务步骤数增加,成功率如何衰减。

C2-CD-01 · 2 步任务基线


C2-CD-02 · 3-5 步任务


C2-CD-03 · 6-8 步任务


C2-CD-04 · 10+ 步复杂任务


八、输出自检率(SV: Self-Verification)

交付前,agent 是否会验证自己的输出符合任务要求。

C2-SV-01 · 数量约束自检


C2-SV-02 · 约束冲突自检


C2-SV-03 · 逻辑一致性自检


九、多模态规划任务(MM: Multimodal Planning)

基于图片等多模态输入的规划任务。

C2-MM-01 · 基于图片的任务分解


C2-MM-02 · 图片信息的计划修订


C2-MM-03 · 多模态端到端任务


C2-MM-04 · 截图中的错误识别


评测执行说明

总用例数

维度 代号 用例数
任务分解质量 TD 4
计划修订能力 PR 4
端到端任务成功率 E2E 4
步骤完成率 SC 2
错误传播率 EP 3
错误自修复率 SR 3
复杂度衰减曲线 CD 4
输出自检 SV 3
合计 27

难度分布

难度 数量 占比
简单 4 15%
中等 11 41%
困难 12 44%

对话轮次分布

类型 数量 占比
单轮 13 48%
多轮(2-10 轮) 14 52%

上下文类型分布

类型 数量 占比 说明
synthetic(静态构造) 25 92.6% 人工编写对话历史,精确测试能力点
organic(动态交互) 2 7.4% agent-as-user 动态交互,探索性评测

任务复杂度分布

步骤数 case 数 说明
2-3 步 8 简单任务
3-5 步 10 中等复杂度
5-8 步 6 复杂任务
8+ 步 3 超复杂任务

评分方式分布

方式 数量 说明
LLM-judge 22 需要评估规划合理性、完成度、修正策略
自动 3 简单的完成度检查、约束验证
自动 + LLM-judge 2 部分自动,部分需语义判断

后续迭代方向