B1 · 意图理解 · 测试用例

对应框架维度:B1 意图理解 状态:初稿 最后更新:2026-04-07


工具说明

当前 agent 接入的工具:


用例规范

每条用例包含以下字段:

字段 说明
ID 格式:B1-{维度缩写}-{序号},如 B1-EI-01
维度 所属评测维度
难度 简单 / 中等 / 困难
输入 用户消息 + 上下文(对话历史、已有 skill、记忆等)
期望行为 agent 应该怎么做(不是具体文案,而是行为描述)
判定标准 Pass / Fail 的明确条件
评分方式 自动 / LLM-judge / 人工

一、精确意图(EI: Exact Intent)

指令明确时,agent 是否完整、准确地执行。

B1-EI-01 · 明确的单目标搜索


B1-EI-02 · 明确的对比型需求


B1-EI-03 · 明确的行动指令


B1-EI-04 · 带有隐含目标的明确指令


二、模糊意图-澄清(CL: Clarification)

指令不足时,agent 是否主动提问而非胡乱猜测。

B1-CL-01 · 关键信息严重缺失


B1-CL-02 · 偏好信息缺失


B1-CL-03 · 指代不明


B1-CL-04 · 行动有歧义


三、模糊意图-推断(IF: Inference)

有上下文时,agent 是否合理推断而非打断用户。

B1-IF-01 · 基于对话历史推断


B1-IF-02 · 基于常识推断


B1-IF-03 · 基于时间语境推断


B1-IF-04 · 基于记忆推断


B1-IF-05 · 应推断而非澄清的边界 case


四、多意图(MI: Multi-Intent)

一句话含多个目标时,是否全部处理。

B1-MI-01 · 两个并列意图


B1-MI-02 · 主请求 + 附加条件


B1-MI-03 · 隐含的多意图


B1-MI-04 · 三个以上并列意图


五、意图优先级(IP: Intent Priority)

多个意图存在冲突时,是否正确排序处理。

B1-IP-01 · 预算与品质冲突


B1-IP-02 · 时间紧迫 vs 充分准备


B1-IP-03 · 安全 vs 用户偏好


B1-IP-04 · 用户显性意图 vs 真实需求


六、多模态意图理解(MM: Multimodal)

用户通过图片、截图等多模态输入表达意图时,agent 能否正确理解。

B1-MM-01 · 图片地点识别


B1-MM-02 · 行程表截图分析


B1-MM-03 · 餐厅菜单图片识别


B1-MM-04 · 商品图片搜索意图


B1-MM-05 · 多模态 + 文字组合意图


七、多轮对话意图理解(MR: Multi-Round)

在多轮交互中,agent 能否正确追踪、累积和修正意图。

B1-MR-01 · 意图逐步明确


B1-MR-02 · 意图修正


B1-MR-03 · 话题切换


B1-MR-04 · 意图优先级在多轮中变化


B1-MR-05 · 跨多轮的信息累积


B1-MR-06 · 澄清后的执行


评测执行说明

总用例数

维度 代号 用例数
精确意图 EI 4
模糊意图-澄清 CL 4
模糊意图-推断 IF 5
多意图 MI 4
意图优先级 IP 4
多模态意图理解 MM 5
多轮对话意图理解 MR 6
合计 32

难度分布

难度 数量
简单 7
中等 13
困难 7

对话轮次分布

类型 数量
单轮 17
多轮(2-4 轮) 10

评分方式分布

方式 数量 说明
自动 8 可程序化验证(工具调用类型、参数、输出关键词、行为分类)
LLM-judge 16 需要语义理解才能判断的维度
自动 + LLM-judge 2 部分可自动检查,部分需语义判断
自动 + 人工 1 自动检查基础条件,人工判断细节

双组评测标准

通过门槛

组别 维度通过线 说明
Group A(无 Skill) 各维度 ≥ 70% 验证 agent 基础意图理解能力,这是底座
Group B(有 Skill) ≥ Group A 分数(delta ≥ 0 为硬门槛) Skill 不应削弱意图理解,只要不变差就合格

失败定性规则

Group A 失败                 → agent 本身意图理解不足,修模型/prompt
Group B 失败 且 Group A 通过 → Skill 破坏了意图理解(如强制触发导致跳过澄清),修 Skill 设计
Group A 和 Group B 都失败    → 定性为 agent 问题,Skill 无法救场

B1 特有例外:CL 和 IF 维度允许 Group B 轻微低于 Group A

原因:Skill 有显式触发条件,可能把本该澄清的模糊输入"强行识别"为 Skill 场景,导致跳过澄清直接执行。这是 Skill 过度触发的副作用,属于预期的设计权衡,不计入 skill_negative_rate

子维度 豁免条件 不豁免条件
CL(模糊意图-澄清) Group B 比 Group A 低 ≤ 10%,且失败原因明确为 Skill 触发 低 > 10%,或 Skill 未触发但仍未澄清
IF(模糊意图-推断) Group B 比 Group A 低 ≤ 5% 低 > 5%
其他维度(EI/MI/IP/MM/MR) 不豁免,必须 delta ≥ 0

触发豁免的 case 需打标 [skill-trigger-override],在报告中单独列出供 Skill 设计者审查触发逻辑是否过激。

skill_impact_delta 汇总

目标:
  EI / MI / IP / MM / MR:delta ≥ 0
  CL / IF:delta ≥ -10%(允许轻微下降)

红线:
  任意维度 delta < -15% → Skill 设计必须修复,不得上线

后续迭代方向