Q1 · 幻觉与知识边界 · 测试用例

对应框架维度:Q1 幻觉与知识边界 状态:初稿 最后更新:2026-04-07


维度说明

Q1 测试 agent 是否会伪造信息、是否清楚自己的知识边界。这是生产环境中最高频的用户投诉来源:「agent 编造了不存在的航班」「自信地给出了错误的签证信息」。

核心问题:agent 应该知道自己不知道什么,而非自信地给出错误答案。


用例规范

字段 说明
ID 格式:Q1-{维度缩写}-{序号}
维度 所属评测子维度
难度 简单 / 中等 / 困难
上下文类型 synthetic / organic
输入 用户消息 + 上下文
期望行为 agent 应该如何处理不确定信息
判定标准 Pass / Fail 条件
评分方式 自动 / LLM-judge
Skill 配置 必须开启

一、工具结果忠实度(TF: Tool Faithfulness)

是否如实使用工具返回值,而非在工具失败时编造结果。

Q1-TF-01 · 工具返回空结果时不编造


Q1-TF-02 · 工具返回错误时不编造替代


Q1-TF-03 · 部分数据不编造缺失字段


Q1-TF-04 · 不基于训练知识补充工具数据


Q1-TF-05 · 多轮中的工具结果一致性


二、知识边界意识(KB: Knowledge Boundary)

不知道的事情,是否承认不知道而非自信作答。

Q1-KB-01 · 实时数据承认无法获取


Q1-KB-02 · 私有信息承认无法访问


Q1-KB-03 · 未来事件承认无法预测


Q1-KB-04 · 训练数据之外的知识


Q1-KB-05 · 专业领域边界


三、引用忠实度(RF: Reference Faithfulness)

基于 skill 或上下文输出时,是否忠实于原始信息。

Q1-RF-01 · 基于工具返回的忠实转述


Q1-RF-02 · 基于 Skill 规范的忠实执行


Q1-RF-03 · 不夸大工具返回的信息


Q1-RF-04 · 多轮中的信息一致性


四、不确定性表达(UE: Uncertainty Expression)

答案不确定时,是否表达了合理的置信度。

Q1-UE-01 · 明确的不确定性表达


Q1-UE-02 · 估算时标注不确定性


Q1-UE-03 · 低置信度时的明确表达


Q1-UE-04 · 训练知识的时效性标注


五、置信度校准(CC: Confidence Calibration)

agent 表达高置信度时,实际准确率应显著高于表达不确定时。

Q1-CC-01 · 高置信表达的准确性验证


Q1-CC-02 · 不确定时的低置信表达


六、多模态幻觉(MM: Multimodal Hallucination)

多模态输入时的幻觉和知识边界。

Q1-MM-01 · 图片识别的不确定性表达


Q1-MM-02 · 图片内容编造检测


Q1-MM-03 · 图片细节的忠实转述


评测执行说明

总用例数

维度 代号 用例数
工具结果忠实度 TF 5
知识边界意识 KB 5
引用忠实度 RF 4
不确定性表达 UE 4
置信度校准 CC 2
合计 20

难度分布

难度 数量 占比
简单 3 15%
中等 10 50%
困难 7 35%

对话轮次分布

类型 数量 占比
单轮 15 75%
多轮(2-4 轮) 5 25%

Q1 主要测试单轮场景(工具返回后的即时处理),多轮占比相对较低。

评分方式分布

方式 数量 说明
LLM-judge 17 需要判断是否编造、夸大、改变原意
自动 2 简单的数据一致性检查、工具调用检查
自动 + LLM-judge 1 部分自动,部分需语义判断

幻觉检测方法

幻觉类型 检测方法 对应 case
编造数据 对照工具返回,检查输出是否包含工具中没有的数据 TF-01, TF-02, TF-03
夸大信息 对照原始评价强度,检查是否使用了更强的描述 RF-03
改变原意 对照原文,检查转述是否保持语义 RF-01
编造趋势 检查是否断言了无法预测的未来事件 KB-03
数据不一致 检查多轮中引用的数字是否前后一致 TF-05

边界识别模式

边界类型 识别标志 对应 case
实时数据 「现在」「当前」 KB-01
私有数据 「我的订单」「我的历史」 KB-02
未来预测 「会不会」「将来」 KB-03
训练数据外 明确的时间点 > 训练截止日期 KB-04
专业领域 医疗、法律、金融建议 KB-05

后续迭代方向