C3 · 记忆管理 · 测试用例

对应框架维度:C3 记忆管理 状态:初稿 最后更新:2026-04-10


维度说明

C3 测试 agent 对「记忆」的使用是否正确,包含两类记忆:

与 C5(长上下文性能)的区别:

C3 记忆管理 C5 长上下文性能
测什么 记忆的使用是否正确(该用的用、不该用的不用、更新是否准确) 上下文变长时性能是否衰减(lost-in-the-middle 问题)
关注点 逻辑正确性 性能稳定性
上下文长度 短~中(3-10 轮) 长(4K~64K token)
失败原因 记忆逻辑错误(该记没记、该忘没忘) 位置偏差导致的遗漏

用例规范

字段 说明
ID 格式:C3-{维度缩写}-{序号}
维度 所属评测子维度
难度 简单 / 中等 / 困难
上下文类型 synthetic(静态历史)/ organic(动态交互)
输入 用户消息 + 对话历史 / 预置记忆
期望行为 agent 应该如何使用记忆
判定标准 Pass / Fail 的明确条件
评分方式 自动 / LLM-judge
Skill 配置 必须开启

一、短期记忆利用(SU: Short-term Utilization)

当前对话中已提供的信息,agent 是否在后续轮次中正确沿用,不重复询问、不遗漏。

C3-SU-01 · 不重复询问已知出发地


C3-SU-02 · 沿用对话中建立的预算约束


C3-SU-03 · 沿用隐性偏好约束


C3-SU-04 · 多个约束同时沿用


C3-SU-05 · 对话中途的信息更正立即生效


二、长期记忆召回准确率(LR: Long-term Recall)

跨 session 时,历史记忆是否被准确召回并恰当应用。

C3-LR-01 · 召回常用出发城市


C3-LR-02 · 召回健康/饮食限制


C3-LR-03 · 基于历史旅行经历的推荐


C3-LR-04 · 关联历史计划到当前任务


三、记忆相关性判断(RJ: Relevance Judgment)

知道什么时候该使用记忆、什么时候不该用——防止无关记忆干扰当前任务。

C3-RJ-01 · 不将无关历史记忆带入当前任务


C3-RJ-02 · 当前会话信息优先于长期记忆


C3-RJ-03 · 不将旧的预算偏好强加于明确的高端需求


C3-RJ-04 · 多条历史记忆只召回相关的


四、记忆更新正确性(MU: Memory Update)

用户纠正或更新信息后,agent 是否正确使用新信息,而非继续沿用旧的。

C3-MU-01 · 显式更正立即生效


C3-MU-02 · 跨 session 的偏好更新


C3-MU-03 · 隐性更新:从行为中推断偏好变化


C3-MU-04 · 更新后不影响无关信息


五、记忆冲突处理(MC: Memory Conflict)

新信息与已有记忆产生矛盾时,是否合理处理而非悄悄偏向一方。

C3-MC-01 · 用户偏好与当前明确需求冲突


C3-MC-02 · 当前会话声明覆盖历史偏好


C3-MC-03 · 跨 session 记忆互相冲突


C3-MC-04 · 对话内约束互相冲突


统计摘要

子维度 用例数 难度分布 评分方式
SU 短期记忆利用 5 简单×2、中等×2、困难×1 自动×2、LLM-judge×3
LR 长期记忆召回 4 简单×1、中等×2、困难×1 LLM-judge×4
RJ 记忆相关性判断 4 中等×2、困难×2 自动×1、LLM-judge×3
MU 记忆更新正确性 4 简单×1、中等×2、困难×1 自动×2、LLM-judge×2
MC 记忆冲突处理 4 中等×2、困难×2 自动×1、LLM-judge×3
合计 21 简单×4、中等×10、困难×7 自动×6、LLM-judge×15