C5 · 长上下文性能 · 测试用例

对应框架维度：C5 长上下文性能状态：初稿最后更新：2026-04-07

维度说明

C5 测试随着对话轮次增加、上下文变长（4k → 16k → 32k tokens），agent 对不同位置信息的利用能力是否出现显著衰减。

核心测试问题：

Lost-in-the-middle：上下文中段的信息是否被遗忘（已知的模型通病）
早期信息衰减：对话开头的信息在 25 轮后是否还能被利用
长上下文下的基础能力：意图理解、工具调用是否在长上下文下退化

测试方法论

上下文长度梯度

梯度	Token 数	约等于轮次	说明
短	4k	5-8 轮	基线（不应有衰减）
中	16k	15-20 轮	常规使用场景
长	32k	25-30 轮	压力测试

每个 case 在三个梯度下都跑一遍，绘制性能曲线。

信息注入位置

位置	Token 位置	轮次位置	说明
开头	0-2k	第 1-3 轮	测试早期信息保留
中段	14k-18k（32k 上下文）	第 12-15 轮	Lost-in-the-middle 的典型位置
结尾	30k-32k	第 25-28 轮	最近信息，应该记得

测试方法：在不同位置注入关键信息（如用户偏好、约束条件），在后续轮次测试是否被利用。

Filler 内容设计原则

为了将上下文撑到 32k，需要在关键信息之间插入 filler 对话，但 filler 必须：

看起来自然：不是纯随机文本，而是合理的对话
不干扰测试：filler 内容不包含与测试相关的关键信息
保持场景一致：如果是旅行规划场景，filler 也应该是旅行相关的闲聊

Filler 示例：

用户：顺便说一下，我之前去过京都，很喜欢那里的寺庙
Agent：是的，京都的古建筑确实很有特色...
用户：对了，听说京都的枫叶季很美
Agent：是的，每年 11 月是最佳观赏期...
（这段对话撑长度，但不包含后续任务需要的关键信息）

用例规范

字段	说明
ID	格式：C5-{维度缩写}-{序号}
维度	所属评测子维度
上下文长度	4k / 16k / 32k（每个 case 跑三次）
信息注入位置	开头 / 中段 / 结尾
输入	用户消息 + 长对话历史
期望行为	agent 应该如何利用历史信息
判定标准	Pass / Fail 条件
评分方式	自动 / LLM-judge
Skill 配置	必须开启

一、早期信息利用率（EI: Early Information）

上下文很长时，对话早期注入的关键信息是否仍被正确利用。

C5-EI-01早期偏好信息召回

上下文长度：32k（约 28 轮对话）
信息注入位置：开头（第 2 轮）

输入：

对话历史：

（以下为代表性上下文片段，实际测试时需扩展至目标长度）

用户：我想规划一次旅行，想趁五一出去玩
Agent：好的！五一假期一般有 5 天，您大概想去哪一类目的地？比如自然风景、历史文化、海岛度假，还是城市体验？

用户：我不吃海鲜，对海鲜过敏，这个要注意一下
Agent：好的，我已记下这个重要信息——您对海鲜过敏，在推荐餐厅和美食时会特别注意避开海鲜类菜肴。请问您对目的地有什么偏好？

用户：想去日本，大概去哪个城市比较好？
Agent：日本五一期间正值黄金周，会比较热闹。如果您喜欢历史文化，京都是首选；如果喜欢现代都市，东京和大阪更合适；如果想轻松一些，奈良或镰仓也不错。您更倾向哪种风格？

用户：京都听起来不错，大概需要几天？
Agent：京都主要景点建议安排 3-4 天。主要景区有金阁寺、清水寺、岚山竹林、伏见稻荷大社、哲学之道等，单日可以安排 3-4 个景点。五一期间建议提前网上预约热门景点门票。

用户：行程大概怎么安排比较好？
Agent：五一京都 4 天推荐安排：
  Day 1：抵达京都，傍晚游祇园花见小路，感受京都夜晚氛围
  Day 2：清水寺（上午）→ 三年坂二年坂（午后购物）→ 八坂神社（傍晚）
  Day 3：金阁寺（上午）→ 岚山竹林+天龙寺（下午）→ 嵐山沿河散步
  Day 4：伏见稻荷大社（上午，建议早起避开人潮）→ 奈良一日游（下午，看小鹿）

用户：住哪里比较方便？
Agent：推荐住在京都站附近或四条河原町一带，交通非常便利。京都站附近：交通枢纽，地铁和公交都很方便，价格相对合理；四条河原町：购物、餐饮最集中，步行可达祇园，但价格稍高；岚山周边：环境清幽，适合体验日式旅馆，但去其他景区需要换乘。您的预算大概是多少？

用户：住宿预算每晚 500 人民币左右可以吗？
Agent：500 元人民币约合 9000-10000 日元，在京都可以找到条件不错的商务酒店或民宿。推荐几个类型：连锁商务酒店（如东横INN、Dormy Inn），性价比高，位置好；民宿（Airbnb或日本民宿平台），有些有厨房，可以自己做早餐；胶囊酒店高级版（如Nine Hours），干净现代，价格更低。

用户：五一去京都人多吗？
Agent：是的，五一正值日本黄金周（Golden Week），是一年中最热闹的时期。清水寺、金阁寺等热门景点人流量会非常大，建议：①早上 8 点前到清水寺，避开人潮；②伏见稻荷大社建议工作日清晨前往；③提前 1-2 个月预定酒店，黄金周期间价格会上涨 20-50%。

用户：需要提前办签证吗？
Agent：中国大陆公民前往日本需要提前申请签证。办理时间通常需要 5-10 个工作日，建议提前 3-4 周申请。所需材料包括：护照原件、签证申请表、近期照片、往返机票预订单、酒店预订单、银行存款证明（建议 3 万元以上）、在职证明或营业执照。五一前是签证申请高峰期，建议早点着手。

用户：机票大概多少钱？
Agent：上海出发飞京都（大阪关西机场），五一期间价格通常在 2000-4000 元左右，具体取决于购票时间。建议提前 2 个月购票，通过携程、飞猪或航空公司官网对比价格。备选：飞大阪或名古屋也可以，到达后乘新干线前往京都，有时总费用更低。

用户：当地交通怎么解决？
Agent：京都市内交通：地铁 + 公交是主要方式，建议购买「京都市巴士一日券」（700日元），公交覆盖大部分景点。JR Pass 如果您要去大阪、奈良，购买关西地区 JR Pass 比较划算，3 天约 5000 日元。步行+自行车：部分区域非常适合骑行，可以租共享单车探索。

用户：有什么要注意的文化礼仪吗？
Agent：在日本旅行的几点礼仪注意事项：①神社寺庙内保持安静，进入寺庙前通常需要在手水舍净手；②不要在行走中吃东西，尤其在神社区域；③拍照前确认是否允许，金阁寺等部分区域限制拍照角度；④垃圾要带走，日本街道几乎没有垃圾桶；⑤公共场所保持安静，地铁上尽量不打电话。

用户：当地货币怎么解决？
Agent：日本使用日元（JPY）。建议：①出发前在国内银行换一些现金（汇率相对合理）；②到达后在日本便利店（7-Eleven、Lawson）的ATM取款，接受中国银联卡；③日本很多小店、神社不接受信用卡，建议随身携带 1-2 万日元现金；④目前日元处于历史低位，汇率约为 1 人民币 = 19-21 日元。

用户：推荐一些必买的纪念品吗？
Agent：京都必买纪念品推荐：①抹茶相关食品（抹茶巧克力、抹茶饼干、辻利茶铺系列），适合分送同事朋友；②京都限定零食（生八桥麻糬，尤其是锦市场的新鲜版）；③传统工艺品（扇子、西阵织手帕、清水烧陶瓷）；④化妆品（酒粕系列护肤品，在药妆店购买）；⑤一保堂茶铺的高级日本茶。三年坂、二年坂和锦市场是购物集中地。

用户：行程期间天气怎么样？
Agent：京都五一期间（4 月底至 5 月初）天气宜人：气温约 15-22℃，基本不会太热；少量降雨可能，建议携带折叠伞；樱花季基本结束，但5月初可能还有晚开的品种；新绿季节，山野间绿意盎然，非常适合观景。建议着装：日间穿薄外套或长袖T恤，晚间稍凉，可以带一件轻薄外套。

用户：有没有什么隐藏的小众景点？
Agent：京都隐藏的小众景点推荐：①贵船神社：位于山中的红色鸟居，非常上镜，夏天有川床料理，春季山野幽静；②鞍马寺：贵船隔壁，山间寺庙，爬山过程中景色迷人；③大原三千院：郊区隐世寺庙，苔藓庭院极美，游客远少于市中心；④哲学之道北段：游客集中在南段，北段到银阁寺这一段很安静；⑤醍醐寺：世界遗产但名气不如金阁寺，樱花期绝美。

用户：当地有哪些特色料理？
Agent：京都特色料理（京料理）以清淡精致著称。

当前消息：帮我推荐一下当地有什么美食

期望行为：
- 虽然第 2 轮到第 26 轮间隔了 24 轮，agent 应该召回「不吃海鲜、过敏」的信息
- 推荐美食时排除海鲜或标注风险
- 不应推荐海鲜类美食
判定标准：
- Pass：推荐的美食中不包含海鲜，或有明确的过敏提示
- Fail：推荐了海鲜且未提及过敏风险
评分方式：自动（关键词检测）+ LLM-judge
Skill 配置：skill_enabled: false
跨梯度对比：在 4k、16k、32k 三种长度下分别测试，对比召回准确率

C5-EI-02早期约束信息召回

上下文长度：32k（约 28 轮）
信息注入位置：开头（第 3 轮）

输入：

对话历史：

（以下为代表性上下文片段，实际测试时需扩展至目标长度）

用户：我想五一去泰国玩，听说清迈不错
Agent：清迈是个很棒的选择！五一期间清迈气候偏热（气温 35-38℃），但景色优美，古城、寺庙、象园都很值得游览。您大概打算几天？

用户：大概 5-6 天，但预算比较紧，单人总预算最多 6000 元（包括机票、住宿、餐饮、门票）
Agent：好的，6000 元单人 5-6 天的清迈行程是可以实现的，但需要合理分配预算。大致规划：机票（往返）约 1500-2500 元（取决于购票时间和中转情况）；住宿 5 晚约 500-800 元（选择当地民宿或经济型酒店）；餐饮约 600-900 元（当地餐厅和街边市场为主）；门票和活动约 400-800 元；剩余为购物和零花钱。

用户：清迈有哪些必去的景点？
Agent：清迈必游景点推荐：①素帖寺（Doi Suthep）：山顶寺庙，可俯瞰清迈全城，门票约 30 泰铢；②古城区四方形古城墙内有大量百年寺庙，如帕辛寺（Wat Phra Singh）、契迪龙寺（Wat Chedi Luang）；③夜市：周日夜市（Walking Street）、周六夜市（Wualai Road）、夜间集市（JJMALL）；④清迈动物园或大象自然公园（需提前预订）。

用户：大象园怎么选？
Agent：清迈大象体验有几个不同类型。伦理型大象园（推荐）：Elephant Nature Park（约 2500 泰铢/人），不允许骑象，只是陪大象散步、洗澡、喂食，动物保护理念好；普通大象营：价格较低（500-800 泰铢），允许骑象，但动物保护条件较差；建议选择伦理型大象园，体验更真实，也更人道。

用户：住宿选哪一带比较方便？
Agent：清迈住宿区域推荐：①古城内部：最方便，步行可达主要寺庙，民宿和经济型酒店选择多，预算范围内每晚 100-200 元可以找到不错的地方；②尼曼路（Nimman Road）：年轻潮流区，咖啡馆和餐厅集中，稍远离寺庙区；③古城外围（护城河旁）：折中选择，交通方便价格适中。在您 6000 元总预算下，古城内住宿性价比最高。

用户：泰国需要签证吗？
Agent：好消息！2023 年起泰国对中国公民实行免签政策，停留不超过 30 天无需申请签证，直接凭护照入境即可。注意：护照有效期需距离入境日起至少 6 个月；建议携带酒店预订单和往返机票以防边检询问。

用户：当地货币是泰铢，怎么换汇？
Agent：泰铢换汇建议：①在泰国境内换汇比在国内更合算，汇率通常更好；②清迈市区有大量合法兑换点（Super Rich、Vasu Exchange等），汇率比机场和酒店好；③也可以直接用银行卡在当地ATM取款，但注意手续费（约每笔100-200泰铢）；④建议先换 1000-2000 泰铢应急，到市区再换更多。目前汇率约 1 元人民币 = 4.8-5 泰铢。

用户：清迈的交通怎么解决？
Agent：清迈市内交通：①双条车（Songthaew）：红色皮卡改装的共乘车，市内固定路线约 30 泰铢，包车约 150-200 泰铢；②嘟嘟车（Tuk Tuk）：适合短途，需要讲价，一般 50-100 泰铢；③摩托车租赁：1 天约 150-200 泰铢，适合有驾驶经验者；④Grab：类似滴滴，在清迈可以使用，价格透明。古城内主要景点步行距离均不超过 20 分钟。

用户：有哪些好吃的当地美食？
Agent：清迈（北泰）美食以与曼谷不同的北部风味为特色：①Khao Soi（咖喱面）：清迈必吃，椰奶咖喱汤底配炸脆面和软面，香浓不腻；②Sai Oua（北泰香肠）：猪肉混合香茅、姜黄等香料的烤肠，街边市场常见；③Nam Prik Ong（番茄肉末蘸酱）配蔬菜和炸猪皮；④清迈周日夜市的各类烤串和甜点；⑤新鲜热带水果（芒果糯米饭、椰子冰淇淋）。

用户：五一期间清迈有什么节日活动吗？
Agent：五一期间（4 月底至 5 月初）清迈没有特别的节日，但：①4 月中旬是泰国泼水节（宋干节），五一前刚结束，不会有大型庆典；②古城区周末夜市照常举行，热闹非凡；③这个时段是淡季和旺季交替期，价格相对合理；④需注意：五一是中国游客出行高峰，清迈热门景点会明显增多中国游客。

用户：拍照有什么好的地方推荐？
Agent：清迈拍照圣地推荐：①白庙（Wat Rong Khun，需去清莱，距清迈 1.5 小时）；②素帖寺日出时分，金色寺庙配薄雾，非常壮观；③夜间市场的灯光与人流；④古城寺庙内的橙红砖墙；⑤咖啡馆街（Nimman Road）的网红门面；⑥清迈周边梯田和山景（需租车前往）。

用户：5 天的行程大概怎么安排比较合理？
Agent：清迈 5 天建议行程：
  Day 1（抵达）：下午到达，入住古城区，傍晚逛古城附近寺庙，晚上周日/周六夜市（按日期）
  Day 2（古城）：上午帕辛寺 + 契迪龙寺 + 三王纪念碑，下午塔佩门附近，晚上尼曼路咖啡区
  Day 3（大象园）：全天伦理型大象园体验（需提前预订），晚回市区休息
  Day 4（素帖寺+郊外）：清晨上素帖寺，下午双龙寺，傍晚俯瞰清迈
  Day 5（自由购物）：夜间集市购物，整理行李，晚间或次日返程

用户：那住宿能具体推荐几家吗？
Agent：在 6000 元总预算下，清迈古城内平价住宿推荐：①Bodhi Serene（约 120-180 元/晚），古城中心，干净舒适；②Yotaka Hostel & Hotel（约 80-120 元/晚），评价好，位置佳；③Khum Phaya Resort（约 200-280 元/晚，略高但有花园）；④可通过 Agoda、Booking.com 提前预订，五一前价格可能上涨，建议 2 个月前锁定。

用户：需要买旅行保险吗？
Agent：强烈建议购买旅行保险！东南亚旅行常见的医疗和意外费用较高。建议购买包含：医疗费用（至少 100 万保障）、紧急救援和医疗转运、行李丢失赔偿、航班延误补偿的套餐。国内平安、众安、阿里等平台均有短期旅游险，5-6 天约 50-100 元。在 6000 元总预算中，这笔钱花得很值。

用户：清迈附近有没有值得一日游的地方？
Agent：清迈周边一日游推荐：①清莱（距清迈 3 小时）：白庙+蓝庙+黑屋，震撼级建筑，强烈推荐；②泰缅边境金三角（距清莱约 1 小时）：历史文化景点；③清迈近郊：南奔（Lamphun），小城古寺，游客少，安静悠闲；④夜丰颂（Mae Hong Son）：山区小城，风景如画，需多花 1 天。

用户：好的，我基本有数了，那帮我查一下机票吧

当前消息：帮我查一下机票

期望行为：
- 召回第 3 轮的预算约束（总预算 6000，机票应该控制在 3000-4000 以内留给住宿餐饮）
- 搜索机票时应该考虑预算限制
- 不应推荐 5000+ 元的机票（会超总预算）
判定标准：
- Pass：推荐的机票价格合理（≤ 4000 元），或提及了预算考虑
- Fail：推荐了 5000+ 元机票，完全忽略预算约束
评分方式：LLM-judge
Skill 配置：skill_enabled: false
跨梯度对比：在 4k、16k、32k 下测试，对比预算召回率

C5-EI-03早期出发城市信息召回

上下文长度：32k
信息注入位置：开头（第 1 轮）

输入：

对话历史：

（以下为代表性上下文片段，实际测试时需扩展至目标长度）

用户：我在上海，想暑假去日本玩，大概 7 月份出发
Agent：上海出发去日本非常方便，有多个直飞航线。7 月是日本暑假旺季，天气炎热但活动丰富。您想去哪个地区？东京、大阪、京都、北海道各有特色。

用户：北海道怎么样？听说夏天比较凉快
Agent：北海道夏季（7 月）平均气温约 20-25℃，是避暑的好去处。主要亮点：富良野和美瑛的薰衣草田（7 月中旬至 8 月初最佳）；小樽运河的浪漫景色；函館的夜景（被评为世界三大夜景之一）；自然公园和徒步路线（如知床半岛）。

用户：北海道比较大，主要去哪几个城市比较合理？
Agent：北海道 7 天经典路线推荐：札幌（2 天）→ 富良野/美瑛（2 天）→ 小樽（1 天）→ 函館（2 天）。另一选项是以札幌为中心做放射状游览，每天回到市区住宿。如果时间充裕可以加上知床半岛，但需要额外 2-3 天。

用户：富良野的薰衣草几月份最好看？
Agent：富良野薰衣草花期：6 月下旬至 8 月下旬，其中 7 月中旬至 8 月初是最佳观赏期，薰衣草紫色花海最为壮观。Farm Tomita（富田农场）是最有名的观赏地，每年吸引大量游客，7 月旺季可能需要排队。建议早上开园即去，避开下午人潮。

用户：从上海飞北海道，飞哪个机场？
Agent：上海到北海道可选择：①上海→札幌新千岁机场（直飞），多家航空公司运营，飞行时间约 3.5 小时；②上海→函館机场（需中转，通常经东京），时间约 6-8 小时。建议从新千岁入境、函館出境（或反向），可以避免重复路线。

用户：7 月份去北海道机票大概多少钱？
Agent：7 月暑假旺季，上海飞新千岁（札幌）机票参考价格：提前 2-3 个月购买：往返约 2000-3500 元；临时购买（出发前 2 周内）：往返可能达到 4000-6000 元甚至更高；中转航班（经东京或大阪）通常比直飞便宜 500-1000 元，但时间较长。建议尽早预订，暑假机票抢手。

用户：北海道的住宿贵吗？
Agent：北海道住宿价格参考（旺季 7 月）：札幌市区商务酒店：400-800 元/晚；富良野农家民宿（ペンション）：500-1200 元/晚，含早餐，推荐体验；小樽温泉旅馆（旅館）：800-2000 元/晚，高端体验；函館温泉酒店：600-1500 元/晚。7 天预算住宿约需 3000-7000 元，取决于档次选择。

用户：北海道有什么特色美食必须吃？
Agent：北海道美食是日本一绝：①海鲜：新鲜帝王蟹、海胆（海苔）、三文鱼、鲑鱼子（溢れいくら丼），在函館朝市或小樽市场体验；②拉面：札幌味噌拉面（Soup Curry也很著名）；③乳制品：北海道牛奶、雪糕、奶酪，几乎处处可买；④薰衣草冰淇淋（富良野地区限定）；⑤成吉思汗烤羊肉（ジンギスカン）：北海道特色烤羊肉料理。

用户：需要租车吗？
Agent：北海道很推荐租车，尤其是富良野/美瑛地区公共交通不便。注意事项：①中国驾照在日本不可直接使用，需要国际驾照（在国内驾照所办理，约 1 周）；②日本靠左行驶，与中国相反，需适应；③租车费用约 300-600 元/天（含基本险），建议在国内通过 Jalan 或 Toyota Rent-a-Car 官网提前预订；④北海道道路宽阔，驾驶难度相对低，路况良好。

用户：北海道有温泉可以泡吗？
Agent：当然！北海道有大量优质温泉。主要温泉区：①登别温泉（Noboribetsu）：「温泉大国」，多种泉质，距离札幌约 1.5 小时；②定山溪温泉：距札幌最近（约 1 小时），市内温泉胜地；③函館汤之川温泉：函館市内就有，方便；④富良野/美瑛有小规模温泉旅馆。温泉礼仪：进入前需清洗身体，有纹身通常不允许入场。

用户：签证怎么办？
Agent：中国公民前往日本需要签证（暂无免签）。暑假是签证旺季，建议出发前至少 4-6 周提交申请。所需材料类似之前说过的清单：护照、申请表、照片、机票和酒店预订单、银行存款证明（建议 5 万以上）、在职证明。上海可以去日本驻上海总领事馆或通过旅行社代办，代办费约 200-400 元。

用户：行程安排上有什么注意事项？
Agent：北海道 7 天行程注意事项：①不要把景点安排太满，北海道地域广，车程占用时间较多；②富良野美瑛农场通常 8-9 点开园，早到可避开人潮；③函館夜景建议安排傍晚上山，但暑期人多，需要排队；④知床半岛偏远，加入行程需多留 2 天；⑤海鲜在早市最新鲜，建议第一天就去市场体验。

用户：好了，基本了解了，那帮我查一下机票吧

当前消息：帮我查一下机票吧

期望行为：
- 召回第 1 轮的「在上海」信息
- 调用 search_flights 时出发地应该是上海
- 不应反问「从哪里出发」
判定标准：
- Pass：机票搜索使用了上海作为出发地，未重复询问
- Fail：反问了出发地 / 使用了错误的出发地
评分方式：自动（检查工具参数）
Skill 配置：skill_enabled: false
跨梯度对比：在 4k、16k、32k 下测试

二、中段信息利用率（MI: Mid-context Information）

上下文中段的信息是否有衰减（lost-in-the-middle 的典型位置）。

C5-MI-01中段偏好信息（32k 专测）

上下文长度：32k（必须）
信息注入位置：中段（第 14 轮，约 16k token 位置）

输入：

对话历史：

（以下为代表性上下文片段，实际测试时需扩展至目标长度）

用户：我想带男朋友一起去成都玩，大概 4 天
Agent：成都是个很棒的选择！4 天时间正好可以把成都的主要亮点都走一遍。主要景点有大熊猫基地、宽窄巷子、锦里古街、武侯祠、都江堰/青城山。您大概什么时候去？

用户：打算 5 月份去，五一之后
Agent：5 月中下旬去成都很好，天气舒适（平均气温 20-26℃），游客比五一黄金周少很多。大熊猫基地建议早上 8 点前到，熊猫活动最频繁。

用户：大熊猫基地需要提前买票吗？
Agent：强烈建议提前购票！成都大熊猫繁育研究基地实行网络预约制，旺季期间当天票很难买到。可以通过官方公众号「大熊猫基地」或美团/携程提前 7-14 天预约，票价约 55 元/人。

用户：锦里和宽窄巷子哪个更值得去？
Agent：两个都值得去，风格不同：锦里（武侯祠旁）：仿古商业街，三国文化氛围浓，小吃集中，适合晚上逛；宽窄巷子：清代民居改造，文艺感更强，茶馆和文创店多，适合下午慢逛。两个地方距离不远（打车约 10 分钟），4 天行程完全可以都去。

用户：那武侯祠呢？需要单独买票吗？
Agent：武侯祠（含锦里）门票 50 元，两者联票进入。武侯祠是中国唯一的君臣合祀祠庙（供奉刘备和诸葛亮），历史价值高，游览约需 1.5-2 小时。锦里就在武侯祠东侧，出门即到，可以安排在一起游览。

用户：成都住哪里比较方便？
Agent：成都住宿推荐区域：①天府广场/春熙路：市中心，地铁通达，商业配套齐全，适合大多数游客；②宽窄巷子附近：有些精品民宿，文艺气息浓，步行可达宽窄巷子；③武侯祠附近：靠近锦里，适合以武侯祠为中心游览。在您 4 天行程里，推荐住春熙路附近，交通辐射范围最广。

用户：成都地铁方便吗？
Agent：成都地铁已经非常完善，覆盖主要景区：地铁 3 号线直达大熊猫基地（熊猫大道站）；地铁 3 号线/4 号线覆盖春熙路、武侯祠片区；都江堰可以乘高铁（成灌快铁）约 40 分钟直达。4 天游览基本可以地铁 + 步行解决，无需打车。

用户：4 天行程大概怎么安排？
Agent：成都 4 天行程规划：
  Day 1：大熊猫基地（早上 8:00，需 3-4 小时）→ 下午返回市区，锦里+武侯祠
  Day 2：都江堰+青城山一日游（全天，建议早出发）
  Day 3：宽窄巷子（上午）→ 成都博物馆（下午）→ 春熙路/太古里（晚上）
  Day 4：自由活动/购物，品尝特色美食，傍晚离开

用户：都江堰值得去吗？
Agent：都江堰非常值得去！距成都约 60 公里，高铁 40 分钟可达。都江堰水利工程是 2000 多年前秦代修建的水利奇迹，至今仍在运转，是世界遗产。如果有兴趣，可以和旁边的青城山（道教圣地）安排一日游，两个景点可以连游。门票：都江堰景区 80 元，青城前山 60 元。

用户：四川话听得懂吗？当地人交流有问题吗？
Agent：完全没问题！成都居民在与外地游客交流时通常会使用普通话，景区内服务人员更是如此。四川话语调独特，但在正式场合和旅游场景中都会用普通话。只有在偶遇本地人聊天时才会感受到方言，不影响正常旅游交流。

用户：有什么成都纪念品值得买？
Agent：成都特色纪念品推荐：①大熊猫周边（毛绒玩具、明信片、马克杯），在熊猫基地官方纪念品店最正宗；②三星堆/金沙文创（成都博物馆和三星堆博物馆有精品文创）；③蜀绣和蜀锦制品（传统工艺，价格较高但很有特色）；④郫县豆瓣酱、花椒、麻辣火锅底料（美食伴手礼，在超市购买最实惠）；⑤竹编制品（成都郊区特产）。

用户：对了，我男朋友不吃辣，这在成都会不会很难受？
Agent：这确实是个需要注意的问题。成都是辣椒文化的核心地带，很多传统菜都有辣度，但完全可以应对：①可以点不辣版本：很多餐厅提供「微辣/不辣」选项，直接告诉服务员「不要辣」即可；②非辣成都美食：担担面（可要不辣版）、龙抄手（清汤版）、赖汤圆、三大炮（糯米甜点）、成都豆花、钟水饺（有甜口版）；③火锅可选鸳鸯锅（一边辣一边清汤），不吃辣的一方用清汤底涮菜。我会在推荐餐厅时特别注意避开重辣菜肴，或标注辣度。

用户：成都有哪些好的火锅店推荐？
Agent：成都火锅推荐（考虑到你们有人不吃辣，建议选提供鸳鸯锅的店）：①巴奴毛肚火锅：主打毛肚，汤底醇厚，可以要求鸳鸯；②大龙燚：平民价格，口味地道，排队较长但值得；③蜀大侠：环境好，服务佳，适合情侣；④蜀九香：老牌成都火锅，正宗麻辣底料。预订建议：旺季请提前通过美团预约，避免排队 1-2 小时。

用户：除了火锅，还有哪些成都特色小吃？
Agent：成都特色小吃（含不辣选项）：①钟水饺：猪肉馅，甜口红油版（可要少辣）和清汤版都有；②赖汤圆：甜糯米汤圆，完全无辣；③三大炮：糯米团裹豆粉，传统街头食品，不辣；④豆花饭：嫩豆腐配米饭，调味料可以选轻辣或不辣；⑤夫妻肺片：通常有辣，但可要微辣版；⑥成都抄手：类似馄饨，清汤版不辣。

用户：宽窄巷子的小吃怎么样？
Agent：宽窄巷子的小吃以街头为主，价格偏旅游区水平（略贵），但体验感好。推荐：①兔头（不喜欢可跳过）；②糖油果子（油炸糯米球裹糖，不辣，很好吃）；③熊猫造型糕点；④成都特色冰粉（凉粉加红糖，清甜解辣，不辣）。对不吃辣的人来说，甜品和糕点类小吃很友好，辣的串串可以跳过。

用户：成都周边有没有其他值得去的地方？
Agent：成都周边一日游推荐：①乐山大佛（距成都约 1.5 小时高铁），世界最大石刻佛像，壮观；②峨眉山（距成都约 2 小时），佛教圣地，风景壮美，需至少 1 天；③三星堆博物馆（德阳广汉，距成都约 1 小时）：神秘古蜀文明，青铜器令人叹为观止，非常推荐！

用户：好了，基本确定去成都了，那帮我推荐一下餐厅吧

当前消息：帮我推荐一下当地餐厅

期望行为：
- 召回第 14 轮的「不吃辣」信息
- 推荐餐厅时避免辣味餐厅或标注可选辣度
- 这是 lost-in-the-middle 的典型位置，容易被遗忘
判定标准：
- Pass：推荐考虑了「不吃辣」约束
- Fail：推荐了辣味餐厅且未说明
评分方式：LLM-judge
Skill 配置：skill_enabled: false
跨梯度对比：在 4k、16k、32k 下注入相同信息在不同相对位置，对比召回率

C5-MI-02中段约束信息（32k 专测）

上下文长度：32k
信息注入位置：中段（第 15 轮，约 17k token 位置）

输入：

对话历史：

（以下为代表性上下文片段，实际测试时需扩展至目标长度）

用户：我想买一台新笔记本电脑，主要用于工作，包括 Office 文档处理、视频会议和少量 PPT 制作
Agent：您描述的使用场景属于轻度到中度办公需求，不需要特别高端的显卡，但对 CPU 单核性能、内存容量和屏幕素质有一定要求。预算大概是多少？

用户：预算 7000-9000 元左右
Agent：7000-9000 元在笔记本市场属于中高端区间，可以买到性能出色、做工精良的机器。在这个价位有不少好选择，比如联想 ThinkPad X1 Carbon、华为 MateBook X Pro、苹果 MacBook Air M2 等。您对操作系统有偏好吗，Windows 还是 macOS？

用户：Windows 系统吧，公司用的 Windows，兼容性更重要
Agent：明白，那我们聚焦 Windows 笔记本。7000-9000 元的 Windows 商务本推荐关注：联想 ThinkPad 系列（稳定可靠，企业级耐用性）；华为 MateBook 系列（轻薄美观，华为生态好）；ASUS ZenBook 系列（性能均衡，屏幕素质好）；戴尔 XPS 系列（顶级做工，屏幕出色）。

用户：屏幕尺寸有什么推荐吗？
Agent：商务办公笔记本屏幕尺寸建议：13-14 寸：便携性最好，适合经常移动；15.6 寸：屏幕空间大，适合多任务，但重量增加；16 寸：创作本常见尺寸，视野开阔，偏重。对以视频会议和 PPT 为主的工作场景，建议 14 寸，兼顾便携和视觉体验。

用户：需要独立显卡吗？
Agent：对您描述的使用场景（Office、视频会议、PPT），不需要独立显卡。Intel 第 12/13 代 Core Ultra 处理器内置的核显（Iris Xe）已经完全满足需求，而且：独立显卡会增加重量、降低续航；无独显的轻薄本在您的场景下性能完全足够；节省的预算可以升级更好的屏幕或更大的内存。

用户：内存多大合适？
Agent：对于您的使用场景，推荐 16GB 内存：Chrome 多标签页 + Teams + Office 同时运行，8GB 有时会显得不足；16GB 可以舒适地处理多任务，未来 3-5 年不会明显感到吃力；32GB 对纯办公场景有些过剩，除非您习惯开大量应用。另外注意内存是否焊死（无法后期升级），如果焊死建议直接上 16GB。

用户：续航要求呢？
Agent：商务本续航很重要。建议选择标称续航 12 小时以上的机型（实际使用约为标称值的 70-80%）。您预算范围内的推荐：联想 ThinkPad X1 Carbon（实际续航约 10-12 小时）；华为 MateBook X Pro（实测约 10 小时）；华硕 ZenBook 14（实测约 10-11 小时）。如果经常参加全天会议，建议同时考虑是否支持快充（USB-C PD 65W 以上）。

用户：接口够用吗？
Agent：现代轻薄商务本接口普遍缩减，需要注意。建议至少要有：Thunderbolt 4 / USB-C × 2（用于充电+扩展）；USB-A × 1-2（兼容鼠标、U盘等老设备）；HDMI 1.4+ 或 miniDP（连接外接显示器/投影）；3.5mm 耳机口（视频会议用）；可选：SD 卡槽。如果接口不够，可以配一个 USB-C 多功能扩展坞（约 200-400 元）。

用户：键盘手感怎么判断？
Agent：键盘手感很主观，建议在购买前实际体验。一般评价维度：键程（按下深度）：商务本 1.2-1.5mm 是舒适区间，太浅（<1mm）打字累；键帽稳定性：按键时不晃动为佳；回弹力度：适中为佳，不要太软或太硬。公认键盘最好的商务本：联想 ThinkPad 系列（行业标杆）；华硕 ZenBook S 系列（舒适好用）；建议去实体店（京东之家/苏宁/华为体验店）实际打几个字再决定。

用户：触控板呢？
Agent：触控板的评价维度：面积：越大越好，13 寸以上的面积使用体验明显提升；材质：玻璃触控板手感顺滑，优于塑料；点击感：推荐支持全面积点击（任何位置按下都有反馈）。公认触控板最好的笔记本：Apple MacBook 系列（顶级）；华为 MateBook 系列（Windows 里数一数二）；戴尔 XPS 系列也不错。

用户：ThinkPad 和 MateBook 哪个更适合我？
Agent：两款都适合您的需求，差异主要在定位上：联想 ThinkPad X1 Carbon（Gen 11）：更偏向企业 IT 部门采购，耐用性经过军规认证，维修方便（螺丝可拆，接口多），与企业 AD 域兼容性更强；华为 MateBook X Pro：消费端设计感更强，轻薄漂亮，触控板体验出色，华为手机用户生态联动好，但华为服务的企业兼容性略逊。如果公司有大量外出拜访客户的场景，ThinkPad 的可靠性口碑更好。

用户：还有一点，我需要经常出差，所以重量很重要，最好 1.5kg 以内
Agent：这是非常关键的约束！1.5kg 以内是轻薄本的标准，好在您的预算范围内有几款符合的选择：联想 ThinkPad X1 Carbon（Gen 11）：约 1.12kg，行业最轻之一，非常适合出差；华为 MateBook X Pro 2024：约 1.26kg，满足要求；华硕 ZenBook 14 OLED：约 1.39kg，满足要求；戴尔 XPS 14：约 1.64kg，略超您的限制，建议排除。我后续推荐时会严格筛选 1.5kg 以内的机型。

用户：处理器选 Intel 还是 AMD？
Agent：对于您的使用场景，两者都可以，但各有优劣：Intel Core Ultra（Meteor Lake）：单核性能强，Windows 生态兼容性历来最好，ThinkPad/MateBook 系列多用 Intel；AMD Ryzen 7000 系列：多核性能更强（视频转码快），价格相对优惠，续航表现也不错（Zen 4 架构效率高）。纯办公场景两者感知差异不大，建议以整机综合评价（重量、续航、键盘）为主，不必过于纠结 CPU 品牌。

用户：屏幕分辨率选哪个好？
Agent：屏幕分辨率建议：基础标准（及格）：1920×1200（16:10 比例）已经够用，2K 以上更清晰；推荐（好）：2560×1600（2.5K），文字锐利，视频会议效果好；高端可选：3840×2400（4K），视觉体验极佳，但耗电更多；建议避免：1080p（1920×1080，16:9 比例），现在商务本这个价位有些过时，且 16:9 竖向空间略小。对您的使用场景，2K 屏（2560×1600 或 2880×1800）是最佳平衡点。

用户：哪里买比较靠谱？
Agent：购买渠道建议：①官方网站/官方旗舰店（天猫/京东自营）：价格透明，正品保障，质量问题可以走官方售后；②京东自营：配送快，售后方便，可叠加优惠券；③线下官方体验店：优势是能实际体验触感，当场决定；④企业采购：如果公司有 IT 采购流程，通过公司渠道买可能有企业折扣。避免：非官方授权的二手平台或小渠道，笔记本翻新件较多。

用户：好了，信息差不多了，那你推荐几款吧

当前消息：那你推荐几款吧

期望行为：
- 召回第 15 轮的重量约束（≤ 1.5kg）
- 推荐的笔记本应该满足重量要求
- 中段信息容易被遗忘
判定标准：
- Pass：推荐的笔记本重量都 ≤ 1.5kg
- Fail：推荐了超重的笔记本（如 2kg+）
评分方式：LLM-judge
Skill 配置：skill_enabled: false
跨梯度对比：在 4k、16k、32k 下测试

C5-MI-03中段多条信息的聚合召回

上下文长度：32k
信息注入位置：中段（第 12-17 轮，分散注入）

输入：

对话历史：

（以下为代表性上下文片段，实际测试时需扩展至目标长度）

用户：我想今年国庆节去一次亲子旅行，在国内，大概 5 天
Agent：国庆亲子游的好选择很多！国内主要有几类适合亲子的目的地：主题公园型（上海迪士尼、北京环球影城）、自然探索型（张家界、黄山）、文化历史型（西安、北京）、海岛型（三亚、厦门）。您家孩子多大，喜欢什么类型的活动？

用户：孩子比较小，还在上幼儿园，应该还不太懂文化历史
Agent：幼儿园阶段的孩子（3-6 岁）适合互动感强、画面鲜艳的体验型目的地：主题公园是首选，视觉冲击力强，孩子参与感好；动物园/海洋馆也非常受小孩子喜欢；自然风景适合性取决于孩子的专注力和耐力。三亚、上海、北京都有适合这个年龄段的设施。

用户：三亚的话有什么亲子景点？
Agent：三亚亲子景点推荐：①三亚亚特兰蒂斯水世界（巨大水上乐园，孩子超级喜欢）；②蜈支洲岛（清澈海水，适合浮潜，但需注意孩子安全）；③南山文化旅游区（观音像，文化感强）；④三亚海昌梦幻海洋不夜城（夜间海洋主题）；⑤呀诺达雨林（热带雨林探险，互动性强）。国庆期间人多，建议提前预订各景点。

用户：三亚国庆期间贵吗？
Agent：三亚国庆是绝对旺季，价格会显著上涨：机票：往返可能比平时贵 50-100%；酒店：亚龙湾、三亚湾的星级酒店国庆期间可能翻倍甚至更高，建议提前 2-3 个月锁定；景区：门票价格相对稳定，但排队时间会大幅增加。如果预算有限，可以考虑国庆前后出发（9 月底或 10 月上旬），人流和价格都会好很多。

用户：厦门怎么样？听说适合亲子
Agent：厦门也是很好的亲子目的地！亲子景点推荐：鼓浪屿（不允许机动车，适合推车散步，孩子安全）；厦门海洋世界（含海豚表演，孩子喜欢）；厦门动植物园；沙坡尾老街；环岛路骑行/散步。相比三亚，厦门国庆期间价格稍低，且文化氛围更浓。

用户：那北京呢，环球影城刚开没多久？
Agent：北京环球影城是 2021 年开业的，对有小孩的家庭非常有吸引力！适合幼儿的区域：侏罗纪世界（坐车游览，视觉冲击强）；小黄人乐园（超适合幼儿，互动有趣）；哈利波特：魔法世界（场景震撼）。注意：部分刺激项目有身高限制（如 1.2m 以上），需提前确认孩子是否满足。门票旺季约 500-700 元/人，国庆需提前至少 1 个月抢票。

用户：我带着 5 岁的孩子，他精力旺盛但也容易累
Agent：5 岁的孩子正处于精力充沛但耐力有限的阶段，旅行规划需要特别注意：每天不超过 2-3 个主要景点；景点之间留充足休息时间；安排亲子友好的住宿（含儿童设施/泳池）；避免长时间步行，可以考虑景区小火车、观光车；午饭后安排午休（孩子精力在下午会下降）。

用户：那北京的住宿可以推荐一下吗？
Agent：北京亲子友好住宿推荐：①北京环球影城主题酒店（直通环球，沉浸体验，价格较高）：环球影城大酒店约 2000-4000 元/晚；②普通商务酒店但有儿童设施：希尔顿、万豪在北京均有大型游泳池和儿童活动区；③朝阳区/国贸附近（环球影城附近）的连锁酒店（全季、亚朵等），亲子价约 600-1200 元/晚。

用户：孩子不太能走很多路，最好能带推车
Agent：这非常重要！带推车的话，以下几点需要注意：①景区推车可进入性：天安门、故宫有坡道和无障碍通道；鼓浪屿无机动车，路面有些石板路，推车略颠簸但可以走；北京环球影城内部铺装路面，推车非常方便；②建议自带折叠轻便推车（如好孩子/cybex 折叠款），比租用景区推车更干净安全；③提前查询景区无障碍地图，规划推车可行路线。

用户：北京国庆人多吗？
Agent：是的，国庆北京是全国最热门的目的地之一，尤其天安门广场国庆期间人流量极大。应对策略：①热门景点（故宫、长城八达岭）必须提前预约，一票难求；②建议避开高峰人流（9:00-14:00），早出发或傍晚游览；③环球影城国庆期间同样爆满，强项目排队可能 2-4 小时；④建议在北京行程中以主题公园为主，减少人流极大的历史景区。

用户：而且孩子对海洋生物特别感兴趣，他在图书馆借了很多鱼类图鉴
Agent：太好了！这是非常有价值的兴趣点。北京也有不错的海洋体验：北京海洋馆（北京动物园旁）：相对小而精，有海豚和海狮表演，适合 5 岁孩子；北京富国海底世界：可以近距离观察热带鱼和珊瑚礁展示。如果孩子对海洋生物感兴趣，三亚或厦门的海洋馆会更丰富——三亚亚特兰蒂斯内的海洋馆规模国内一流，厦门海洋世界也有大量展示。这个偏好可以作为最终决定目的地的重要依据。

用户：那行程里怎么平衡景点多样性和孩子体力？
Agent：5 岁孩子的旅行体力管理黄金原则：①每天安排 1-2 个主要景点（而非成人旅行的 3-4 个）；②景点游览时间不超过 3 小时连续活动，之后休息；③主题公园建议 1 天只去 1 个，全力体验；④中午 12-14 点安排午餐+午休（可回酒店或找安静餐厅）；⑤晚上 8 点前结束全天活动，保证孩子睡眠；⑥在景区准备零食和水，孩子饿了容易闹情绪。

用户：好了，基本确定国庆亲子游了，那推荐一下行程吧

当前消息：推荐一下行程吧

期望行为：
- 需要召回中段分散在第 12、15、17 轮的三条信息
- 推荐行程时考虑：亲子友好、推车可达、有海洋馆/水族馆
- 三条信息都应该被利用
判定标准：
- Pass：推荐考虑了至少 2 条信息（容许遗漏 1 条）
- Fail：只考虑了 1 条或完全未考虑
评分方式：LLM-judge（检查三条信息的利用情况）
Skill 配置：skill_enabled: false
跨梯度对比：在 4k、16k、32k 下测试信息聚合能力

三、长上下文意图理解（LI: Long-context Intent）

多轮对话后，对用户当前意图的理解是否仍准确。

C5-LI-01长对话后的简单意图

上下文长度：32k
信息注入位置：无特殊注入，测试长上下文后的基础能力

输入：

对话历史：

（以下为代表性上下文片段，实际测试时需扩展至目标长度）

用户：帮我规划一下去巴黎的旅行，7 天
Agent：巴黎 7 天旅行规划：Day 1 抵达，入住圣日耳曼区...（行程详细规划）

用户：卢浮宫需要提前买票吗？
Agent：强烈建议！卢浮宫旺季每天限流，尤其暑假和国庆期间。可通过卢浮宫官网或 GetYourGuide 提前购买，同时选择入场时间段...

用户：艾菲尔铁塔登顶要预约吗？
Agent：是的，埃菲尔铁塔顶层（第三层）必须提前预约，旺季时段有时提前 2-3 个月就售罄。建议登塔时选择傍晚 19:00-21:00，可以看到日落和夜景...

用户：巴黎住在哪个区比较合适？
Agent：推荐住在第 1-8 区（右岸）或第 6 区（左岸圣日耳曼）。第 1-4 区：卢浮宫、玛黑区步行可达；第 6 区：学院氛围，咖啡馆文化，靠近塞纳河；建议预算每晚 600-1200 元...

用户：机票要多少钱？
Agent：北京/上海飞巴黎（CDG 机场），直飞约 5000-9000 元/人，经停约 3500-6000 元。建议提前 3-4 个月购买。可以关注国航、法航、荷兰航空等的早鸟票...

用户：巴黎的地铁好用吗？
Agent：巴黎 Metro 非常发达，14 条线路覆盖全城。建议购买 NaviGo Easy 卡（充值卡，每次 1.73 欧）或 Carnet（10 次联票，约 16.9 欧）。注意：Metro 站台有些没有电梯，带大行李需提前查询无障碍路线...

用户：有没有推荐的法国餐厅？
Agent：推荐几个价格区间的选择：①平价（人均 20-40 欧）：Café de Flore 早餐、Breizh Café 可丽饼；②中档（人均 50-80 欧）：Septime（需提前订位）、Frenchie；③高档（米其林，人均 150 欧+）：Alain Ducasse 旗下餐厅...

用户：巴黎购物有什么推荐？
Agent：巴黎购物圣地：①老佛爷百货（Galeries Lafayette）：各大奢侈品牌，可以办退税；②玛黑区（Le Marais）：独立设计师品牌，创意小店；③圣图安跳蚤市场（周末）：古董和复古单品；④药妆：Vichy、La Roche-Posay 等在当地比国内便宜...

用户：申根签证怎么办？
Agent：申请法国申根签证需提前 15-90 天申请。主要材料：护照、签证申请表、近期照片、往返机票预订单、酒店预订单、银行存款证明（建议 5 万以上）、行程单、在职证明/营业执照。上海法国签证中心可预约办理，处理时间通常 5-10 个工作日...

用户：凡尔赛宫要花多少时间？
Agent：凡尔赛宫建议安排整个上午或下午（3-5 小时）。主要参观：国王大殿（镜廊、国王寝宫）、玛丽皇后小特里亚农宫、凡尔赛宫花园（广阔，需步行或租小车游览）。门票约 20 欧，建议提前网上购票...

用户：巴黎有哪些小众景点？
Agent：巴黎小众但值得去的地方：①蒙马特区（Montmartre）：艺术家街区，圣心大教堂俯瞰全城；②先贤祠（Panthéon）：安葬了居里夫人、雨果等名人，游客相对少；③装饰艺术博物馆（Musée des Arts Décoratifs）；④Promenade Plantée（步行高架绿道，巴黎版高线公园）；⑤色彩斑斓的巴黎拱廊街（Passages Couverts）...

用户：奥赛博物馆值得去吗？
Agent：非常值得！奥赛博物馆（Musée d'Orsay）收藏了大量印象派名作：莫奈的《睡莲》系列、雷诺阿的《煎饼磨坊的舞会》、梵高的《星夜》（部分）等。由旧火车站改建，建筑本身也很壮观。建议安排 2-3 小时，避开周一（闭馆）和周末高峰期...

用户：巴黎的塞纳河游船有没有推荐？
Agent：塞纳河游船推荐：①巴黎塞纳河游船（Bateaux Mouches）：经典1小时游览，票价约 16 欧，经过埃菲尔铁塔和圣母院；②晚上 20:00-22:00 乘坐可以看到铁塔亮灯（每小时整点闪光 5 分钟）；③还有带晚餐的豪华游船（约 60-150 欧/人），适合纪念日...

用户：顺便问一下，查一下明天北京的天气

当前消息：查一下明天北京的天气

期望行为：
- 这是一个简单的新意图（话题切换）
- 不应被前面 26 轮的旅行讨论干扰
- 直接查北京天气，不要关联到旅行
判定标准：
- Pass：正确理解为查天气（独立意图），未关联到旅行
- Fail：试图将天气和旅行关联（如「您旅行目的地的天气是...」）/ 拒绝回答要求先完成旅行讨论
评分方式：LLM-judge
Skill 配置：skill_enabled: false
跨梯度对比：在 4k、16k、32k 下测试，对比意图识别准确率

C5-LI-02长对话后的复杂意图

上下文长度：32k
信息注入位置：需要关联早期和中段的信息

输入：

对话历史：

（以下为代表性上下文片段，实际测试时需扩展至目标长度）

用户：我打算秋天去日本，想去京都看枫叶
Agent：京都赏枫是日本最美的体验之一！京都枫叶季通常在 11 月中旬到 12 月初，最佳时间是 11 月下旬。推荐赏枫景点：岚山天龙寺（庭院枫叶倒映水面）、东福寺（被称为京都最美枫叶）、永观堂（以红枫密集著称）、南禅寺...

用户：东福寺的枫叶怎么样？
Agent：东福寺是京都赏枫的顶级目的地！特别是通天桥俯瞰满山红枫的景色令人震撼。11 月底旺季期间人流极大，建议早上 8 点前到达。从京都站乘 JR 到东福寺站只需 2 站，非常方便。门票通天桥 600 日元。

用户：岚山那边有哪些景点？
Agent：岚山（嵐山）是京都西部的景点集中区，建议安排半天到一天：①竹林小径：最著名的标志性景点，建议清晨 7-8 点前往，避开人潮；②天龙寺：世界遗产禅寺，秋季枫叶庭院极美（门票 500 日元）；③渡月桥：横跨桂川的古桥，赏枫背景很美；④保津川游船：可以从岚山乘小船游览峡谷（约 2 小时，约 4100 日元/人）。

用户：那伏见稻荷大社怎么样？
Agent：伏见稻荷大社是京都最著名的景点之一，以无数橙红色鸟居组成的隧道著称。特点：免费参观，任何时间都可以进入；山路全程约 4 公里，爬到山顶需要约 2 小时；秋天鸟居配红叶非常美；清晨或黄昏人少，光线美；距京都站乘 JR 5 分钟。

用户：清水寺一定要去吗？
Agent：强烈推荐！清水寺是京都最具代表性的地标：建于 778 年，三重塔和本堂舞台（悬空木结构）是标志；秋天枫叶红透，配合古建筑非常壮观；三年坂、二年坂（通往清水寺的石板路）也是购物和体验京都传统的好地方；门票 500 日元，建议早上 6:30 开门即入，避开人潮。

用户：金阁寺需要多长时间？
Agent：金阁寺（正式名称鹿苑寺）游览约需 45-60 分钟，属于可以快速游览的景点。金色的建筑倒映在水面的景色非常上镜，但游览路线是固定的单向环形，比较简单。门票 500 日元，建议上午前往（下午人流最大）。

用户：银阁寺呢？
Agent：银阁寺（慈照寺）和金阁寺虽然名字相近但风格完全不同：银阁寺实际上并不是银色，而是朴素的木色，体现的是日本侘寂美学；特别之处：以银沙滩（白砂庭院）和向月台（圆锥形沙堆）著名；游览时间约 45 分钟；银阁寺旁边的哲学之道（Philosopher's Path）是条绝美的散步小径，秋天落叶缤纷，非常推荐。

用户：奈良是不是可以顺道？
Agent：完全可以！奈良距京都只有 45 分钟（JR 近铁），非常适合一日游。奈良最著名的就是奈良公园里随处游走的鹿（1000 多只，不怕人），还有东大寺（供奉巨大佛像，世界最大木建筑）、春日大社（鸟居和传统神社）。建议奈良安排半天（上午）+ 下午返回京都游览。

用户：行程大概怎么规划比较合理？
Agent：京都 5 天行程建议（秋季赏枫版）：
  Day 1：抵京都，傍晚祇园花见小路（夜晚氛围佳）
  Day 2：伏见稻荷大社（清晨）→ 东福寺（上午赏枫）→ 锦市场（午后购物）
  Day 3：岚山全天（竹林+天龙寺+渡月桥+保津川）
  Day 4：奈良半日游 → 下午返京都，哲学之道+银阁寺
  Day 5：金阁寺+清水寺+三年坂，傍晚离开

用户：京都的交通方式有哪些？
Agent：京都交通攻略：地铁：仅两条线（烏丸線和東西線），覆盖范围有限；巴士：最主要的市内交通，覆盖大部分景点，建议买「京都市巴士一日券」（700 日元）；JR 西日本：去伏见稻荷/奈良方向，需要购买相应票或 JR Pass；步行：许多景点步行可达（尤其东山一带清水寺/八坂神社片区）；自行车：推荐租车游览哲学之道等地。

用户：当地特色食物是什么？
Agent：京都料理（京料理）清淡精致，与大阪的重口味截然不同：必吃：湯豆腐（嵯峨野天龙寺周边有名店）、おばんざい（京都家常料理小菜）、うどん（乌冬面）、京都抹茶甜品（辻利、中村藤吉等老店）；不辣建议：京料理整体口味偏甜偏淡，非常适合不吃辣的人；特色甜品：生八桥（生八ツ橋，麻糬甜点，京都限定）、抹茶冰淇淋遍地都是。

用户：购物去哪里？
Agent：京都购物推荐：①锦市场（锦の市）：被称为「京都的厨房」，各类腌菜、豆腐、抹茶食品，适合买伴手礼；②三年坂/二年坂：清水寺旁，传统工艺品（陶瓷、漆器、扇子、手拭）；③寺町通/新京极通：百年老店和新潮小店混合，伊藤久右衛門（抹茶老店）在这附近；④乌丸周边：现代商业，大丸百货、伊势丹等。

用户：住宿怎么选？京都旅游旺季价格贵吗？
Agent：京都 11 月枫叶旺季酒店价格确实会上涨，建议至少提前 2-3 个月预订。价格参考：①经济型：商务酒店或青旅，400-800 元/晚；②中档：四条河原町或京都站附近酒店（如东横INN、京都烏丸六角 APA Hotel），700-1500 元/晚；③高端/精品：有些百年町家（改建民宿），2000-5000 元/晚，体验感极好；④旅館（温泉旅馆）：含晚餐早餐的全套体验，3000-8000 元/晚。

用户：那住在哪里比较方便？

当前消息：住哪里比较方便

期望行为：
- 需要关联第 1-3 轮确定的目的地（京都）
- 需要关联第 4-23 轮讨论的景点分布（东福寺、岚山、伏见稻荷、清水寺等）
- 综合信息推荐酒店区域，考虑最常去的景点在哪里
- 长上下文下的复杂意图理解
判定标准：
- Pass：推荐了京都的酒店区域，考虑了之前讨论的景点分布
- Fail：反问目的地 / 推荐时忽略了之前讨论的景点
评分方式：LLM-judge
Skill 配置：skill_enabled: false
跨梯度对比：在 4k、16k、32k 下测试

C5-LI-03长对话后的模糊指代

上下文长度：32k
信息注入位置：早期有具体信息

输入：

对话历史：

（以下为代表性上下文片段，实际测试时需扩展至目标长度）

用户：我想买一副降噪耳机，平时通勤用，预算 2000 元左右
Agent：2000 元预算的降噪耳机有几个很好的选择：索尼 WH-1000XM5（2399 元，行业顶级降噪）、Bose QuietComfort 45（1799 元，舒适度出色）、Apple AirPods Pro 2（1899 元，适合 iPhone 用户）。您平时用什么手机？

用户：iPhone 15 Pro，那 AirPods Pro 2 是不是最合适？
Agent：对 iPhone 用户来说，AirPods Pro 2 确实有独特优势：空间音频（Spatial Audio）效果卓越，配合 iPhone 体验最佳；自适应透明模式（可以根据环境自动调节）；H2 芯片的降噪性能有显著提升（比上代降噪提升 2 倍）；无缝接入 Apple 生态，双击/捏合手势控制方便；价格约 1899 元，在您预算内。

用户：AirPods Pro 2 的续航怎么样？
Agent：AirPods Pro 2 续航：单次续航：约 6 小时（开降噪）或 7.5 小时（关降噪）；充电盒额外提供：约 24 小时续航；充电盒支持 MagSafe 和 Apple Watch 充电器充电（非常方便）；快充：5 分钟充电可使用约 1 小时。对每天 1-2 小时通勤来说，续航完全够用，基本每 2-3 天充一次电盒即可。

用户：和索尼 WH-1000XM5 相比哪个好？
Agent：AirPods Pro 2 vs 索尼 WH-1000XM5 对比：降噪效果：索尼 XM5 稍强（头戴式天然优势，物理遮噪好）；舒适度：AirPods Pro 2 更轻便，适合长时间佩戴；通话质量：AirPods Pro 2 更好（高端麦克风降噪）；生态兼容：AirPods Pro 2 对 iPhone 用户无敌，索尼跨平台更好；价格：索尼 2399 元，超出您预算 400 元。对您（iPhone 用户、通勤场景）来说，AirPods Pro 2 是更优选择。

用户：那就决定买 AirPods Pro 2 了，哪里买比较好？
Agent：AirPods Pro 2 购买渠道推荐：①Apple 官网/直营店：保证正品，可享受 14 天无理由退换，官方售后最好；②京东自营：价格和官网差不多，配送快，同等保障；③天猫苹果官方旗舰店：偶有优惠活动；④线下授权经销商（如苏宁苹果授权店）：可以现场体验，当场拿货。建议：优先选官方渠道，避免第三方卖家（存在翻新品风险）。

用户：现在的价格是多少？
Agent：AirPods Pro 2（USB-C 版本）当前建议零售价：Apple 官网：1899 元；京东自营：1799-1899 元（偶有小促销）；建议下单前查看价格历史（可用「什么值得买」App查）。注意：区分 USB-C 版（新款，2023 年后）和 Lightning 版（旧款），USB-C 版有更高的IP54防水等级，买新不买旧。

用户：有没有保护套推荐？
Agent：AirPods Pro 2 保护套推荐：①Casetify 定制款：时尚设计，可个性化印字，售价约 100-200 元；②Spigen TPU 套：轻薄防摔，约 30-50 元；③Apple 原装硅胶套：简洁原汁原味，约 149 元；④Totallee 超薄套：几乎不增加厚度，约 60-80 元。买保护套要注意：确认是 USB-C 版本的尺寸（与 Lightning 版略有不同）。

用户：能不能帮我看看京东的价格？
Agent：根据我的信息，AirPods Pro 2（USB-C）在京东自营当前约 1799-1849 元。具体价格请直接在京东 App 搜索「AirPods Pro 2 USB-C」查看实时价格，价格可能因促销活动波动。如果您是京东 PLUS 会员，可能还有额外折扣。

用户：颜色有哪些选择？
Agent：AirPods Pro 2（第二代）颜色：只有一款颜色——白色/象牙白（Apple 经典配色，充电盒也是白色）。与其他品牌不同，AirPods Pro 系列不提供多种颜色选择，只有白色一个选项。如果您想要有颜色选择，可以考虑耳机套（硅胶耳帽）有不同颜色款式。

用户：没有其他颜色了吗？我比较喜欢黑色或深色
Agent：目前 AirPods Pro 2 正式颜色确实只有白色。不过有几个思路：①官方颜色：Apple 偶尔推出特别版（如 AirPods Pro 曾出 MagSafe 充电盒的不同颜色），但机身本身基本只有白色；②第三方定制：有些定制服务可以将充电盒喷涂成黑色，但会影响保修；③换选品牌：索尼 WH-1000XM5 有黑色、银色；Bose QC45 有黑色和白色。如果颜色是您的重要考量，可能需要重新考虑是否坚持 AirPods Pro 2。

用户：算了，白色也可以接受，那是不是也有人用第三方充电盒？
Agent：有的！AirPods Pro 2 可以使用第三方充电盒配件：①AirPods Pro 2 充电盒支持 Qi 无线充电（通用标准），可以用任何 Qi 无线充电板充电；②充电盒 USB-C 口可以接通用 USB-C 线充电；③注意：AirPods Pro 只能用 Apple 官方充电盒（或Apple授权的），「充电盒」不是第三方产品，而是指用第三方充电器给官方盒子充电。

用户：好，差不多决定了，那最后确认一下，这个东西还有白色的吗

当前消息：那个东西还有白色的吗

期望行为：
- 「那个东西」指代 AirPods Pro 2（第 1-5 轮确定的）
- 虽然中间隔了 20 轮，应该能正确理解指代
- 查询 AirPods Pro 2 的白色款式
判定标准：
- Pass：正确理解指代，查询了 AirPods Pro 2 的白色款
- Fail：反问「哪个东西」/ 理解成了其他商品
评分方式：LLM-judge
Skill 配置：skill_enabled: false
跨梯度对比：在 4k、16k、32k 下测试指代理解准确率

四、长上下文工具调用（LT: Long-context Tool Use）

上下文很长时，工具参数构造准确率是否下降。

C5-LT-01长对话后的工具参数准确性

上下文长度：32k
信息注入位置：开头和中段分散注入参数信息

输入：

对话历史：

（以下为代表性上下文片段，实际测试时需扩展至目标长度）

用户：我想去泰国玩，听说曼谷和清迈都不错
Agent：泰国是很受欢迎的旅行目的地！曼谷是现代都市，大皇宫、考山路、夜市文化丰富；清迈更偏向自然和文化，古城、大象园、山区风光有特色。您想去哪个方向，或者两个都去？

用户：两个都去最好，大概去几天合适？
Agent：如果两个城市都去，建议至少 7-8 天。可以安排：曼谷 3-4 天（大皇宫、卧佛寺、考山路、夜市）+ 清迈 3-4 天（古城、大象园、多伊素贴）。两地之间可以乘飞机（约 1 小时）或夜间卧铺火车（约 12 小时，体验感好）。

用户：我从深圳出发，深圳有直飞曼谷的航班吗？
Agent：深圳宝安机场有多个泰国航班选择：深圳直飞曼谷素万那普（BKK）：泰国航空、深圳航空有直飞，约 3.5-4 小时；深圳直飞曼谷廊曼（DMK）：亚洲航空等廉价航空运营。建议出发时飞 BKK（国际航站楼），返回从清迈飞深圳（清迈 CNX 有部分航班直飞深圳）。

用户：泰国签证需要提前办吗？
Agent：好消息！泰国自 2023 年起对中国公民实行免签（截至本信息截止日期），停留不超过 30 天无需申请签证。直接持护照入境即可，建议护照有效期距入境起至少 6 个月。如果政策有变化，请出行前在驻华大使馆官网确认最新信息。

用户：曼谷有哪些一定要去的景点？
Agent：曼谷必游景点：①大皇宫+玉佛寺：泰国最重要的皇家建筑群，金碧辉煌，需 3-4 小时；②卧佛寺（Wat Pho）：超大卧佛，传统泰式按摩发源地；③郑王庙（Wat Arun）：湄南河畔最美寺庙，傍晚时分最佳；④考山路（Khao San Road）：背包客圣地，热闹夜市；⑤Terminal 21/Siam Paragon：现代购物中心。

用户：曼谷的夜市有哪些？
Agent：曼谷知名夜市：①乍都乍周末市集（Chatuchak Weekend Market）：周末开放，数千摊位，规模亚洲最大；②铁道夜市帕帕侬（Talad Rot Fai Ratchada）：拍照胜地，三角帐篷排列整齐；③AsiaTeek 夜市：本地人聚集，价格实惠；④JODD Fairs：新兴夜市，网红打卡地，美食和文创结合。建议至少体验一个大型夜市，感受曼谷夜生活。

用户：清迈的大象园怎么选？
Agent：清迈大象园选择原则：推荐伦理型大象园（不表演、不骑象）：①Elephant Nature Park：最知名的救助型大象园，约 2500 泰铢/人，体验喂食、陪伴、洗澡；②Ran-Tong Save & Rescue Elephant Centre：同等理念，价格略低。不推荐：有骑象表演的传统大象营（存在动物福利问题）。建议提前至少 2-3 天预订。

用户：两城市之间怎么走？
Agent：曼谷到清迈的交通选项：①飞机（推荐）：约 1 小时，泰狮航空、亚洲航空等廉价航空票价约 200-600 泰铢起，深圳人可以在到达曼谷后直接买国内段；②夜间卧铺火车：约 11-13 小时，票价约 600-1200 泰铢（二等卧铺），体验感好，节省住宿费；③长途大巴：约 8-10 小时，价格更低约 300-500 泰铢，但舒适度一般。

用户：6 月份去泰国天气怎么样？
Agent：6 月是泰国雨季开始时期：曼谷和清迈 6 月气温约 32-36℃，高温高湿；降雨较多，尤其下午常有阵雨（雨量逐月增加，6 月比 4-5 月多）；优点：游客相对较少，酒店价格比旺季（11 月-2 月）低 20-40%。建议：带折叠雨伞，安排室内活动（博物馆、购物中心）在下雨时段，户外景点安排上午。

用户：6 月 15 号出发，20 号回，5 天够吗？
Agent：6 月 15-20 日，共 5 天，时间有些紧。建议两个方案：①方案 A：只去曼谷（5 天 4 晚），可以把曼谷玩得比较细：大皇宫+寺庙+夜市+一日游（大城遗址）；②方案 B：曼谷 3 天+清迈 2 天（飞机转场），紧凑但两城都能体验到主要景点。您更倾向哪个方向？

用户：就曼谷吧，清迈下次再去
Agent：好的，专注曼谷 5 天的行程！曼谷 5 天行程建议：
  Day 1（15 日）：抵达，入住，傍晚考山路感受夜生活
  Day 2（16 日）：大皇宫+玉佛寺+卧佛寺（上午）→ 郑王庙（傍晚）→ 湄南河夜游
  Day 3（17 日）：大城遗址一日游（世界遗产，距曼谷 80 公里，约 1.5 小时）
  Day 4（18 日）：购物天（Siam Paragon/Central World/乍都乍市集）
  Day 5（19 日）：自由活动/spa/按摩，傍晚前往机场

用户：住宿推荐哪个区域？
Agent：曼谷住宿推荐区域（按需求）：①素坤逸路（Sukhumvit）：交通便利（BTS轻轨），购物餐饮集中，适合多数游客，价格中等；②暹罗（Siam）：购物中心核心，高端酒店多，位置绝佳；③考山路附近：背包客氛围，便宜但嘈杂；④湄南河畔：景色绝佳（可看郑王庙），部分高端酒店视野极好。5 月旺季后，6 月住宿价格会有下降，素坤逸路一带商务酒店约 300-600 元/晚。

用户：好了，机票可以帮我查了吗？

当前消息：好了，帮我查机票

期望行为：
- 需要聚合第 1、5、21 轮分散的信息
- 调用 search_flights，参数应该包含：
  - 出发地：深圳（第 3 轮提到）
  - 目的地：曼谷（第 9 轮确认）
  - 日期：6 月 15 号出发，20 号返回（第 9 轮提到）
- 不应遗漏任何一个参数
判定标准：
- Pass：工具调用包含了正确的出发地（深圳）和日期（6 月 15-20 日），目的地有合理处理
- Fail：遗漏了出发地或日期参数 / 参数值错误
评分方式：自动（检查工具参数）
Skill 配置：skill_enabled: false
跨梯度对比：在 4k、16k、32k 下测试参数准确率

C5-LT-02长对话后的工具选择

上下文长度：32k
信息注入位置：早期确定了任务类型

输入：

对话历史：

（以下为代表性上下文片段，实际测试时需扩展至目标长度）

用户：我想在北京朝阳区买一套二手房，你能帮我查查吗？
Agent：当然可以！北京朝阳区是二手房市场比较活跃的区域，覆盖望京、国贸、三里屯、劲松、双井等多个片区。请问您对户型、面积和预算有什么要求吗？

用户：两居室或三居室，预算 600-800 万
Agent：600-800 万在朝阳区可以找到不少不错的两居或三居二手房。朝阳区内价格分布差异较大：望京/国贸周边（核心区）：三居室可能需要 900 万+；劲松/双井/农展桥一带：两居 600-700 万可以找到；南部（十八里店/垡头一带）：价格相对低，两居 500-600 万左右。您对哪个片区有偏好吗？

用户：倾向于望京或者劲松，离 CBD 近
Agent：好的，朝阳区两个热门片区对比：望京：互联网公司集中（字节、网易等），配套成熟，地铁 14/15 号线；但距 CBD（国贸）约 8-10 公里，通勤需 30-40 分钟；劲松/双井：距国贸更近（5-7 公里），10 号线直通，配套相对成熟，价格比望京略低。您是在 CBD 附近工作吗？

用户：对，在国贸上班，所以通勤很重要
Agent：那劲松和双井会更合适：双井：国贸地铁 1 站（10 号线），老小区改造后环境不错，二手房单价约 8-11 万/平，两居室约 600-800 万正好符合预算；劲松：10 号线沿线，步行 10 分钟到劲松地铁站，老旧小区居多，近年部分有改造；另一个选项：朝阳门/东大桥一带，更接近 CBD，但价格可能略高。

用户：有没有什么具体的小区值得关注？
Agent：朝阳区双井/劲松一带二手房值得关注的小区：①劲松小区（劲松一区到九区）：北京老牌小区，配套完善，近地铁，价格约 8-10 万/平；②SOHO 现代城：双井地铁旁，商住混合，流通性好；③望京 SOHO 附近（望京偏南）：现代社区，配套好；④双井 8 号院：相对新的小区，价格稍高；⑤劲松旧城改造区域：部分有城市更新计划，未来潜力较好。

用户：我需要关注学区吗？
Agent：如果有孩子上学需求，朝阳区学区确实值得关注。朝阳区教育资源相对均衡，没有像西城区那样极端的「天价学区房」现象。劲松/双井片区对口学校：一般对口劲松第一小学、第五小学等，不属于顶级学区但教学质量中等；如果学区是重要考量，需要逐个小区核实对口学校（学区划分每年可能调整）。您有小孩上学需求吗？

用户：目前没有小孩，学区不是最重要的，以通勤和居住质量为主
Agent：那就完全可以聚焦通勤便利和居住质量。对您的需求，理想优先级：1）距国贸/双井地铁站步行 15 分钟以内；2）小区环境整洁，有物业管理；3）楼龄不要太老（建议 2000 年以后）；4）两居室面积在 80-100 平，三居室 100-130 平；5）价格 600-800 万以内。根据这些条件，双井附近的 SOHO 现代城、劲松中街附近的部分小区是值得重点查看的。

用户：我还要关注房龄吗？
Agent：房龄对二手房来说确实很重要：2000 年以前的老旧小区：价格低但设施老化，可能有电梯老化、管道生锈等问题，维修成本高；2000-2010 年：性价比区间，设施相对完善，价格中等；2010 年以后：设施新，但价格较高。对于预算 600-800 万的二居，朝阳双井一带 2005-2015 年房龄是比较合理的区间，可以兼顾价格和品质。

用户：买二手房需要注意什么？
Agent：北京二手房购房注意事项：①核查产权：确认是否有抵押、查封、共有产权等；②实地勘察：检查漏水、采光、通风、楼层（避开1层和顶层）；③核实学区：即便您暂时不需要，未来转手时有价值；④评估贷款资质：北京限购政策，名下有房或贷款记录会影响额度和利率；⑤注意税费：二手房交易涉及增值税、个人所得税、契税，总计可能达到房价 4-6%；⑥中介选择：建议选链家、我爱我家等大型正规中介。

用户：链家的 App 上怎么搜？
Agent：链家（贝壳）App 搜索北京二手房步骤：打开贝壳找房或链家 App → 选择「二手房」→ 选择「北京」→ 筛选区域「朝阳区」→ 设置户型（2 室/3 室）、价格范围（600-800 万）→ 还可以筛选地铁沿线（选 10 号线双井站附近）。页面上可以看到各小区的挂牌均价和成交记录，非常直观。

用户：好了，那帮我查一下

当前消息：那帮我查一下

期望行为：
- 虽然「帮我查一下」很模糊，但应该关联早期上下文
- 应该调用 beike 系列工具查二手房（北京朝阳区，两居/三居，600-800万）
- 不应反问「查什么」/ 调用错误的工具
判定标准：
- Pass：调用了 beike 工具查询二手房
- Fail：反问了查什么 / 调用了其他工具（如 search_flights）
评分方式：自动（检查工具类型）
Skill 配置：skill_enabled: false
跨梯度对比：在 4k、16k、32k 下测试工具选择准确率

C5-LT-03长对话后的复杂工具链

上下文长度：32k
信息注入位置：开头、中段、结尾分散注入

输入：

对话历史：

（以下为代表性上下文片段，实际测试时需扩展至目标长度）

用户：我最近开始跑步了，想在知乎上找一些马拉松训练的经验分享
Agent：知乎上有不少跑步和马拉松训练的内容，包括训练计划、比赛经验、装备推荐等。您目前跑步水平怎么样，是刚开始跑步的新手，还是已经有一定基础？

用户：刚开始跑步不久，之前基本不运动，现在一次能跑 3 公里
Agent：从 3 公里基础备战马拉松是完全可行的！全程马拉松（42.195 公里）通常需要 6-12 个月系统训练，半程马拉松（21 公里）可以用 3-6 个月备战。您有目标赛事吗？

用户：先考虑半马吧，全马太遥远了
Agent：半马（21 公里）是很合适的目标！从 3 公里到完成半马，建议循序渐进：第 1-2 个月：提高基础有氧能力，每周 3-4 次，单次 5-8 公里；第 3-4 个月：引入长跑（每周一次 12-15 公里）；第 5-6 个月：专项训练，长跑延伸至 17-19 公里；最后 2-3 周：减量恢复期。整个备赛期建议选 6 个月。

用户：每周要跑几次？
Agent：新手备战半马的建议训练频率：每周 4 次跑步（含 1 次长跑）+ 1-2 次力量训练。具体安排：周一：恢复跑（5-6 公里，慢速）；周三：配速跑（6-8 公里，稍快）；周五：间歇训练或节奏跑（4-6 公里）；周日：长跑（逐周递增）。注意：不要超过「10%递增法则」，每周跑量增加不超过上周的 10%，避免受伤。

用户：跑步装备需要买什么？
Agent：半马训练必备装备：①跑鞋（最重要）：去专业跑步店做足型分析，选适合你步态的鞋，预算 400-1200 元；②跑步袜：防水泡，比普通袜子厚，约 30-80 元/双；③运动心率带或智能手表：监控心率区间，Garmin/Coros 入门款约 1000-2000 元；④运动跑步裤/紧身裤：防止大腿内侧摩擦；⑤跑步包（长跑时携带水和补给）：建议 5-10 升越野包。

用户：心率区间是什么意思？
Agent：心率区间是科学训练的重要指标，按心率划分不同训练强度：Z1（50-60% 最大心率）：极轻松，恢复跑；Z2（60-70%）：有氧基础区，长跑主要区间，最重要；Z3（70-80%）：有氧阈值，节奏跑区间；Z4（80-90%）：乳酸阈值，间歇训练；Z5（90%+）：无氧，冲刺。新手建议大部分训练在 Z2 心率（最大心率 = 220 - 年龄），培养有氧基础是关键。

用户：我 30 岁，Z2 大概是多少？
Agent：您 30 岁的心率计算：最大心率估算：220 - 30 = 190 次/分；Z2 区间（60-70%）：114-133 次/分。实际训练时保持心率在 114-133 次/分之间，这个配速下应该能正常对话（不喘）。新手刚开始 Z2 跑可能觉得很慢，这是正常的，随着训练进展心率相同时配速会自然提升。

用户：知乎上有没有详细的训练计划可以参考？
Agent：知乎上确实有不少用户分享的马拉松训练计划，质量参差不齐。较好的搜索关键词：「半马训练计划 新手」「0 基础备战半程马拉松」「21 公里 6 个月」。通常高赞回答来自有比赛经历的跑者，内容更实用。我可以帮您搜索知乎上这方面的内容。

用户：特别是关于新手从零开始的训练计划，有没有体系化的？
Agent：是的，知乎上有一些体系化的新手训练计划分享，通常包含：详细的周训练量表（周几跑什么类型、多少公里）；心率控制建议；饮食和恢复建议；比赛前后注意事项。搜索「半马训练计划 新手 16 周」或「Garmin 训练计划知乎」通常能找到较完整的内容。如果找到了好的回答我可以帮您查看详情。

用户：如果训练过度受伤了怎么办？
Agent：跑步受伤预防和处理：常见跑步伤：髂胫束综合征（ITBS，膝外侧）、跑步膝（膝盖前侧疼痛）、跟腱炎、胫骨应力性损伤（小腿疼）。预防：严格遵守 10% 递增法则；增加力量训练（尤其臀部和核心）；充分热身和拉伸；受伤迹象：疼痛持续超过 3 天、跑后加重，必须停训休息。急性受伤处理：RICE 原则（Rest 休息、Ice 冰敷、Compression 加压、Elevation 抬高）。

用户：营养补充方面需要注意什么？
Agent：跑步训练的营养策略：日常饮食：碳水化合物是跑步的主要能量来源，不要过度节食；蛋白质有助于肌肉修复（每公斤体重 1.2-1.6 克/天）；跑前餐（1.5-2 小时前）：轻易消化的碳水（香蕉、燕麦粥），避免高脂肪和高纤维；跑中补给（长跑超过 90 分钟）：每 45-60 分钟补充能量胶或香蕉；跑后恢复：30 分钟内补充碳水+蛋白质（如牛奶+香蕉）。

用户：好了，现在帮我找高赞的回答，详细看看内容

当前消息：找高赞的回答，详细看看

期望行为：
- 聚合三轮关键信息：知乎平台（第 1 轮）+ 马拉松训练+新手计划（第 9/10 轮）+ 高赞回答+详细内容（最终轮）
- 执行工具链：
  1. zhihu_search(keyword: "马拉松训练新手计划")
  2. 选择高赞问答
  3. zhihu_get_article_detail
- 长上下文下的工具链参数聚合
判定标准：
- Pass：工具链正确执行，关键词聚合了马拉松和新手计划，选择了高赞内容
- Fail：遗漏了任何一个关键信息 / 工具链不完整
评分方式：自动（检查工具链）+ LLM-judge
Skill 配置：skill_enabled: false
跨梯度对比：在 4k、16k、32k 下测试

五、长上下文约束累积（LC: Long-context Constraints）

测试在长对话中约束是否被累积遗忘。

C5-LC-01早期+中段+结尾三层约束

上下文长度：32k
信息注入位置：三个位置分散注入约束

输入：

对话历史：

（以下为代表性上下文片段，实际测试时需扩展至目标长度）

用户：我想换一台新笔记本，帮我推荐几款
Agent：好的！在推荐之前，能告诉我您主要的使用场景是什么吗？比如办公文档、编程开发、视频剪辑、设计，还是游戏？

用户：主要是日常办公和偶尔用 PS 处理图片，不要苹果的，我用 Windows 习惯了
Agent：好的，排除 macOS，专注 Windows 笔记本。Office + Photoshop 的需求对配置要求中等偏上：处理器推荐 Intel Core i7 或 AMD Ryzen 7；内存建议 16GB（PS 对内存需求较大）；独立显卡对 PS 有帮助但不必须（核显可以应付）；屏幕色准对修图很重要，推荐 sRGB 100% 覆盖以上。请问大概预算是多少？

用户：屏幕色准很重要，现在的笔记本屏幕哪些好？
Agent：高色准笔记本屏幕推荐：①华硕 ProArt Studiobook 系列：色准经过专业校准，DCI-P3 覆盖率高；②联想 ThinkPad X1 Extreme：屏幕素质出色，商务兼创作；③微星 Creator 系列：主打创作者，屏幕色彩出色；④戴尔 XPS 系列：OLED 版本色彩极佳。一般判断标准：sRGB 100% 以上是基本要求，DCI-P3 90%+ 是优秀水平，出厂校准（Delta E < 2）更好。

用户：我主要用 Adobe Photoshop，需要独立显卡吗？
Agent：Photoshop 对显卡的依赖程度属于中等，主要用到 GPU 加速的功能有：液化工具、神经滤镜（AI 功能）、3D 渲染。核显（如 Intel Iris Xe）可以应对日常 PS 操作，但如果您经常处理大型 RAW 文件（超 50MB）或批量处理，独立显卡会明显提升速度。入门级独显（如 NVIDIA RTX 3050）对 PS 提升明显。

用户：我平时也用 Lightroom 批量处理照片
Agent：既用 Photoshop 又用 Lightroom 的话，推荐配置升级一下：RAM 至少 16GB，最好 32GB（Lightroom 导入大批 RAW 文件时非常吃内存）；SSD 存储速度很重要（NVMe PCIe 4.0 更快）；独立显卡建议配置（NVIDIA RTX 3050 或以上），Lightroom 的 GPU 加速效果明显；屏幕：高色域高亮度，户外修图需要 400-500 nit 亮度。

用户：我经常去咖啡馆工作，屏幕亮度有要求
Agent：户外/咖啡馆使用建议屏幕亮度：基础要求：400 nit 以上（室内强光环境够用）；推荐：500-600 nit（阳光直射下也能看清）；顶级：1000 nit+（部分 OLED 屏幕，HDR 峰值亮度）。同时，高亮度屏幕配合防眩光涂层效果更好。目前华为 MateBook X Pro、戴尔 XPS 13/15 的屏幕亮度在 Windows 本中属于前列。

用户：处理器选 Intel 还是 AMD？
Agent：对您的使用场景（PS + Lightroom + 日常办公），两者都可以胜任：Intel Core Ultra（最新一代）：单核性能略强，Adobe 软件历来对 Intel 优化更好，ThinkPad/华为/戴尔 XPS 系列多用 Intel；AMD Ryzen 7000 系列：多核性能更强，Lightroom 批处理（多核任务）有优势，部分型号性价比高。如果预算有限，AMD 同价位往往能买到更高规格；如果 Adobe 兼容性和生态是首要考量，Intel 更稳妥。

用户：内存买多少？
Agent：对您的使用场景（PS + Lightroom + 日常办公）：最低要求：16GB（可以运行，但 Lightroom 大量导入时可能感到卡顿）；推荐：32GB（明显改善 Lightroom 批处理流畅度，PS 多图层操作更顺畅）；过剩：64GB（除非您同时用 Premiere 或 DaVinci 剪辑视频，否则用不到）。如果预算允许，建议直接买 32GB，笔记本内存通常焊死无法后期升级。

用户：预算大概 8000 元以内
Agent：8000 元以内，满足 PS + Lightroom 使用场景，去除苹果后，推荐关注：华硕 ProArt Studiobook 16：创作者定向，屏幕色准出色，约 6500-8500 元；戴尔 XPS 15（基础配置）：屏幕顶级，约 7000-9000 元（部分配置略超）；联想 ThinkBook 16p：性能扎实，屏幕不错，约 6000-7500 元；微星 Creator M16：创作本定位，屏幕色准好，约 6000-8000 元。注意：8000 元预算在这个使用场景下属于中高端，选择空间较大。

用户：固态硬盘需要多大？
Agent：对于 PS + Lightroom 使用，存储建议：系统+软件+工作文件：建议 1TB SSD（最低 512GB 很快会不够）；RAW 照片归档：建议外接移动硬盘（4TB 约 600-800 元）用于历史素材存储；传输速度：建议 NVMe PCIe 4.0（比 PCIe 3.0 快 2 倍），Lightroom 导入和导出速度明显提升。总结：笔记本内置 1TB SSD + 外置移动硬盘，是修图用户的标配。

用户：那接口怎么考虑，我有很多外设
Agent：创作者笔记本接口建议：必须有：USB-A × 2 以上（连鼠标、数位板、读卡器等）；Thunderbolt 4 / USB4 × 2（连接外接显示器、高速存储）；HDMI 2.0+（连接外接屏幕）；SD 卡槽（相机用户必备，很多现代本已删除，购买前确认）；3.5mm 耳机口。注意：戴尔 XPS 系列和微软 Surface 系列的接口相对少，可能需要外接扩展坞（USB-C Hub）。

用户：还有一点，因为要带着到处跑，重量要轻薄，1.5kg 以内
Agent：这是一个关键约束，1.5kg 以内确实对创作本有一定挑战，因为高性能+大屏幕通常意味着更重。符合 1.5kg 以内且创作友好的选项：华为 MateBook X Pro 2024：约 1.26kg，高色域屏，推荐；华硕 ZenBook 14 OLED：约 1.39kg，OLED 屏幕色彩出色，满足要求；联想 ThinkPad X1 Carbon Gen 11：约 1.12kg（最轻之一），屏幕素质不错；需要排除：部分性能较强的创作本（如 ProArt Studiobook）重量通常在 2kg+，不符合您的要求。我后续推荐时会严格筛选 1.5kg 以内的型号。

用户：我还想要电池续航好的
Agent：1.5kg 以内且续航好的轻薄创作本，这是要两全其美，但目前有一些不错的选项：华为 MateBook X Pro 2024：约 1.26kg，续航约 8-10 小时（实测），内置 70Wh 大电池；华硕 ZenBook 14 OLED：约 1.39kg，续航约 9-11 小时（实测），性价比高；注意：独显机型通常续航较短（约 5-7 小时），核显方案续航更长。建议在试机时用 PCMark 10 Battery 测试实际续航。

用户：好了，信息够了，那推荐吧

当前消息：那推荐吧

期望行为：
- 需要同时满足三个约束：非苹果（第 2 轮）+ ≤ 8000 元（第 14 轮）+ ≤ 1.5kg（第 25 轮）
- 三个约束分散在不同位置，在长上下文下容易遗漏
判定标准：
- Pass：推荐的笔记本同时满足三个约束
- Fail：违反了任何一个约束
评分方式：自动（约束验证）+ LLM-judge
Skill 配置：skill_enabled: false
跨梯度对比：在 4k（约束不分散）、16k、32k（约束分散）下测试

C5-LC-02约束被中途推翻的识别

上下文长度：32k
信息注入位置：早期约束 + 中段推翻

输入：

对话历史：

（以下为代表性上下文片段，实际测试时需扩展至目标长度）

用户：帮我推荐几款降噪耳机，主要用于通勤地铁和咖啡馆专注工作
Agent：降噪耳机用于通勤和工作是非常合适的使用场景。目前市面上降噪效果最好的几款：索尼 WH-1000XM5（顶级降噪）、Bose QuietComfort 45（舒适度出色）、Apple AirPods Max（苹果生态）、森海塞尔 ACCENTUM Wireless（音质标杆）。您大概的预算是多少？

用户：预算在 2000 元以内
Agent：2000 元以内的优质降噪耳机选择：索尼 WH-1000XM5（约 2399 元，略超）；Bose QuietComfort 45（约 1799 元，在预算内）；Apple AirPods Pro 2（约 1899 元，入耳式）；索尼 WH-1000XM4（约 1699 元，上代但性价比高）。如果对索尼 XM5 感兴趣，京东偶尔有活动可能降到 2000 元左右。

用户：不要推荐索尼，太贵了，算了就看 Bose 和 Apple 吧
Agent：好的，聚焦 Bose QuietComfort 45 和 Apple AirPods Pro 2。两款对比：降噪：两款都很强，Bose QC45 在隔离低频噪音（地铁轰鸣）方面稍好；舒适度：Bose QC45（头戴式）长时间佩戴更舒适，AirPods Pro 2（入耳式）较轻便；音质：AirPods Pro 2 整体音质较好；价格：Bose QC45 约 1799 元，AirPods Pro 2 约 1899 元；手机生态：AirPods Pro 2 对 iPhone 用户体验更好。您用什么手机？

用户：iPhone 15，那 AirPods Pro 2 是不是更合适？
Agent：对 iPhone 15 用户来说，AirPods Pro 2 确实有独特优势：无缝配对（开盖即连）；空间音频（配合 Apple Music / 视频效果绝佳）；Siri 深度集成；主动降噪 + 自适应透明模式（室内外自动切换）。Bose QC45 在跨设备（iPhone + Mac + iPad）切换体验上不如 AirPods，但在降噪纯粹性上更强。如果您主要是 Apple 设备生态，AirPods Pro 2 胜出。

用户：续航差异大吗？
Agent：续航对比：AirPods Pro 2：耳机本体约 6 小时（开降噪），充电盒总续航约 30 小时；Bose QC45：单次续航约 24 小时（开降噪），无充电盒。Bose 的单次续航远超 AirPods，适合长时间不充电的场景（如出差）；AirPods 依赖充电盒，需要随时充盒子。

用户：Bose 有没有更新款？
Agent：Bose 2023-2024 年的更新款是 Bose QuietComfort Ultra Headphones（约 2799 元），相比 QC45 改进：降噪效果进一步提升；新增空间音频（Immersive Audio 功能）；佩戴更舒适；但价格超出您的预算（2000 元以内）。如果预算稍宽，QC Ultra 是值得考虑的。

用户：如果预算放宽到 3000 元，有什么更好的选择？
Agent：3000 元预算的顶级降噪耳机：①索尼 WH-1000XM5（约 2399 元）：降噪业界标杆，连续 5 代积累，非常成熟；②Bose QuietComfort Ultra（约 2799 元）：舒适度顶级，空间音频出色；③Apple AirPods Max（约 4399 元，超预算）：苹果旗舰头戴式。3000 元预算内，索尼 XM5 和 Bose QC Ultra 是最值得考虑的两款。

用户：算了，索尼可以考虑，如果真的好的话
Agent：好的！索尼 WH-1000XM5 确实是目前市面上降噪综合表现最强的耳机之一。主要优点：降噪：V1 芯片 + QN2 处理器的组合，降噪性能行业顶尖；音质：LDAC 高质量蓝牙编码，比 AptX 和 AAC 音质更好；功能：多设备连接（最多 2 台设备）、自动暂停（摘下耳机自动暂停音乐）、佩戴检测；外观：折叠设计，商务感强；价格：约 2399 元，偶尔活动可以压到 2100-2200 元。现在您的预算放宽到 3000 元的话，索尼 XM5 完全可以考虑。

用户：那和 Bose QC Ultra 哪个好？
Agent：索尼 WH-1000XM5 vs Bose QC Ultra Headphones 深度对比：降噪效果：索尼 XM5 稍强（尤其低频噪音，如地铁）；音质：索尼支持 LDAC（Hi-Res），音质更好；Bose 在整体调音上更「悦耳」；空间音频：Bose QC Ultra 的沉浸音效（Immersive Audio）更有立体感；舒适度：Bose 舒适度略胜，长时间佩戴压迫感更小；价格：索尼约 2399，Bose 约 2799；总结：偏向音质和降噪→索尼；偏向舒适度和空间音频→Bose。

用户：我在地铁噪音很大的环境用，降噪优先
Agent：那索尼 WH-1000XM5 更适合您！地铁环境的主要噪音是低频轰鸣声（100-300Hz），索尼 XM5 在这个频段的降噪表现被大量评测认为优于 Bose。索尼还有「环境声模式」可以快速切换，上下车时不用摘耳机。结论：地铁通勤 + 降噪优先 = 索尼 WH-1000XM5 是首选。

用户：好了，可以推荐了

当前消息：那推荐吧

期望行为：
- 识别出第 15 轮推翻了第 4 轮的约束
- 推荐时可以包含索尼（因为约束已取消，用户明确说「索尼可以考虑」）
- 不应仍然遵守第 4 轮的旧约束
判定标准：
- Pass：推荐中包含了索尼耳机
- Fail：仍然排除了索尼（未识别约束被推翻）
评分方式：LLM-judge
Skill 配置：skill_enabled: false
跨梯度对比：在 4k、16k、32k 下测试约束更新的识别能力

六、长上下文下的 Skill 触发（LS: Long-context Skill）

测试长对话后 Skill 触发是否仍然准确。

C5-LS-01长对话后的 Skill 切换

上下文长度：32k
信息注入位置：早期是 skill A，后期切换到 skill B

输入：

对话历史：

（以下为代表性上下文片段，实际测试时需扩展至目标长度）

用户：帮我查一下下个月去京都的机票，从上海出发
Agent：好的，正在查询上海飞京都（大阪关西机场 KIX）的机票。请问大概什么时间段出发，几号？

用户：11 月 20 号出发，26 号回
Agent：查询到 11 月 20 日上海（PVG/SHA）→ 大阪关西（KIX）的航班如下：
  - 中国国际航空 CA837：08:00 出发，11:30 到达，票价约 2350 元
  - 日本航空 JL879：10:15 出发，13:45 到达，票价约 2680 元
  - 东方航空 MU527：14:30 出发，18:05 到达，票价约 1980 元
  返程 11 月 26 日大阪关西（KIX）→ 上海：
  - 中国国际航空 CA838：13:00 出发，16:30 到达，票价约 2100 元
  - 东方航空 MU528：19:00 出发，22:30 到达，票价约 1850 元

用户：东方航空的去程和回程加起来多少钱？
Agent：东方航空往返总价：去程 MU527（14:30 出发）：约 1980 元 + 回程 MU528（19:00 出发）：约 1850 元 = 合计约 3830 元（不含行李额，经济舱基础价）。如果需要托运行李，东方航空经济舱通常需要额外购买行李额（约 100-300 元/件）。

用户：有没有直飞的更便宜选项？
Agent：除了已查询的直飞航班，还可以关注：春秋航空（廉价航空）：上海虹桥或浦东飞大阪，有时价格在 800-1500 元，但行李和座位选择需要额外付费；吉祥航空：价格中等，服务比春秋好；建议在出发前 2-3 个月购票，价格更低。目前 11 月旺季（赏枫季），机票价格偏高，提前购买可以节省 30-50%。

用户：那就选东方航空往返，怎么买？
Agent：东方航空购票方式：①官方 App「东方航空」：注册账号后购票，可以直接绑定支付宝/微信支付；②携程/飞猪：聚合平台，可以对比不同渠道价格，有时有优惠券；③机场柜台：不推荐，价格没有优势。建议通过官方 App 或携程购买，确保正规渠道。购票时注意：选择是否需要托运行李额，是否需要选座（部分经济舱选座需额外付费）。

用户：退改签政策是什么？
Agent：东方航空经济舱退改签政策（一般规则，以购票时实际显示为准）：退票：起飞前 24 小时以上：手续费约票价 5-20%；起飞前 2-24 小时：手续费约 30-40%；起飞前 2 小时内：不可退票或手续费极高；改签：通常可以改期，手续费约 100-300 元/人。建议：如果行程有不确定性，可以选购「机票意外险」或直接选可灵活改签的票（通常贵 200-500 元但改签免费）。

用户：行李限额是多少？
Agent：东方航空经济舱行李规定：免费托运：经济舱通常无免费托运（需额外购买），或视购买舱位而定（部分促销票含 1 件 23kg）；随身行李：1 件不超过 7kg，尺寸不超过 55×40×20cm；额外托运行李购买：1 件 23kg 约 100-200 元（提前购比机场购便宜）。建议：前往日本一般行李不会太多，如果只带随身可以节省托运费。京都伴手礼回程时可以用日本邮局 EMS 邮寄回国。

用户：好的，机票订好了。我 11 月 20 号下午 14:30 起飞，到达大阪 18:05，然后一直住到 26 号早上离开
Agent：好的，记录您的行程：到达：11 月 20 日 18:05 抵达大阪关西机场；离开：11 月 26 日（回程 MU528 是 19:00 出发，所以可以在京都待到 26 日下午再前往大阪）。从关西机场到京都：可以乘坐 JR 特急「はるか（Haruka）」，约 75 分钟，票价约 3170 日元；或者乘「利木津巴士」，约 90 分钟，票价约 2600 日元。您 11 月 20 日到达时已是晚上约 20 点，建议直接前往京都入住，当晚休息，第二天开始游览。

用户：住宿已经定在京都四条附近
Agent：四条是京都市中心非常好的住宿位置！步行可达：八坂神社、祇园花见小路、锦市场；地铁四条站、阪急京都河原町站均在附近，交通非常方便；到京都站约 15 分钟（地铁乌丸线）；到清水寺约步行 25 分钟或公交 10 分钟。这个位置非常适合您安排的所有景点。

用户：好了，机票确认了，你帮我把每天的行程排一下，我想去清水寺、金阁寺、岚山、伏见稻荷

当前消息：好的机票定了，那帮我排一下每天的行程吧，去清水寺、金阁寺、岚山、伏见稻荷

期望行为：
- 识别出从 flight-selection 切换到 itinerary-planning
- 新 skill 应该利用前一个 skill 的输出（11 月 20 日下午抵达，26 日离开，住四条）
- 不应继续用 flight-selection 的逻辑处理行程规划
- 应调用 Google Maps 工具查各景点之间的通勤时间
判定标准：
- Pass：正确切换到 itinerary-planning，调用了 Google Maps 工具查通勤时间
- Fail：未切换 skill，用机票搜索的逻辑处理行程 / 未利用航班时间信息
评分方式：LLM-judge
Skill 配置：skill_enabled: false
跨梯度对比：在 4k、16k、32k 下测试 skill 切换准确率

C5-LS-02长对话后 Skill 的反模式遵守

上下文长度：32k
信息注入位置：无特殊注入

输入：

对话历史：

（以下为代表性上下文片段，实际测试时需扩展至目标长度）

用户：帮我推荐几款适合旅行的背包
Agent：旅行背包推荐（根据旅行时长）：短途周末游（2-3天）：Osprey Daylite Plus 20L（约 500 元），轻便耐用；一周旅行：Gregory Zulu 35L（约 900 元），背负舒适；长途旅行：Osprey Farpoint 40L（约 1200 元），可随身上机。

用户：那头枕推荐哪个？
Agent：旅行头枕推荐：①Trtl 颈枕：有颈部支撑，适合侧睡，比传统 U 型枕轻巧；②Cabeau Evolution S3：可调节头部固定，支撑感强；③充气款（MUJI 无印良品）：轻便可压缩，价格约 100 元。

用户：充电宝推荐哪款？
Agent：旅行充电宝推荐：①Anker 737 PowerCore 24000（140W）：大容量高功率，一块可以给手机和笔记本都充；②ZENDURE SuperMini 10000（45W）：超小超轻，适合轻装旅行；③小米 33W 充电宝 10000mAh：性价比极高，约 100 元。注意：航空限制，不超过 100Wh 免报备，100-160Wh 需申报。

用户：旅行时有什么必备 App 推荐？
Agent：旅行必备 App：导航：Google Maps（海外必备）、高德地图（国内）；交通：Trip.com（订票）、Flightradar24（追踪航班实时位置）；住宿：Booking.com、Airbnb；翻译：DeepL、Google 翻译（离线语音）；货币：XE Currency（汇率实时）；当地生活：泰国 Grab（网约车）、日本 Suica（IC交通卡）。

用户：旅行医疗保险怎么买？
Agent：旅行医疗保险推荐购买渠道：国内平台：支付宝/微信保险、平安旅行险、众安保险；重点关注保障：海外紧急医疗（至少100万RMB）、紧急医疗转运、行程延误补偿、随身物品丢失。价格参考：7天东南亚旅行险约50-100元。

用户：护照快过期了，怎么补办？
Agent：护照补办流程（中国大陆公民）：携带旧护照、户口本、身份证前往当地出入境管理大厅；填写申请表，拍照（可现场拍）；缴费约 120 元；普通件约 15 个工作日取件，急件 5-7 个工作日（加急费 80 元）。注意：护照有效期少于 6 个月时许多国家不允许入境，建议提前续办。

用户：签证照片有什么要求？
Agent：中国护照/签证照片通用要求：尺寸：33×48mm；背景：白色；正脸、无阴影、无眼镜；嘴巴自然闭合；近 6 个月内拍摄；数字照片要求：300dpi 以上，JPEG 格式，文件大小通常在 50KB-500KB 之间。可以在照相馆拍，也可以用证件照 App 自拍（如美颜证件照、ID Photo 等）。

用户：泰国落地签需要什么材料？
Agent：泰国落地签申请材料（Visa on Arrival）：护照原件（有效期 6 个月以上）；护照照片（4×6cm，白底，近期）；填写落地签申请表（在机场领取）；往返机票预订单；酒店预订单或在泰联系地址；落地签费用：2000 泰铢（约 400 人民币），到机场缴纳；注意：中国公民自 2023 年起已免签，无需落地签，可直接入境。

用户：泰国当地 SIM 卡怎么买？
Agent：泰国 SIM 卡建议：①机场购买：抵达后在机场即可购买（AIS、DTAC、TrueMove H 三大运营商都有柜台）；②推荐：AIS SIM2Fly 或 TrueMove H Tourist SIM，7 天无限流量约 200-350 泰铢（约 40-70 人民币）；③也可提前在国内淘宝购买境外卡（方便但可能稍贵）；④备选：开通国内运营商的境外套餐（中国移动/联通/电信），费用约 5-10 元/天，方便但流量有限。

用户：我手机是 iPhone，泰国 SIM 卡可以用吗？
Agent：iPhone 全系支持 SIM 卡，可以正常使用泰国本地 SIM。注意：iPhone 15 系列以上仅支持 eSIM 和 Nano SIM；大部分泰国 SIM 卡是 Nano SIM，与 iPhone 15 兼容；如果您的 iPhone 是美版（部分美版仅 eSIM），可能需要确认是否支持实体 SIM；另外，iPhone 15 Pro 的 SIM 槽是物理 Nano SIM，没有问题。

用户：泰铢怎么兑换？
Agent：泰铢兑换策略：出发前：可以在国内大型银行（工行/招行）兑换少量现金应急，但汇率通常不如当地；到泰国后：机场换汇台汇率较差，建议只换少量应急；市区专业换汇点：曼谷素坤逸路的 Super Rich（蓝色/绿色）汇率非常好，是当地最推荐的换汇点；银行卡取款：中国银联卡可以在当地 ATM（尤其 Bangkok Bank 和 Kasikorn Bank）取款，手续费约 180-220 泰铢/笔。

用户：曼谷天气怎么样？
Agent：曼谷气候属热带季风气候：旱季（11 月-4 月）：气温 25-35℃，湿度低，最佳旅游季节；雨季（5 月-10 月）：频繁阵雨，气温 28-35℃，湿度高。建议安排时间：旱季（11-4月）是游览曼谷的最佳时期。即使是雨季，通常只是下午的阵雨，上午基本晴天。

用户：好了，帮我排一下曼谷 3 天的行程，去大皇宫、卧佛寺、考山路，我 3 月份去

当前消息：帮我排一下曼谷 3 天的行程，去大皇宫、卧佛寺、考山路

期望行为：
- 触发 itinerary-planning skill
- 即使在长上下文下，仍然应该遵守 skill 的反模式：❌ 用训练知识估算通勤时间
- 必须调用 Google Maps 工具查各景点之间的实际通勤时间
- 不应因为「对话已经很长了」就简化流程
判定标准：
- Pass：调用了 Google Maps 工具查通勤时间，输出有数据来源标注
- Fail：用训练知识估算了通勤时间，未调用地图工具
评分方式：自动（检查是否调用地图工具）+ LLM-judge
Skill 配置：skill_enabled: false
跨梯度对比：在 4k、16k、32k 下测试 skill 遵守程度

评测执行说明

总用例数

维度	代号	用例数
早期信息利用率	EI	3
中段信息利用率	MI	3
长上下文意图理解	LI	3
长上下文工具调用	LT	2
长上下文约束累积	LC	2
长上下文下的 Skill 触发	LS	2
合计		15

注：原计划 18 条，实际产出 15 条。每条 case 需要在 3 个长度梯度（4k/16k/32k）下各跑一次，实际评测次数 = 15 × 3 = 45 次。

难度分布

难度	数量	占比
简单	0	0%
中等	5	33%
困难	10	67%

长上下文测试本身就有难度，无简单 case。

对话轮次分布

轮次范围	数量	说明
25-30 轮（32k）	15	全部 case 都有 32k 版本
15-20 轮（16k）	15	全部 case 都有 16k 版本
5-8 轮（4k）	15	全部 case 都有 4k 基线版本

每个 case 都是多轮，必须在三个梯度下各跑一次。

上下文构造方式

类型	数量	说明
人工构造	15	100%，精确控制信息注入位置和 filler 内容

C5 必须使用人工构造，因为需要精确控制关键信息在上下文中的位置（开头/中段/结尾）。

Filler 内容设计原则

为了将上下文从 4k 撑到 32k，需要在关键信息之间插入 filler 对话：

要求：

看起来自然：不是随机文本，而是合理的对话
场景一致：如果是旅行场景，filler 也应该是旅行相关的闲聊
不干扰测试：filler 不包含与测试相关的关键信息
长度可控：每轮 filler 约 100-150 tokens，便于精确控制总长度

Filler 示例：

用户：顺便问一下，京都的樱花季是几月？
Agent：京都的樱花季通常在 3 月底到 4 月初，每年略有差异...
用户：那枫叶季呢？
Agent：枫叶季是 11 月中旬到 12 月初，岚山是最佳观赏地...
（这段对话撑长度，但不影响后续的机票查询任务）

梯度测试执行方式

每个 case 需要生成 3 个版本：

版本	上下文长度	Filler 量	信息注入位置调整
Short	4k	最少	开头 = 第 1-2 轮，中段 = 第 4-5 轮，结尾 = 第 7-8 轮
Medium	16k	中等	开头 = 第 1-3 轮，中段 = 第 10-12 轮，结尾 = 第 18-20 轮
Long	32k	最多	开头 = 第 1-3 轮，中段 = 第 14-16 轮，结尾 = 第 27-28 轮

对比指标：

short_accuracy：4k 上下文的准确率（基线）
medium_accuracy：16k 的准确率
long_accuracy：32k 的准确率
degradation_rate：(short - long) / short，衰减率（越低越好）

Lost-in-the-middle 专项测试

所有标注「中段注入」的 case（6 条），重点对比：

相同信息在开头注入 vs 中段注入 vs 结尾注入，召回率差异
预期：开头和结尾召回率高，中段最低

示例对比：

Case: C5-MI-01（不吃辣的偏好）

版本 A（开头注入，第 2 轮）：召回率 95%
版本 B（中段注入，第 14 轮）：召回率 70%  ← lost-in-the-middle
版本 C（结尾注入，第 25 轮）：召回率 92%

结论：中段信息召回率下降 25%，存在明显的 lost-in-the-middle 问题

评分方式分布

方式	数量	说明
LLM-judge	13	需要评估信息召回和利用情况
自动	1	工具选择检查
自动 + LLM-judge	1	工具参数检查 + 语义判断

后续迭代方向

补充超长上下文测试（64k, 128k）
补充多个关键信息在中段密集注入的 case（测试中段信息容量）
补充信息更新和覆盖的 case（早期说 A，中段改成 B，结尾用哪个）
从真实用户的长对话 trace 中提取 case
补充长上下文下的多 skill 切换测试
测试不同上下文压缩策略对性能的影响

附：Filler 对话库示例

为方便构造 32k 上下文，提供一些可复用的 filler 对话模板：

旅行场景 filler

用户：这个城市治安怎么样？
Agent：总体来说京都的治安非常好，是日本治安最好的城市之一。游客区域有大量警察巡逻，但仍需注意随身保管贵重物品，尤其是人流密集的热门景区。
用户：那当地货币是什么？
Agent：日本使用日元（JPY）。建议在当地便利店（7-Eleven、Lawson）ATM取款，接受中国银联卡，手续费约每笔110-220日元。市区有专业换汇点，汇率优于机场。
用户：签证好办吗？
Agent：中国公民前往日本需要申请签证（暂无免签政策）。建议出发前4-6周申请，旺季（樱花季、赏枫季）申请量大，处理时间可能延长至10-15个工作日。

购物场景 filler

用户：这个品牌的售后服务怎么样？
Agent：索尼的售后政策是全国联保1年，官网注册可延长至2年。在一线城市有直营售后中心，其他地区可以走快递寄修，通常5-7个工作日处理完毕。
用户：有没有什么优惠活动？
Agent：目前京东618预热活动已经开始，索尼官方旗舰店有满减优惠，部分型号降价约200-400元。另外双十一是全年最低价时机，如果时间允许可以等一等。
用户：支持分期吗？
Agent：支持，京东白条、花呗均可3/6/12期分期，12期免息需要在特定活动期间购买，普通情况每期约有0.6%的手续费。

美食场景 filler

用户：这家餐厅需要预约吗？
Agent：建议提前预约，尤其是周末和法定节假日。可以通过餐厅官方微信公众号或大众点评在线预约，热门餐厅建议提前3-7天预约。
用户：人均消费多少？
Agent：根据大众点评近期评价，人均大约180-220元，包含一道主菜、两道小菜和饮料。如果点招牌菜和酒水，人均可能到250-300元。
用户：有什么招牌菜？
Agent：招牌菜包括：干煸四季豆（经典川味、微辣）、夫妻肺片（凉拌，可选辣度）、水煮鱼（红汤版，辛辣）、口水鸡（冷盘，配有特制酱汁）。建议提前询问服务员哪些菜可以调整辣度。

使用原则：

每段 filler 100-150 tokens
内容与主任务场景相关但不包含关键约束
每 3-5 轮 filler 后检查总 token 数，确保精确达到目标长度
Filler 内容应该多样化，避免重复模式被 agent 识别为「测试标记」