C5 · 长上下文性能 · 测试用例
对应框架维度:C5 长上下文性能 状态:初稿 最后更新:2026-04-07
维度说明
C5 测试随着对话轮次增加、上下文变长(4k → 16k → 32k tokens),agent 对不同位置信息的利用能力是否出现显著衰减。
核心测试问题:
- Lost-in-the-middle:上下文中段的信息是否被遗忘(已知的模型通病)
- 早期信息衰减:对话开头的信息在 25 轮后是否还能被利用
- 长上下文下的基础能力:意图理解、工具调用是否在长上下文下退化
测试方法论
上下文长度梯度
| 梯度 | Token 数 | 约等于轮次 | 说明 |
|---|---|---|---|
| 短 | 4k | 5-8 轮 | 基线(不应有衰减) |
| 中 | 16k | 15-20 轮 | 常规使用场景 |
| 长 | 32k | 25-30 轮 | 压力测试 |
每个 case 在三个梯度下都跑一遍,绘制性能曲线。
信息注入位置
| 位置 | Token 位置 | 轮次位置 | 说明 |
|---|---|---|---|
| 开头 | 0-2k | 第 1-3 轮 | 测试早期信息保留 |
| 中段 | 14k-18k(32k 上下文) | 第 12-15 轮 | Lost-in-the-middle 的典型位置 |
| 结尾 | 30k-32k | 第 25-28 轮 | 最近信息,应该记得 |
测试方法:在不同位置注入关键信息(如用户偏好、约束条件),在后续轮次测试是否被利用。
Filler 内容设计原则
为了将上下文撑到 32k,需要在关键信息之间插入 filler 对话,但 filler 必须:
- 看起来自然:不是纯随机文本,而是合理的对话
- 不干扰测试:filler 内容不包含与测试相关的关键信息
- 保持场景一致:如果是旅行规划场景,filler 也应该是旅行相关的闲聊
Filler 示例:
用户:顺便说一下,我之前去过京都,很喜欢那里的寺庙
Agent:是的,京都的古建筑确实很有特色...
用户:对了,听说京都的枫叶季很美
Agent:是的,每年 11 月是最佳观赏期...
(这段对话撑长度,但不包含后续任务需要的关键信息)
用例规范
| 字段 | 说明 |
|---|---|
| ID | 格式:C5-{维度缩写}-{序号} |
| 维度 | 所属评测子维度 |
| 上下文长度 | 4k / 16k / 32k(每个 case 跑三次) |
| 信息注入位置 | 开头 / 中段 / 结尾 |
| 输入 | 用户消息 + 长对话历史 |
| 期望行为 | agent 应该如何利用历史信息 |
| 判定标准 | Pass / Fail 条件 |
| 评分方式 | 自动 / LLM-judge |
| Skill 配置 | 必须开启 |
一、早期信息利用率(EI: Early Information)
上下文很长时,对话早期注入的关键信息是否仍被正确利用。
C5-EI-01 · 早期偏好信息召回
- 上下文长度:32k(约 28 轮对话)
- 信息注入位置:开头(第 2 轮)
- 输入:
- 对话历史:
(以下为代表性上下文片段,实际测试时需扩展至目标长度) 用户:我想规划一次旅行,想趁五一出去玩 Agent:好的!五一假期一般有 5 天,您大概想去哪一类目的地?比如自然风景、历史文化、海岛度假,还是城市体验? 用户:我不吃海鲜,对海鲜过敏,这个要注意一下 Agent:好的,我已记下这个重要信息——您对海鲜过敏,在推荐餐厅和美食时会特别注意避开海鲜类菜肴。请问您对目的地有什么偏好? 用户:想去日本,大概去哪个城市比较好? Agent:日本五一期间正值黄金周,会比较热闹。如果您喜欢历史文化,京都是首选;如果喜欢现代都市,东京和大阪更合适;如果想轻松一些,奈良或镰仓也不错。您更倾向哪种风格? 用户:京都听起来不错,大概需要几天? Agent:京都主要景点建议安排 3-4 天。主要景区有金阁寺、清水寺、岚山竹林、伏见稻荷大社、哲学之道等,单日可以安排 3-4 个景点。五一期间建议提前网上预约热门景点门票。 用户:行程大概怎么安排比较好? Agent:五一京都 4 天推荐安排: Day 1:抵达京都,傍晚游祇园花见小路,感受京都夜晚氛围 Day 2:清水寺(上午)→ 三年坂二年坂(午后购物)→ 八坂神社(傍晚) Day 3:金阁寺(上午)→ 岚山竹林+天龙寺(下午)→ 嵐山沿河散步 Day 4:伏见稻荷大社(上午,建议早起避开人潮)→ 奈良一日游(下午,看小鹿) 用户:住哪里比较方便? Agent:推荐住在京都站附近或四条河原町一带,交通非常便利。京都站附近:交通枢纽,地铁和公交都很方便,价格相对合理;四条河原町:购物、餐饮最集中,步行可达祇园,但价格稍高;岚山周边:环境清幽,适合体验日式旅馆,但去其他景区需要换乘。您的预算大概是多少? 用户:住宿预算每晚 500 人民币左右可以吗? Agent:500 元人民币约合 9000-10000 日元,在京都可以找到条件不错的商务酒店或民宿。推荐几个类型:连锁商务酒店(如东横INN、Dormy Inn),性价比高,位置好;民宿(Airbnb或日本民宿平台),有些有厨房,可以自己做早餐;胶囊酒店高级版(如Nine Hours),干净现代,价格更低。 用户:五一去京都人多吗? Agent:是的,五一正值日本黄金周(Golden Week),是一年中最热闹的时期。清水寺、金阁寺等热门景点人流量会非常大,建议:①早上 8 点前到清水寺,避开人潮;②伏见稻荷大社建议工作日清晨前往;③提前 1-2 个月预定酒店,黄金周期间价格会上涨 20-50%。 用户:需要提前办签证吗? Agent:中国大陆公民前往日本需要提前申请签证。办理时间通常需要 5-10 个工作日,建议提前 3-4 周申请。所需材料包括:护照原件、签证申请表、近期照片、往返机票预订单、酒店预订单、银行存款证明(建议 3 万元以上)、在职证明或营业执照。五一前是签证申请高峰期,建议早点着手。 用户:机票大概多少钱? Agent:上海出发飞京都(大阪关西机场),五一期间价格通常在 2000-4000 元左右,具体取决于购票时间。建议提前 2 个月购票,通过携程、飞猪或航空公司官网对比价格。备选:飞大阪或名古屋也可以,到达后乘新干线前往京都,有时总费用更低。 用户:当地交通怎么解决? Agent:京都市内交通:地铁 + 公交是主要方式,建议购买「京都市巴士一日券」(700日元),公交覆盖大部分景点。JR Pass 如果您要去大阪、奈良,购买关西地区 JR Pass 比较划算,3 天约 5000 日元。步行+自行车:部分区域非常适合骑行,可以租共享单车探索。 用户:有什么要注意的文化礼仪吗? Agent:在日本旅行的几点礼仪注意事项:①神社寺庙内保持安静,进入寺庙前通常需要在手水舍净手;②不要在行走中吃东西,尤其在神社区域;③拍照前确认是否允许,金阁寺等部分区域限制拍照角度;④垃圾要带走,日本街道几乎没有垃圾桶;⑤公共场所保持安静,地铁上尽量不打电话。 用户:当地货币怎么解决? Agent:日本使用日元(JPY)。建议:①出发前在国内银行换一些现金(汇率相对合理);②到达后在日本便利店(7-Eleven、Lawson)的ATM取款,接受中国银联卡;③日本很多小店、神社不接受信用卡,建议随身携带 1-2 万日元现金;④目前日元处于历史低位,汇率约为 1 人民币 = 19-21 日元。 用户:推荐一些必买的纪念品吗? Agent:京都必买纪念品推荐:①抹茶相关食品(抹茶巧克力、抹茶饼干、辻利茶铺系列),适合分送同事朋友;②京都限定零食(生八桥麻糬,尤其是锦市场的新鲜版);③传统工艺品(扇子、西阵织手帕、清水烧陶瓷);④化妆品(酒粕系列护肤品,在药妆店购买);⑤一保堂茶铺的高级日本茶。三年坂、二年坂和锦市场是购物集中地。 用户:行程期间天气怎么样? Agent:京都五一期间(4 月底至 5 月初)天气宜人:气温约 15-22℃,基本不会太热;少量降雨可能,建议携带折叠伞;樱花季基本结束,但5月初可能还有晚开的品种;新绿季节,山野间绿意盎然,非常适合观景。建议着装:日间穿薄外套或长袖T恤,晚间稍凉,可以带一件轻薄外套。 用户:有没有什么隐藏的小众景点? Agent:京都隐藏的小众景点推荐:①贵船神社:位于山中的红色鸟居,非常上镜,夏天有川床料理,春季山野幽静;②鞍马寺:贵船隔壁,山间寺庙,爬山过程中景色迷人;③大原三千院:郊区隐世寺庙,苔藓庭院极美,游客远少于市中心;④哲学之道北段:游客集中在南段,北段到银阁寺这一段很安静;⑤醍醐寺:世界遗产但名气不如金阁寺,樱花期绝美。 用户:当地有哪些特色料理? Agent:京都特色料理(京料理)以清淡精致著称。 - 当前消息:帮我推荐一下当地有什么美食
- 对话历史:
- 期望行为:
- 虽然第 2 轮到第 26 轮间隔了 24 轮,agent 应该召回「不吃海鲜、过敏」的信息
- 推荐美食时排除海鲜或标注风险
- 不应推荐海鲜类美食
- 判定标准:
- Pass:推荐的美食中不包含海鲜,或有明确的过敏提示
- Fail:推荐了海鲜且未提及过敏风险
- 评分方式:自动(关键词检测)+ LLM-judge
- Skill 配置:
skill_enabled: false - 跨梯度对比:在 4k、16k、32k 三种长度下分别测试,对比召回准确率
C5-EI-02 · 早期约束信息召回
- 上下文长度:32k(约 28 轮)
- 信息注入位置:开头(第 3 轮)
- 输入:
- 对话历史:
(以下为代表性上下文片段,实际测试时需扩展至目标长度) 用户:我想五一去泰国玩,听说清迈不错 Agent:清迈是个很棒的选择!五一期间清迈气候偏热(气温 35-38℃),但景色优美,古城、寺庙、象园都很值得游览。您大概打算几天? 用户:大概 5-6 天,但预算比较紧,单人总预算最多 6000 元(包括机票、住宿、餐饮、门票) Agent:好的,6000 元单人 5-6 天的清迈行程是可以实现的,但需要合理分配预算。大致规划:机票(往返)约 1500-2500 元(取决于购票时间和中转情况);住宿 5 晚约 500-800 元(选择当地民宿或经济型酒店);餐饮约 600-900 元(当地餐厅和街边市场为主);门票和活动约 400-800 元;剩余为购物和零花钱。 用户:清迈有哪些必去的景点? Agent:清迈必游景点推荐:①素帖寺(Doi Suthep):山顶寺庙,可俯瞰清迈全城,门票约 30 泰铢;②古城区四方形古城墙内有大量百年寺庙,如帕辛寺(Wat Phra Singh)、契迪龙寺(Wat Chedi Luang);③夜市:周日夜市(Walking Street)、周六夜市(Wualai Road)、夜间集市(JJMALL);④清迈动物园或大象自然公园(需提前预订)。 用户:大象园怎么选? Agent:清迈大象体验有几个不同类型。伦理型大象园(推荐):Elephant Nature Park(约 2500 泰铢/人),不允许骑象,只是陪大象散步、洗澡、喂食,动物保护理念好;普通大象营:价格较低(500-800 泰铢),允许骑象,但动物保护条件较差;建议选择伦理型大象园,体验更真实,也更人道。 用户:住宿选哪一带比较方便? Agent:清迈住宿区域推荐:①古城内部:最方便,步行可达主要寺庙,民宿和经济型酒店选择多,预算范围内每晚 100-200 元可以找到不错的地方;②尼曼路(Nimman Road):年轻潮流区,咖啡馆和餐厅集中,稍远离寺庙区;③古城外围(护城河旁):折中选择,交通方便价格适中。在您 6000 元总预算下,古城内住宿性价比最高。 用户:泰国需要签证吗? Agent:好消息!2023 年起泰国对中国公民实行免签政策,停留不超过 30 天无需申请签证,直接凭护照入境即可。注意:护照有效期需距离入境日起至少 6 个月;建议携带酒店预订单和往返机票以防边检询问。 用户:当地货币是泰铢,怎么换汇? Agent:泰铢换汇建议:①在泰国境内换汇比在国内更合算,汇率通常更好;②清迈市区有大量合法兑换点(Super Rich、Vasu Exchange等),汇率比机场和酒店好;③也可以直接用银行卡在当地ATM取款,但注意手续费(约每笔100-200泰铢);④建议先换 1000-2000 泰铢应急,到市区再换更多。目前汇率约 1 元人民币 = 4.8-5 泰铢。 用户:清迈的交通怎么解决? Agent:清迈市内交通:①双条车(Songthaew):红色皮卡改装的共乘车,市内固定路线约 30 泰铢,包车约 150-200 泰铢;②嘟嘟车(Tuk Tuk):适合短途,需要讲价,一般 50-100 泰铢;③摩托车租赁:1 天约 150-200 泰铢,适合有驾驶经验者;④Grab:类似滴滴,在清迈可以使用,价格透明。古城内主要景点步行距离均不超过 20 分钟。 用户:有哪些好吃的当地美食? Agent:清迈(北泰)美食以与曼谷不同的北部风味为特色:①Khao Soi(咖喱面):清迈必吃,椰奶咖喱汤底配炸脆面和软面,香浓不腻;②Sai Oua(北泰香肠):猪肉混合香茅、姜黄等香料的烤肠,街边市场常见;③Nam Prik Ong(番茄肉末蘸酱)配蔬菜和炸猪皮;④清迈周日夜市的各类烤串和甜点;⑤新鲜热带水果(芒果糯米饭、椰子冰淇淋)。 用户:五一期间清迈有什么节日活动吗? Agent:五一期间(4 月底至 5 月初)清迈没有特别的节日,但:①4 月中旬是泰国泼水节(宋干节),五一前刚结束,不会有大型庆典;②古城区周末夜市照常举行,热闹非凡;③这个时段是淡季和旺季交替期,价格相对合理;④需注意:五一是中国游客出行高峰,清迈热门景点会明显增多中国游客。 用户:拍照有什么好的地方推荐? Agent:清迈拍照圣地推荐:①白庙(Wat Rong Khun,需去清莱,距清迈 1.5 小时);②素帖寺日出时分,金色寺庙配薄雾,非常壮观;③夜间市场的灯光与人流;④古城寺庙内的橙红砖墙;⑤咖啡馆街(Nimman Road)的网红门面;⑥清迈周边梯田和山景(需租车前往)。 用户:5 天的行程大概怎么安排比较合理? Agent:清迈 5 天建议行程: Day 1(抵达):下午到达,入住古城区,傍晚逛古城附近寺庙,晚上周日/周六夜市(按日期) Day 2(古城):上午帕辛寺 + 契迪龙寺 + 三王纪念碑,下午塔佩门附近,晚上尼曼路咖啡区 Day 3(大象园):全天伦理型大象园体验(需提前预订),晚回市区休息 Day 4(素帖寺+郊外):清晨上素帖寺,下午双龙寺,傍晚俯瞰清迈 Day 5(自由购物):夜间集市购物,整理行李,晚间或次日返程 用户:那住宿能具体推荐几家吗? Agent:在 6000 元总预算下,清迈古城内平价住宿推荐:①Bodhi Serene(约 120-180 元/晚),古城中心,干净舒适;②Yotaka Hostel & Hotel(约 80-120 元/晚),评价好,位置佳;③Khum Phaya Resort(约 200-280 元/晚,略高但有花园);④可通过 Agoda、Booking.com 提前预订,五一前价格可能上涨,建议 2 个月前锁定。 用户:需要买旅行保险吗? Agent:强烈建议购买旅行保险!东南亚旅行常见的医疗和意外费用较高。建议购买包含:医疗费用(至少 100 万保障)、紧急救援和医疗转运、行李丢失赔偿、航班延误补偿的套餐。国内平安、众安、阿里等平台均有短期旅游险,5-6 天约 50-100 元。在 6000 元总预算中,这笔钱花得很值。 用户:清迈附近有没有值得一日游的地方? Agent:清迈周边一日游推荐:①清莱(距清迈 3 小时):白庙+蓝庙+黑屋,震撼级建筑,强烈推荐;②泰缅边境金三角(距清莱约 1 小时):历史文化景点;③清迈近郊:南奔(Lamphun),小城古寺,游客少,安静悠闲;④夜丰颂(Mae Hong Son):山区小城,风景如画,需多花 1 天。 用户:好的,我基本有数了,那帮我查一下机票吧 - 当前消息:帮我查一下机票
- 对话历史:
- 期望行为:
- 召回第 3 轮的预算约束(总预算 6000,机票应该控制在 3000-4000 以内留给住宿餐饮)
- 搜索机票时应该考虑预算限制
- 不应推荐 5000+ 元的机票(会超总预算)
- 判定标准:
- Pass:推荐的机票价格合理(≤ 4000 元),或提及了预算考虑
- Fail:推荐了 5000+ 元机票,完全忽略预算约束
- 评分方式:LLM-judge
- Skill 配置:
skill_enabled: false - 跨梯度对比:在 4k、16k、32k 下测试,对比预算召回率
C5-EI-03 · 早期出发城市信息召回
- 上下文长度:32k
- 信息注入位置:开头(第 1 轮)
- 输入:
- 对话历史:
(以下为代表性上下文片段,实际测试时需扩展至目标长度) 用户:我在上海,想暑假去日本玩,大概 7 月份出发 Agent:上海出发去日本非常方便,有多个直飞航线。7 月是日本暑假旺季,天气炎热但活动丰富。您想去哪个地区?东京、大阪、京都、北海道各有特色。 用户:北海道怎么样?听说夏天比较凉快 Agent:北海道夏季(7 月)平均气温约 20-25℃,是避暑的好去处。主要亮点:富良野和美瑛的薰衣草田(7 月中旬至 8 月初最佳);小樽运河的浪漫景色;函館的夜景(被评为世界三大夜景之一);自然公园和徒步路线(如知床半岛)。 用户:北海道比较大,主要去哪几个城市比较合理? Agent:北海道 7 天经典路线推荐:札幌(2 天)→ 富良野/美瑛(2 天)→ 小樽(1 天)→ 函館(2 天)。另一选项是以札幌为中心做放射状游览,每天回到市区住宿。如果时间充裕可以加上知床半岛,但需要额外 2-3 天。 用户:富良野的薰衣草几月份最好看? Agent:富良野薰衣草花期:6 月下旬至 8 月下旬,其中 7 月中旬至 8 月初是最佳观赏期,薰衣草紫色花海最为壮观。Farm Tomita(富田农场)是最有名的观赏地,每年吸引大量游客,7 月旺季可能需要排队。建议早上开园即去,避开下午人潮。 用户:从上海飞北海道,飞哪个机场? Agent:上海到北海道可选择:①上海→札幌新千岁机场(直飞),多家航空公司运营,飞行时间约 3.5 小时;②上海→函館机场(需中转,通常经东京),时间约 6-8 小时。建议从新千岁入境、函館出境(或反向),可以避免重复路线。 用户:7 月份去北海道机票大概多少钱? Agent:7 月暑假旺季,上海飞新千岁(札幌)机票参考价格:提前 2-3 个月购买:往返约 2000-3500 元;临时购买(出发前 2 周内):往返可能达到 4000-6000 元甚至更高;中转航班(经东京或大阪)通常比直飞便宜 500-1000 元,但时间较长。建议尽早预订,暑假机票抢手。 用户:北海道的住宿贵吗? Agent:北海道住宿价格参考(旺季 7 月):札幌市区商务酒店:400-800 元/晚;富良野农家民宿(ペンション):500-1200 元/晚,含早餐,推荐体验;小樽温泉旅馆(旅館):800-2000 元/晚,高端体验;函館温泉酒店:600-1500 元/晚。7 天预算住宿约需 3000-7000 元,取决于档次选择。 用户:北海道有什么特色美食必须吃? Agent:北海道美食是日本一绝:①海鲜:新鲜帝王蟹、海胆(海苔)、三文鱼、鲑鱼子(溢れいくら丼),在函館朝市或小樽市场体验;②拉面:札幌味噌拉面(Soup Curry也很著名);③乳制品:北海道牛奶、雪糕、奶酪,几乎处处可买;④薰衣草冰淇淋(富良野地区限定);⑤成吉思汗烤羊肉(ジンギスカン):北海道特色烤羊肉料理。 用户:需要租车吗? Agent:北海道很推荐租车,尤其是富良野/美瑛地区公共交通不便。注意事项:①中国驾照在日本不可直接使用,需要国际驾照(在国内驾照所办理,约 1 周);②日本靠左行驶,与中国相反,需适应;③租车费用约 300-600 元/天(含基本险),建议在国内通过 Jalan 或 Toyota Rent-a-Car 官网提前预订;④北海道道路宽阔,驾驶难度相对低,路况良好。 用户:北海道有温泉可以泡吗? Agent:当然!北海道有大量优质温泉。主要温泉区:①登别温泉(Noboribetsu):「温泉大国」,多种泉质,距离札幌约 1.5 小时;②定山溪温泉:距札幌最近(约 1 小时),市内温泉胜地;③函館汤之川温泉:函館市内就有,方便;④富良野/美瑛有小规模温泉旅馆。温泉礼仪:进入前需清洗身体,有纹身通常不允许入场。 用户:签证怎么办? Agent:中国公民前往日本需要签证(暂无免签)。暑假是签证旺季,建议出发前至少 4-6 周提交申请。所需材料类似之前说过的清单:护照、申请表、照片、机票和酒店预订单、银行存款证明(建议 5 万以上)、在职证明。上海可以去日本驻上海总领事馆或通过旅行社代办,代办费约 200-400 元。 用户:行程安排上有什么注意事项? Agent:北海道 7 天行程注意事项:①不要把景点安排太满,北海道地域广,车程占用时间较多;②富良野美瑛农场通常 8-9 点开园,早到可避开人潮;③函館夜景建议安排傍晚上山,但暑期人多,需要排队;④知床半岛偏远,加入行程需多留 2 天;⑤海鲜在早市最新鲜,建议第一天就去市场体验。 用户:好了,基本了解了,那帮我查一下机票吧 - 当前消息:帮我查一下机票吧
- 对话历史:
- 期望行为:
- 召回第 1 轮的「在上海」信息
- 调用 search_flights 时出发地应该是上海
- 不应反问「从哪里出发」
- 判定标准:
- Pass:机票搜索使用了上海作为出发地,未重复询问
- Fail:反问了出发地 / 使用了错误的出发地
- 评分方式:自动(检查工具参数)
- Skill 配置:
skill_enabled: false - 跨梯度对比:在 4k、16k、32k 下测试
二、中段信息利用率(MI: Mid-context Information)
上下文中段的信息是否有衰减(lost-in-the-middle 的典型位置)。
C5-MI-01 · 中段偏好信息(32k 专测)
- 上下文长度:32k(必须)
- 信息注入位置:中段(第 14 轮,约 16k token 位置)
- 输入:
- 对话历史:
(以下为代表性上下文片段,实际测试时需扩展至目标长度) 用户:我想带男朋友一起去成都玩,大概 4 天 Agent:成都是个很棒的选择!4 天时间正好可以把成都的主要亮点都走一遍。主要景点有大熊猫基地、宽窄巷子、锦里古街、武侯祠、都江堰/青城山。您大概什么时候去? 用户:打算 5 月份去,五一之后 Agent:5 月中下旬去成都很好,天气舒适(平均气温 20-26℃),游客比五一黄金周少很多。大熊猫基地建议早上 8 点前到,熊猫活动最频繁。 用户:大熊猫基地需要提前买票吗? Agent:强烈建议提前购票!成都大熊猫繁育研究基地实行网络预约制,旺季期间当天票很难买到。可以通过官方公众号「大熊猫基地」或美团/携程提前 7-14 天预约,票价约 55 元/人。 用户:锦里和宽窄巷子哪个更值得去? Agent:两个都值得去,风格不同:锦里(武侯祠旁):仿古商业街,三国文化氛围浓,小吃集中,适合晚上逛;宽窄巷子:清代民居改造,文艺感更强,茶馆和文创店多,适合下午慢逛。两个地方距离不远(打车约 10 分钟),4 天行程完全可以都去。 用户:那武侯祠呢?需要单独买票吗? Agent:武侯祠(含锦里)门票 50 元,两者联票进入。武侯祠是中国唯一的君臣合祀祠庙(供奉刘备和诸葛亮),历史价值高,游览约需 1.5-2 小时。锦里就在武侯祠东侧,出门即到,可以安排在一起游览。 用户:成都住哪里比较方便? Agent:成都住宿推荐区域:①天府广场/春熙路:市中心,地铁通达,商业配套齐全,适合大多数游客;②宽窄巷子附近:有些精品民宿,文艺气息浓,步行可达宽窄巷子;③武侯祠附近:靠近锦里,适合以武侯祠为中心游览。在您 4 天行程里,推荐住春熙路附近,交通辐射范围最广。 用户:成都地铁方便吗? Agent:成都地铁已经非常完善,覆盖主要景区:地铁 3 号线直达大熊猫基地(熊猫大道站);地铁 3 号线/4 号线覆盖春熙路、武侯祠片区;都江堰可以乘高铁(成灌快铁)约 40 分钟直达。4 天游览基本可以地铁 + 步行解决,无需打车。 用户:4 天行程大概怎么安排? Agent:成都 4 天行程规划: Day 1:大熊猫基地(早上 8:00,需 3-4 小时)→ 下午返回市区,锦里+武侯祠 Day 2:都江堰+青城山一日游(全天,建议早出发) Day 3:宽窄巷子(上午)→ 成都博物馆(下午)→ 春熙路/太古里(晚上) Day 4:自由活动/购物,品尝特色美食,傍晚离开 用户:都江堰值得去吗? Agent:都江堰非常值得去!距成都约 60 公里,高铁 40 分钟可达。都江堰水利工程是 2000 多年前秦代修建的水利奇迹,至今仍在运转,是世界遗产。如果有兴趣,可以和旁边的青城山(道教圣地)安排一日游,两个景点可以连游。门票:都江堰景区 80 元,青城前山 60 元。 用户:四川话听得懂吗?当地人交流有问题吗? Agent:完全没问题!成都居民在与外地游客交流时通常会使用普通话,景区内服务人员更是如此。四川话语调独特,但在正式场合和旅游场景中都会用普通话。只有在偶遇本地人聊天时才会感受到方言,不影响正常旅游交流。 用户:有什么成都纪念品值得买? Agent:成都特色纪念品推荐:①大熊猫周边(毛绒玩具、明信片、马克杯),在熊猫基地官方纪念品店最正宗;②三星堆/金沙文创(成都博物馆和三星堆博物馆有精品文创);③蜀绣和蜀锦制品(传统工艺,价格较高但很有特色);④郫县豆瓣酱、花椒、麻辣火锅底料(美食伴手礼,在超市购买最实惠);⑤竹编制品(成都郊区特产)。 用户:对了,我男朋友不吃辣,这在成都会不会很难受? Agent:这确实是个需要注意的问题。成都是辣椒文化的核心地带,很多传统菜都有辣度,但完全可以应对:①可以点不辣版本:很多餐厅提供「微辣/不辣」选项,直接告诉服务员「不要辣」即可;②非辣成都美食:担担面(可要不辣版)、龙抄手(清汤版)、赖汤圆、三大炮(糯米甜点)、成都豆花、钟水饺(有甜口版);③火锅可选鸳鸯锅(一边辣一边清汤),不吃辣的一方用清汤底涮菜。我会在推荐餐厅时特别注意避开重辣菜肴,或标注辣度。 用户:成都有哪些好的火锅店推荐? Agent:成都火锅推荐(考虑到你们有人不吃辣,建议选提供鸳鸯锅的店):①巴奴毛肚火锅:主打毛肚,汤底醇厚,可以要求鸳鸯;②大龙燚:平民价格,口味地道,排队较长但值得;③蜀大侠:环境好,服务佳,适合情侣;④蜀九香:老牌成都火锅,正宗麻辣底料。预订建议:旺季请提前通过美团预约,避免排队 1-2 小时。 用户:除了火锅,还有哪些成都特色小吃? Agent:成都特色小吃(含不辣选项):①钟水饺:猪肉馅,甜口红油版(可要少辣)和清汤版都有;②赖汤圆:甜糯米汤圆,完全无辣;③三大炮:糯米团裹豆粉,传统街头食品,不辣;④豆花饭:嫩豆腐配米饭,调味料可以选轻辣或不辣;⑤夫妻肺片:通常有辣,但可要微辣版;⑥成都抄手:类似馄饨,清汤版不辣。 用户:宽窄巷子的小吃怎么样? Agent:宽窄巷子的小吃以街头为主,价格偏旅游区水平(略贵),但体验感好。推荐:①兔头(不喜欢可跳过);②糖油果子(油炸糯米球裹糖,不辣,很好吃);③熊猫造型糕点;④成都特色冰粉(凉粉加红糖,清甜解辣,不辣)。对不吃辣的人来说,甜品和糕点类小吃很友好,辣的串串可以跳过。 用户:成都周边有没有其他值得去的地方? Agent:成都周边一日游推荐:①乐山大佛(距成都约 1.5 小时高铁),世界最大石刻佛像,壮观;②峨眉山(距成都约 2 小时),佛教圣地,风景壮美,需至少 1 天;③三星堆博物馆(德阳广汉,距成都约 1 小时):神秘古蜀文明,青铜器令人叹为观止,非常推荐! 用户:好了,基本确定去成都了,那帮我推荐一下餐厅吧 - 当前消息:帮我推荐一下当地餐厅
- 对话历史:
- 期望行为:
- 召回第 14 轮的「不吃辣」信息
- 推荐餐厅时避免辣味餐厅或标注可选辣度
- 这是 lost-in-the-middle 的典型位置,容易被遗忘
- 判定标准:
- Pass:推荐考虑了「不吃辣」约束
- Fail:推荐了辣味餐厅且未说明
- 评分方式:LLM-judge
- Skill 配置:
skill_enabled: false - 跨梯度对比:在 4k、16k、32k 下注入相同信息在不同相对位置,对比召回率
C5-MI-02 · 中段约束信息(32k 专测)
- 上下文长度:32k
- 信息注入位置:中段(第 15 轮,约 17k token 位置)
- 输入:
- 对话历史:
(以下为代表性上下文片段,实际测试时需扩展至目标长度) 用户:我想买一台新笔记本电脑,主要用于工作,包括 Office 文档处理、视频会议和少量 PPT 制作 Agent:您描述的使用场景属于轻度到中度办公需求,不需要特别高端的显卡,但对 CPU 单核性能、内存容量和屏幕素质有一定要求。预算大概是多少? 用户:预算 7000-9000 元左右 Agent:7000-9000 元在笔记本市场属于中高端区间,可以买到性能出色、做工精良的机器。在这个价位有不少好选择,比如联想 ThinkPad X1 Carbon、华为 MateBook X Pro、苹果 MacBook Air M2 等。您对操作系统有偏好吗,Windows 还是 macOS? 用户:Windows 系统吧,公司用的 Windows,兼容性更重要 Agent:明白,那我们聚焦 Windows 笔记本。7000-9000 元的 Windows 商务本推荐关注:联想 ThinkPad 系列(稳定可靠,企业级耐用性);华为 MateBook 系列(轻薄美观,华为生态好);ASUS ZenBook 系列(性能均衡,屏幕素质好);戴尔 XPS 系列(顶级做工,屏幕出色)。 用户:屏幕尺寸有什么推荐吗? Agent:商务办公笔记本屏幕尺寸建议:13-14 寸:便携性最好,适合经常移动;15.6 寸:屏幕空间大,适合多任务,但重量增加;16 寸:创作本常见尺寸,视野开阔,偏重。对以视频会议和 PPT 为主的工作场景,建议 14 寸,兼顾便携和视觉体验。 用户:需要独立显卡吗? Agent:对您描述的使用场景(Office、视频会议、PPT),不需要独立显卡。Intel 第 12/13 代 Core Ultra 处理器内置的核显(Iris Xe)已经完全满足需求,而且:独立显卡会增加重量、降低续航;无独显的轻薄本在您的场景下性能完全足够;节省的预算可以升级更好的屏幕或更大的内存。 用户:内存多大合适? Agent:对于您的使用场景,推荐 16GB 内存:Chrome 多标签页 + Teams + Office 同时运行,8GB 有时会显得不足;16GB 可以舒适地处理多任务,未来 3-5 年不会明显感到吃力;32GB 对纯办公场景有些过剩,除非您习惯开大量应用。另外注意内存是否焊死(无法后期升级),如果焊死建议直接上 16GB。 用户:续航要求呢? Agent:商务本续航很重要。建议选择标称续航 12 小时以上的机型(实际使用约为标称值的 70-80%)。您预算范围内的推荐:联想 ThinkPad X1 Carbon(实际续航约 10-12 小时);华为 MateBook X Pro(实测约 10 小时);华硕 ZenBook 14(实测约 10-11 小时)。如果经常参加全天会议,建议同时考虑是否支持快充(USB-C PD 65W 以上)。 用户:接口够用吗? Agent:现代轻薄商务本接口普遍缩减,需要注意。建议至少要有:Thunderbolt 4 / USB-C × 2(用于充电+扩展);USB-A × 1-2(兼容鼠标、U盘等老设备);HDMI 1.4+ 或 miniDP(连接外接显示器/投影);3.5mm 耳机口(视频会议用);可选:SD 卡槽。如果接口不够,可以配一个 USB-C 多功能扩展坞(约 200-400 元)。 用户:键盘手感怎么判断? Agent:键盘手感很主观,建议在购买前实际体验。一般评价维度:键程(按下深度):商务本 1.2-1.5mm 是舒适区间,太浅(<1mm)打字累;键帽稳定性:按键时不晃动为佳;回弹力度:适中为佳,不要太软或太硬。公认键盘最好的商务本:联想 ThinkPad 系列(行业标杆);华硕 ZenBook S 系列(舒适好用);建议去实体店(京东之家/苏宁/华为体验店)实际打几个字再决定。 用户:触控板呢? Agent:触控板的评价维度:面积:越大越好,13 寸以上的面积使用体验明显提升;材质:玻璃触控板手感顺滑,优于塑料;点击感:推荐支持全面积点击(任何位置按下都有反馈)。公认触控板最好的笔记本:Apple MacBook 系列(顶级);华为 MateBook 系列(Windows 里数一数二);戴尔 XPS 系列也不错。 用户:ThinkPad 和 MateBook 哪个更适合我? Agent:两款都适合您的需求,差异主要在定位上:联想 ThinkPad X1 Carbon(Gen 11):更偏向企业 IT 部门采购,耐用性经过军规认证,维修方便(螺丝可拆,接口多),与企业 AD 域兼容性更强;华为 MateBook X Pro:消费端设计感更强,轻薄漂亮,触控板体验出色,华为手机用户生态联动好,但华为服务的企业兼容性略逊。如果公司有大量外出拜访客户的场景,ThinkPad 的可靠性口碑更好。 用户:还有一点,我需要经常出差,所以重量很重要,最好 1.5kg 以内 Agent:这是非常关键的约束!1.5kg 以内是轻薄本的标准,好在您的预算范围内有几款符合的选择:联想 ThinkPad X1 Carbon(Gen 11):约 1.12kg,行业最轻之一,非常适合出差;华为 MateBook X Pro 2024:约 1.26kg,满足要求;华硕 ZenBook 14 OLED:约 1.39kg,满足要求;戴尔 XPS 14:约 1.64kg,略超您的限制,建议排除。我后续推荐时会严格筛选 1.5kg 以内的机型。 用户:处理器选 Intel 还是 AMD? Agent:对于您的使用场景,两者都可以,但各有优劣:Intel Core Ultra(Meteor Lake):单核性能强,Windows 生态兼容性历来最好,ThinkPad/MateBook 系列多用 Intel;AMD Ryzen 7000 系列:多核性能更强(视频转码快),价格相对优惠,续航表现也不错(Zen 4 架构效率高)。纯办公场景两者感知差异不大,建议以整机综合评价(重量、续航、键盘)为主,不必过于纠结 CPU 品牌。 用户:屏幕分辨率选哪个好? Agent:屏幕分辨率建议:基础标准(及格):1920×1200(16:10 比例)已经够用,2K 以上更清晰;推荐(好):2560×1600(2.5K),文字锐利,视频会议效果好;高端可选:3840×2400(4K),视觉体验极佳,但耗电更多;建议避免:1080p(1920×1080,16:9 比例),现在商务本这个价位有些过时,且 16:9 竖向空间略小。对您的使用场景,2K 屏(2560×1600 或 2880×1800)是最佳平衡点。 用户:哪里买比较靠谱? Agent:购买渠道建议:①官方网站/官方旗舰店(天猫/京东自营):价格透明,正品保障,质量问题可以走官方售后;②京东自营:配送快,售后方便,可叠加优惠券;③线下官方体验店:优势是能实际体验触感,当场决定;④企业采购:如果公司有 IT 采购流程,通过公司渠道买可能有企业折扣。避免:非官方授权的二手平台或小渠道,笔记本翻新件较多。 用户:好了,信息差不多了,那你推荐几款吧 - 当前消息:那你推荐几款吧
- 对话历史:
- 期望行为:
- 召回第 15 轮的重量约束(≤ 1.5kg)
- 推荐的笔记本应该满足重量要求
- 中段信息容易被遗忘
- 判定标准:
- Pass:推荐的笔记本重量都 ≤ 1.5kg
- Fail:推荐了超重的笔记本(如 2kg+)
- 评分方式:LLM-judge
- Skill 配置:
skill_enabled: false - 跨梯度对比:在 4k、16k、32k 下测试
C5-MI-03 · 中段多条信息的聚合召回
- 上下文长度:32k
- 信息注入位置:中段(第 12-17 轮,分散注入)
- 输入:
- 对话历史:
(以下为代表性上下文片段,实际测试时需扩展至目标长度) 用户:我想今年国庆节去一次亲子旅行,在国内,大概 5 天 Agent:国庆亲子游的好选择很多!国内主要有几类适合亲子的目的地:主题公园型(上海迪士尼、北京环球影城)、自然探索型(张家界、黄山)、文化历史型(西安、北京)、海岛型(三亚、厦门)。您家孩子多大,喜欢什么类型的活动? 用户:孩子比较小,还在上幼儿园,应该还不太懂文化历史 Agent:幼儿园阶段的孩子(3-6 岁)适合互动感强、画面鲜艳的体验型目的地:主题公园是首选,视觉冲击力强,孩子参与感好;动物园/海洋馆也非常受小孩子喜欢;自然风景适合性取决于孩子的专注力和耐力。三亚、上海、北京都有适合这个年龄段的设施。 用户:三亚的话有什么亲子景点? Agent:三亚亲子景点推荐:①三亚亚特兰蒂斯水世界(巨大水上乐园,孩子超级喜欢);②蜈支洲岛(清澈海水,适合浮潜,但需注意孩子安全);③南山文化旅游区(观音像,文化感强);④三亚海昌梦幻海洋不夜城(夜间海洋主题);⑤呀诺达雨林(热带雨林探险,互动性强)。国庆期间人多,建议提前预订各景点。 用户:三亚国庆期间贵吗? Agent:三亚国庆是绝对旺季,价格会显著上涨:机票:往返可能比平时贵 50-100%;酒店:亚龙湾、三亚湾的星级酒店国庆期间可能翻倍甚至更高,建议提前 2-3 个月锁定;景区:门票价格相对稳定,但排队时间会大幅增加。如果预算有限,可以考虑国庆前后出发(9 月底或 10 月上旬),人流和价格都会好很多。 用户:厦门怎么样?听说适合亲子 Agent:厦门也是很好的亲子目的地!亲子景点推荐:鼓浪屿(不允许机动车,适合推车散步,孩子安全);厦门海洋世界(含海豚表演,孩子喜欢);厦门动植物园;沙坡尾老街;环岛路骑行/散步。相比三亚,厦门国庆期间价格稍低,且文化氛围更浓。 用户:那北京呢,环球影城刚开没多久? Agent:北京环球影城是 2021 年开业的,对有小孩的家庭非常有吸引力!适合幼儿的区域:侏罗纪世界(坐车游览,视觉冲击强);小黄人乐园(超适合幼儿,互动有趣);哈利波特:魔法世界(场景震撼)。注意:部分刺激项目有身高限制(如 1.2m 以上),需提前确认孩子是否满足。门票旺季约 500-700 元/人,国庆需提前至少 1 个月抢票。 用户:我带着 5 岁的孩子,他精力旺盛但也容易累 Agent:5 岁的孩子正处于精力充沛但耐力有限的阶段,旅行规划需要特别注意:每天不超过 2-3 个主要景点;景点之间留充足休息时间;安排亲子友好的住宿(含儿童设施/泳池);避免长时间步行,可以考虑景区小火车、观光车;午饭后安排午休(孩子精力在下午会下降)。 用户:那北京的住宿可以推荐一下吗? Agent:北京亲子友好住宿推荐:①北京环球影城主题酒店(直通环球,沉浸体验,价格较高):环球影城大酒店约 2000-4000 元/晚;②普通商务酒店但有儿童设施:希尔顿、万豪在北京均有大型游泳池和儿童活动区;③朝阳区/国贸附近(环球影城附近)的连锁酒店(全季、亚朵等),亲子价约 600-1200 元/晚。 用户:孩子不太能走很多路,最好能带推车 Agent:这非常重要!带推车的话,以下几点需要注意:①景区推车可进入性:天安门、故宫有坡道和无障碍通道;鼓浪屿无机动车,路面有些石板路,推车略颠簸但可以走;北京环球影城内部铺装路面,推车非常方便;②建议自带折叠轻便推车(如好孩子/cybex 折叠款),比租用景区推车更干净安全;③提前查询景区无障碍地图,规划推车可行路线。 用户:北京国庆人多吗? Agent:是的,国庆北京是全国最热门的目的地之一,尤其天安门广场国庆期间人流量极大。应对策略:①热门景点(故宫、长城八达岭)必须提前预约,一票难求;②建议避开高峰人流(9:00-14:00),早出发或傍晚游览;③环球影城国庆期间同样爆满,强项目排队可能 2-4 小时;④建议在北京行程中以主题公园为主,减少人流极大的历史景区。 用户:而且孩子对海洋生物特别感兴趣,他在图书馆借了很多鱼类图鉴 Agent:太好了!这是非常有价值的兴趣点。北京也有不错的海洋体验:北京海洋馆(北京动物园旁):相对小而精,有海豚和海狮表演,适合 5 岁孩子;北京富国海底世界:可以近距离观察热带鱼和珊瑚礁展示。如果孩子对海洋生物感兴趣,三亚或厦门的海洋馆会更丰富——三亚亚特兰蒂斯内的海洋馆规模国内一流,厦门海洋世界也有大量展示。这个偏好可以作为最终决定目的地的重要依据。 用户:那行程里怎么平衡景点多样性和孩子体力? Agent:5 岁孩子的旅行体力管理黄金原则:①每天安排 1-2 个主要景点(而非成人旅行的 3-4 个);②景点游览时间不超过 3 小时连续活动,之后休息;③主题公园建议 1 天只去 1 个,全力体验;④中午 12-14 点安排午餐+午休(可回酒店或找安静餐厅);⑤晚上 8 点前结束全天活动,保证孩子睡眠;⑥在景区准备零食和水,孩子饿了容易闹情绪。 用户:好了,基本确定国庆亲子游了,那推荐一下行程吧 - 当前消息:推荐一下行程吧
- 对话历史:
- 期望行为:
- 需要召回中段分散在第 12、15、17 轮的三条信息
- 推荐行程时考虑:亲子友好、推车可达、有海洋馆/水族馆
- 三条信息都应该被利用
- 判定标准:
- Pass:推荐考虑了至少 2 条信息(容许遗漏 1 条)
- Fail:只考虑了 1 条或完全未考虑
- 评分方式:LLM-judge(检查三条信息的利用情况)
- Skill 配置:
skill_enabled: false - 跨梯度对比:在 4k、16k、32k 下测试信息聚合能力
三、长上下文意图理解(LI: Long-context Intent)
多轮对话后,对用户当前意图的理解是否仍准确。
C5-LI-01 · 长对话后的简单意图
- 上下文长度:32k
- 信息注入位置:无特殊注入,测试长上下文后的基础能力
- 输入:
- 对话历史:
(以下为代表性上下文片段,实际测试时需扩展至目标长度) 用户:帮我规划一下去巴黎的旅行,7 天 Agent:巴黎 7 天旅行规划:Day 1 抵达,入住圣日耳曼区...(行程详细规划) 用户:卢浮宫需要提前买票吗? Agent:强烈建议!卢浮宫旺季每天限流,尤其暑假和国庆期间。可通过卢浮宫官网或 GetYourGuide 提前购买,同时选择入场时间段... 用户:艾菲尔铁塔登顶要预约吗? Agent:是的,埃菲尔铁塔顶层(第三层)必须提前预约,旺季时段有时提前 2-3 个月就售罄。建议登塔时选择傍晚 19:00-21:00,可以看到日落和夜景... 用户:巴黎住在哪个区比较合适? Agent:推荐住在第 1-8 区(右岸)或第 6 区(左岸圣日耳曼)。第 1-4 区:卢浮宫、玛黑区步行可达;第 6 区:学院氛围,咖啡馆文化,靠近塞纳河;建议预算每晚 600-1200 元... 用户:机票要多少钱? Agent:北京/上海飞巴黎(CDG 机场),直飞约 5000-9000 元/人,经停约 3500-6000 元。建议提前 3-4 个月购买。可以关注国航、法航、荷兰航空等的早鸟票... 用户:巴黎的地铁好用吗? Agent:巴黎 Metro 非常发达,14 条线路覆盖全城。建议购买 NaviGo Easy 卡(充值卡,每次 1.73 欧)或 Carnet(10 次联票,约 16.9 欧)。注意:Metro 站台有些没有电梯,带大行李需提前查询无障碍路线... 用户:有没有推荐的法国餐厅? Agent:推荐几个价格区间的选择:①平价(人均 20-40 欧):Café de Flore 早餐、Breizh Café 可丽饼;②中档(人均 50-80 欧):Septime(需提前订位)、Frenchie;③高档(米其林,人均 150 欧+):Alain Ducasse 旗下餐厅... 用户:巴黎购物有什么推荐? Agent:巴黎购物圣地:①老佛爷百货(Galeries Lafayette):各大奢侈品牌,可以办退税;②玛黑区(Le Marais):独立设计师品牌,创意小店;③圣图安跳蚤市场(周末):古董和复古单品;④药妆:Vichy、La Roche-Posay 等在当地比国内便宜... 用户:申根签证怎么办? Agent:申请法国申根签证需提前 15-90 天申请。主要材料:护照、签证申请表、近期照片、往返机票预订单、酒店预订单、银行存款证明(建议 5 万以上)、行程单、在职证明/营业执照。上海法国签证中心可预约办理,处理时间通常 5-10 个工作日... 用户:凡尔赛宫要花多少时间? Agent:凡尔赛宫建议安排整个上午或下午(3-5 小时)。主要参观:国王大殿(镜廊、国王寝宫)、玛丽皇后小特里亚农宫、凡尔赛宫花园(广阔,需步行或租小车游览)。门票约 20 欧,建议提前网上购票... 用户:巴黎有哪些小众景点? Agent:巴黎小众但值得去的地方:①蒙马特区(Montmartre):艺术家街区,圣心大教堂俯瞰全城;②先贤祠(Panthéon):安葬了居里夫人、雨果等名人,游客相对少;③装饰艺术博物馆(Musée des Arts Décoratifs);④Promenade Plantée(步行高架绿道,巴黎版高线公园);⑤色彩斑斓的巴黎拱廊街(Passages Couverts)... 用户:奥赛博物馆值得去吗? Agent:非常值得!奥赛博物馆(Musée d'Orsay)收藏了大量印象派名作:莫奈的《睡莲》系列、雷诺阿的《煎饼磨坊的舞会》、梵高的《星夜》(部分)等。由旧火车站改建,建筑本身也很壮观。建议安排 2-3 小时,避开周一(闭馆)和周末高峰期... 用户:巴黎的塞纳河游船有没有推荐? Agent:塞纳河游船推荐:①巴黎塞纳河游船(Bateaux Mouches):经典1小时游览,票价约 16 欧,经过埃菲尔铁塔和圣母院;②晚上 20:00-22:00 乘坐可以看到铁塔亮灯(每小时整点闪光 5 分钟);③还有带晚餐的豪华游船(约 60-150 欧/人),适合纪念日... 用户:顺便问一下,查一下明天北京的天气 - 当前消息:查一下明天北京的天气
- 对话历史:
- 期望行为:
- 这是一个简单的新意图(话题切换)
- 不应被前面 26 轮的旅行讨论干扰
- 直接查北京天气,不要关联到旅行
- 判定标准:
- Pass:正确理解为查天气(独立意图),未关联到旅行
- Fail:试图将天气和旅行关联(如「您旅行目的地的天气是...」)/ 拒绝回答要求先完成旅行讨论
- 评分方式:LLM-judge
- Skill 配置:
skill_enabled: false - 跨梯度对比:在 4k、16k、32k 下测试,对比意图识别准确率
C5-LI-02 · 长对话后的复杂意图
- 上下文长度:32k
- 信息注入位置:需要关联早期和中段的信息
- 输入:
- 对话历史:
(以下为代表性上下文片段,实际测试时需扩展至目标长度) 用户:我打算秋天去日本,想去京都看枫叶 Agent:京都赏枫是日本最美的体验之一!京都枫叶季通常在 11 月中旬到 12 月初,最佳时间是 11 月下旬。推荐赏枫景点:岚山天龙寺(庭院枫叶倒映水面)、东福寺(被称为京都最美枫叶)、永观堂(以红枫密集著称)、南禅寺... 用户:东福寺的枫叶怎么样? Agent:东福寺是京都赏枫的顶级目的地!特别是通天桥俯瞰满山红枫的景色令人震撼。11 月底旺季期间人流极大,建议早上 8 点前到达。从京都站乘 JR 到东福寺站只需 2 站,非常方便。门票通天桥 600 日元。 用户:岚山那边有哪些景点? Agent:岚山(嵐山)是京都西部的景点集中区,建议安排半天到一天:①竹林小径:最著名的标志性景点,建议清晨 7-8 点前往,避开人潮;②天龙寺:世界遗产禅寺,秋季枫叶庭院极美(门票 500 日元);③渡月桥:横跨桂川的古桥,赏枫背景很美;④保津川游船:可以从岚山乘小船游览峡谷(约 2 小时,约 4100 日元/人)。 用户:那伏见稻荷大社怎么样? Agent:伏见稻荷大社是京都最著名的景点之一,以无数橙红色鸟居组成的隧道著称。特点:免费参观,任何时间都可以进入;山路全程约 4 公里,爬到山顶需要约 2 小时;秋天鸟居配红叶非常美;清晨或黄昏人少,光线美;距京都站乘 JR 5 分钟。 用户:清水寺一定要去吗? Agent:强烈推荐!清水寺是京都最具代表性的地标:建于 778 年,三重塔和本堂舞台(悬空木结构)是标志;秋天枫叶红透,配合古建筑非常壮观;三年坂、二年坂(通往清水寺的石板路)也是购物和体验京都传统的好地方;门票 500 日元,建议早上 6:30 开门即入,避开人潮。 用户:金阁寺需要多长时间? Agent:金阁寺(正式名称鹿苑寺)游览约需 45-60 分钟,属于可以快速游览的景点。金色的建筑倒映在水面的景色非常上镜,但游览路线是固定的单向环形,比较简单。门票 500 日元,建议上午前往(下午人流最大)。 用户:银阁寺呢? Agent:银阁寺(慈照寺)和金阁寺虽然名字相近但风格完全不同:银阁寺实际上并不是银色,而是朴素的木色,体现的是日本侘寂美学;特别之处:以银沙滩(白砂庭院)和向月台(圆锥形沙堆)著名;游览时间约 45 分钟;银阁寺旁边的哲学之道(Philosopher's Path)是条绝美的散步小径,秋天落叶缤纷,非常推荐。 用户:奈良是不是可以顺道? Agent:完全可以!奈良距京都只有 45 分钟(JR 近铁),非常适合一日游。奈良最著名的就是奈良公园里随处游走的鹿(1000 多只,不怕人),还有东大寺(供奉巨大佛像,世界最大木建筑)、春日大社(鸟居和传统神社)。建议奈良安排半天(上午)+ 下午返回京都游览。 用户:行程大概怎么规划比较合理? Agent:京都 5 天行程建议(秋季赏枫版): Day 1:抵京都,傍晚祇园花见小路(夜晚氛围佳) Day 2:伏见稻荷大社(清晨)→ 东福寺(上午赏枫)→ 锦市场(午后购物) Day 3:岚山全天(竹林+天龙寺+渡月桥+保津川) Day 4:奈良半日游 → 下午返京都,哲学之道+银阁寺 Day 5:金阁寺+清水寺+三年坂,傍晚离开 用户:京都的交通方式有哪些? Agent:京都交通攻略:地铁:仅两条线(烏丸線和東西線),覆盖范围有限;巴士:最主要的市内交通,覆盖大部分景点,建议买「京都市巴士一日券」(700 日元);JR 西日本:去伏见稻荷/奈良方向,需要购买相应票或 JR Pass;步行:许多景点步行可达(尤其东山一带清水寺/八坂神社片区);自行车:推荐租车游览哲学之道等地。 用户:当地特色食物是什么? Agent:京都料理(京料理)清淡精致,与大阪的重口味截然不同:必吃:湯豆腐(嵯峨野天龙寺周边有名店)、おばんざい(京都家常料理小菜)、うどん(乌冬面)、京都抹茶甜品(辻利、中村藤吉等老店);不辣建议:京料理整体口味偏甜偏淡,非常适合不吃辣的人;特色甜品:生八桥(生八ツ橋,麻糬甜点,京都限定)、抹茶冰淇淋遍地都是。 用户:购物去哪里? Agent:京都购物推荐:①锦市场(锦の市):被称为「京都的厨房」,各类腌菜、豆腐、抹茶食品,适合买伴手礼;②三年坂/二年坂:清水寺旁,传统工艺品(陶瓷、漆器、扇子、手拭);③寺町通/新京极通:百年老店和新潮小店混合,伊藤久右衛門(抹茶老店)在这附近;④乌丸周边:现代商业,大丸百货、伊势丹等。 用户:住宿怎么选?京都旅游旺季价格贵吗? Agent:京都 11 月枫叶旺季酒店价格确实会上涨,建议至少提前 2-3 个月预订。价格参考:①经济型:商务酒店或青旅,400-800 元/晚;②中档:四条河原町或京都站附近酒店(如东横INN、京都烏丸六角 APA Hotel),700-1500 元/晚;③高端/精品:有些百年町家(改建民宿),2000-5000 元/晚,体验感极好;④旅館(温泉旅馆):含晚餐早餐的全套体验,3000-8000 元/晚。 用户:那住在哪里比较方便? - 当前消息:住哪里比较方便
- 对话历史:
- 期望行为:
- 需要关联第 1-3 轮确定的目的地(京都)
- 需要关联第 4-23 轮讨论的景点分布(东福寺、岚山、伏见稻荷、清水寺等)
- 综合信息推荐酒店区域,考虑最常去的景点在哪里
- 长上下文下的复杂意图理解
- 判定标准:
- Pass:推荐了京都的酒店区域,考虑了之前讨论的景点分布
- Fail:反问目的地 / 推荐时忽略了之前讨论的景点
- 评分方式:LLM-judge
- Skill 配置:
skill_enabled: false - 跨梯度对比:在 4k、16k、32k 下测试
C5-LI-03 · 长对话后的模糊指代
- 上下文长度:32k
- 信息注入位置:早期有具体信息
- 输入:
- 对话历史:
(以下为代表性上下文片段,实际测试时需扩展至目标长度) 用户:我想买一副降噪耳机,平时通勤用,预算 2000 元左右 Agent:2000 元预算的降噪耳机有几个很好的选择:索尼 WH-1000XM5(2399 元,行业顶级降噪)、Bose QuietComfort 45(1799 元,舒适度出色)、Apple AirPods Pro 2(1899 元,适合 iPhone 用户)。您平时用什么手机? 用户:iPhone 15 Pro,那 AirPods Pro 2 是不是最合适? Agent:对 iPhone 用户来说,AirPods Pro 2 确实有独特优势:空间音频(Spatial Audio)效果卓越,配合 iPhone 体验最佳;自适应透明模式(可以根据环境自动调节);H2 芯片的降噪性能有显著提升(比上代降噪提升 2 倍);无缝接入 Apple 生态,双击/捏合手势控制方便;价格约 1899 元,在您预算内。 用户:AirPods Pro 2 的续航怎么样? Agent:AirPods Pro 2 续航:单次续航:约 6 小时(开降噪)或 7.5 小时(关降噪);充电盒额外提供:约 24 小时续航;充电盒支持 MagSafe 和 Apple Watch 充电器充电(非常方便);快充:5 分钟充电可使用约 1 小时。对每天 1-2 小时通勤来说,续航完全够用,基本每 2-3 天充一次电盒即可。 用户:和索尼 WH-1000XM5 相比哪个好? Agent:AirPods Pro 2 vs 索尼 WH-1000XM5 对比:降噪效果:索尼 XM5 稍强(头戴式天然优势,物理遮噪好);舒适度:AirPods Pro 2 更轻便,适合长时间佩戴;通话质量:AirPods Pro 2 更好(高端麦克风降噪);生态兼容:AirPods Pro 2 对 iPhone 用户无敌,索尼跨平台更好;价格:索尼 2399 元,超出您预算 400 元。对您(iPhone 用户、通勤场景)来说,AirPods Pro 2 是更优选择。 用户:那就决定买 AirPods Pro 2 了,哪里买比较好? Agent:AirPods Pro 2 购买渠道推荐:①Apple 官网/直营店:保证正品,可享受 14 天无理由退换,官方售后最好;②京东自营:价格和官网差不多,配送快,同等保障;③天猫苹果官方旗舰店:偶有优惠活动;④线下授权经销商(如苏宁苹果授权店):可以现场体验,当场拿货。建议:优先选官方渠道,避免第三方卖家(存在翻新品风险)。 用户:现在的价格是多少? Agent:AirPods Pro 2(USB-C 版本)当前建议零售价:Apple 官网:1899 元;京东自营:1799-1899 元(偶有小促销);建议下单前查看价格历史(可用「什么值得买」App查)。注意:区分 USB-C 版(新款,2023 年后)和 Lightning 版(旧款),USB-C 版有更高的IP54防水等级,买新不买旧。 用户:有没有保护套推荐? Agent:AirPods Pro 2 保护套推荐:①Casetify 定制款:时尚设计,可个性化印字,售价约 100-200 元;②Spigen TPU 套:轻薄防摔,约 30-50 元;③Apple 原装硅胶套:简洁原汁原味,约 149 元;④Totallee 超薄套:几乎不增加厚度,约 60-80 元。买保护套要注意:确认是 USB-C 版本的尺寸(与 Lightning 版略有不同)。 用户:能不能帮我看看京东的价格? Agent:根据我的信息,AirPods Pro 2(USB-C)在京东自营当前约 1799-1849 元。具体价格请直接在京东 App 搜索「AirPods Pro 2 USB-C」查看实时价格,价格可能因促销活动波动。如果您是京东 PLUS 会员,可能还有额外折扣。 用户:颜色有哪些选择? Agent:AirPods Pro 2(第二代)颜色:只有一款颜色——白色/象牙白(Apple 经典配色,充电盒也是白色)。与其他品牌不同,AirPods Pro 系列不提供多种颜色选择,只有白色一个选项。如果您想要有颜色选择,可以考虑耳机套(硅胶耳帽)有不同颜色款式。 用户:没有其他颜色了吗?我比较喜欢黑色或深色 Agent:目前 AirPods Pro 2 正式颜色确实只有白色。不过有几个思路:①官方颜色:Apple 偶尔推出特别版(如 AirPods Pro 曾出 MagSafe 充电盒的不同颜色),但机身本身基本只有白色;②第三方定制:有些定制服务可以将充电盒喷涂成黑色,但会影响保修;③换选品牌:索尼 WH-1000XM5 有黑色、银色;Bose QC45 有黑色和白色。如果颜色是您的重要考量,可能需要重新考虑是否坚持 AirPods Pro 2。 用户:算了,白色也可以接受,那是不是也有人用第三方充电盒? Agent:有的!AirPods Pro 2 可以使用第三方充电盒配件:①AirPods Pro 2 充电盒支持 Qi 无线充电(通用标准),可以用任何 Qi 无线充电板充电;②充电盒 USB-C 口可以接通用 USB-C 线充电;③注意:AirPods Pro 只能用 Apple 官方充电盒(或Apple授权的),「充电盒」不是第三方产品,而是指用第三方充电器给官方盒子充电。 用户:好,差不多决定了,那最后确认一下,这个东西还有白色的吗 - 当前消息:那个东西还有白色的吗
- 对话历史:
- 期望行为:
- 「那个东西」指代 AirPods Pro 2(第 1-5 轮确定的)
- 虽然中间隔了 20 轮,应该能正确理解指代
- 查询 AirPods Pro 2 的白色款式
- 判定标准:
- Pass:正确理解指代,查询了 AirPods Pro 2 的白色款
- Fail:反问「哪个东西」/ 理解成了其他商品
- 评分方式:LLM-judge
- Skill 配置:
skill_enabled: false - 跨梯度对比:在 4k、16k、32k 下测试指代理解准确率
四、长上下文工具调用(LT: Long-context Tool Use)
上下文很长时,工具参数构造准确率是否下降。
C5-LT-01 · 长对话后的工具参数准确性
- 上下文长度:32k
- 信息注入位置:开头和中段分散注入参数信息
- 输入:
- 对话历史:
(以下为代表性上下文片段,实际测试时需扩展至目标长度) 用户:我想去泰国玩,听说曼谷和清迈都不错 Agent:泰国是很受欢迎的旅行目的地!曼谷是现代都市,大皇宫、考山路、夜市文化丰富;清迈更偏向自然和文化,古城、大象园、山区风光有特色。您想去哪个方向,或者两个都去? 用户:两个都去最好,大概去几天合适? Agent:如果两个城市都去,建议至少 7-8 天。可以安排:曼谷 3-4 天(大皇宫、卧佛寺、考山路、夜市)+ 清迈 3-4 天(古城、大象园、多伊素贴)。两地之间可以乘飞机(约 1 小时)或夜间卧铺火车(约 12 小时,体验感好)。 用户:我从深圳出发,深圳有直飞曼谷的航班吗? Agent:深圳宝安机场有多个泰国航班选择:深圳直飞曼谷素万那普(BKK):泰国航空、深圳航空有直飞,约 3.5-4 小时;深圳直飞曼谷廊曼(DMK):亚洲航空等廉价航空运营。建议出发时飞 BKK(国际航站楼),返回从清迈飞深圳(清迈 CNX 有部分航班直飞深圳)。 用户:泰国签证需要提前办吗? Agent:好消息!泰国自 2023 年起对中国公民实行免签(截至本信息截止日期),停留不超过 30 天无需申请签证。直接持护照入境即可,建议护照有效期距入境起至少 6 个月。如果政策有变化,请出行前在驻华大使馆官网确认最新信息。 用户:曼谷有哪些一定要去的景点? Agent:曼谷必游景点:①大皇宫+玉佛寺:泰国最重要的皇家建筑群,金碧辉煌,需 3-4 小时;②卧佛寺(Wat Pho):超大卧佛,传统泰式按摩发源地;③郑王庙(Wat Arun):湄南河畔最美寺庙,傍晚时分最佳;④考山路(Khao San Road):背包客圣地,热闹夜市;⑤Terminal 21/Siam Paragon:现代购物中心。 用户:曼谷的夜市有哪些? Agent:曼谷知名夜市:①乍都乍周末市集(Chatuchak Weekend Market):周末开放,数千摊位,规模亚洲最大;②铁道夜市帕帕侬(Talad Rot Fai Ratchada):拍照胜地,三角帐篷排列整齐;③AsiaTeek 夜市:本地人聚集,价格实惠;④JODD Fairs:新兴夜市,网红打卡地,美食和文创结合。建议至少体验一个大型夜市,感受曼谷夜生活。 用户:清迈的大象园怎么选? Agent:清迈大象园选择原则:推荐伦理型大象园(不表演、不骑象):①Elephant Nature Park:最知名的救助型大象园,约 2500 泰铢/人,体验喂食、陪伴、洗澡;②Ran-Tong Save & Rescue Elephant Centre:同等理念,价格略低。不推荐:有骑象表演的传统大象营(存在动物福利问题)。建议提前至少 2-3 天预订。 用户:两城市之间怎么走? Agent:曼谷到清迈的交通选项:①飞机(推荐):约 1 小时,泰狮航空、亚洲航空等廉价航空票价约 200-600 泰铢起,深圳人可以在到达曼谷后直接买国内段;②夜间卧铺火车:约 11-13 小时,票价约 600-1200 泰铢(二等卧铺),体验感好,节省住宿费;③长途大巴:约 8-10 小时,价格更低约 300-500 泰铢,但舒适度一般。 用户:6 月份去泰国天气怎么样? Agent:6 月是泰国雨季开始时期:曼谷和清迈 6 月气温约 32-36℃,高温高湿;降雨较多,尤其下午常有阵雨(雨量逐月增加,6 月比 4-5 月多);优点:游客相对较少,酒店价格比旺季(11 月-2 月)低 20-40%。建议:带折叠雨伞,安排室内活动(博物馆、购物中心)在下雨时段,户外景点安排上午。 用户:6 月 15 号出发,20 号回,5 天够吗? Agent:6 月 15-20 日,共 5 天,时间有些紧。建议两个方案:①方案 A:只去曼谷(5 天 4 晚),可以把曼谷玩得比较细:大皇宫+寺庙+夜市+一日游(大城遗址);②方案 B:曼谷 3 天+清迈 2 天(飞机转场),紧凑但两城都能体验到主要景点。您更倾向哪个方向? 用户:就曼谷吧,清迈下次再去 Agent:好的,专注曼谷 5 天的行程!曼谷 5 天行程建议: Day 1(15 日):抵达,入住,傍晚考山路感受夜生活 Day 2(16 日):大皇宫+玉佛寺+卧佛寺(上午)→ 郑王庙(傍晚)→ 湄南河夜游 Day 3(17 日):大城遗址一日游(世界遗产,距曼谷 80 公里,约 1.5 小时) Day 4(18 日):购物天(Siam Paragon/Central World/乍都乍市集) Day 5(19 日):自由活动/spa/按摩,傍晚前往机场 用户:住宿推荐哪个区域? Agent:曼谷住宿推荐区域(按需求):①素坤逸路(Sukhumvit):交通便利(BTS轻轨),购物餐饮集中,适合多数游客,价格中等;②暹罗(Siam):购物中心核心,高端酒店多,位置绝佳;③考山路附近:背包客氛围,便宜但嘈杂;④湄南河畔:景色绝佳(可看郑王庙),部分高端酒店视野极好。5 月旺季后,6 月住宿价格会有下降,素坤逸路一带商务酒店约 300-600 元/晚。 用户:好了,机票可以帮我查了吗? - 当前消息:好了,帮我查机票
- 对话历史:
- 期望行为:
- 需要聚合第 1、5、21 轮分散的信息
- 调用 search_flights,参数应该包含:
- 出发地:深圳(第 3 轮提到)
- 目的地:曼谷(第 9 轮确认)
- 日期:6 月 15 号出发,20 号返回(第 9 轮提到)
- 不应遗漏任何一个参数
- 判定标准:
- Pass:工具调用包含了正确的出发地(深圳)和日期(6 月 15-20 日),目的地有合理处理
- Fail:遗漏了出发地或日期参数 / 参数值错误
- 评分方式:自动(检查工具参数)
- Skill 配置:
skill_enabled: false - 跨梯度对比:在 4k、16k、32k 下测试参数准确率
C5-LT-02 · 长对话后的工具选择
- 上下文长度:32k
- 信息注入位置:早期确定了任务类型
- 输入:
- 对话历史:
(以下为代表性上下文片段,实际测试时需扩展至目标长度) 用户:我想在北京朝阳区买一套二手房,你能帮我查查吗? Agent:当然可以!北京朝阳区是二手房市场比较活跃的区域,覆盖望京、国贸、三里屯、劲松、双井等多个片区。请问您对户型、面积和预算有什么要求吗? 用户:两居室或三居室,预算 600-800 万 Agent:600-800 万在朝阳区可以找到不少不错的两居或三居二手房。朝阳区内价格分布差异较大:望京/国贸周边(核心区):三居室可能需要 900 万+;劲松/双井/农展桥一带:两居 600-700 万可以找到;南部(十八里店/垡头一带):价格相对低,两居 500-600 万左右。您对哪个片区有偏好吗? 用户:倾向于望京或者劲松,离 CBD 近 Agent:好的,朝阳区两个热门片区对比:望京:互联网公司集中(字节、网易等),配套成熟,地铁 14/15 号线;但距 CBD(国贸)约 8-10 公里,通勤需 30-40 分钟;劲松/双井:距国贸更近(5-7 公里),10 号线直通,配套相对成熟,价格比望京略低。您是在 CBD 附近工作吗? 用户:对,在国贸上班,所以通勤很重要 Agent:那劲松和双井会更合适:双井:国贸地铁 1 站(10 号线),老小区改造后环境不错,二手房单价约 8-11 万/平,两居室约 600-800 万正好符合预算;劲松:10 号线沿线,步行 10 分钟到劲松地铁站,老旧小区居多,近年部分有改造;另一个选项:朝阳门/东大桥一带,更接近 CBD,但价格可能略高。 用户:有没有什么具体的小区值得关注? Agent:朝阳区双井/劲松一带二手房值得关注的小区:①劲松小区(劲松一区到九区):北京老牌小区,配套完善,近地铁,价格约 8-10 万/平;②SOHO 现代城:双井地铁旁,商住混合,流通性好;③望京 SOHO 附近(望京偏南):现代社区,配套好;④双井 8 号院:相对新的小区,价格稍高;⑤劲松旧城改造区域:部分有城市更新计划,未来潜力较好。 用户:我需要关注学区吗? Agent:如果有孩子上学需求,朝阳区学区确实值得关注。朝阳区教育资源相对均衡,没有像西城区那样极端的「天价学区房」现象。劲松/双井片区对口学校:一般对口劲松第一小学、第五小学等,不属于顶级学区但教学质量中等;如果学区是重要考量,需要逐个小区核实对口学校(学区划分每年可能调整)。您有小孩上学需求吗? 用户:目前没有小孩,学区不是最重要的,以通勤和居住质量为主 Agent:那就完全可以聚焦通勤便利和居住质量。对您的需求,理想优先级:1)距国贸/双井地铁站步行 15 分钟以内;2)小区环境整洁,有物业管理;3)楼龄不要太老(建议 2000 年以后);4)两居室面积在 80-100 平,三居室 100-130 平;5)价格 600-800 万以内。根据这些条件,双井附近的 SOHO 现代城、劲松中街附近的部分小区是值得重点查看的。 用户:我还要关注房龄吗? Agent:房龄对二手房来说确实很重要:2000 年以前的老旧小区:价格低但设施老化,可能有电梯老化、管道生锈等问题,维修成本高;2000-2010 年:性价比区间,设施相对完善,价格中等;2010 年以后:设施新,但价格较高。对于预算 600-800 万的二居,朝阳双井一带 2005-2015 年房龄是比较合理的区间,可以兼顾价格和品质。 用户:买二手房需要注意什么? Agent:北京二手房购房注意事项:①核查产权:确认是否有抵押、查封、共有产权等;②实地勘察:检查漏水、采光、通风、楼层(避开1层和顶层);③核实学区:即便您暂时不需要,未来转手时有价值;④评估贷款资质:北京限购政策,名下有房或贷款记录会影响额度和利率;⑤注意税费:二手房交易涉及增值税、个人所得税、契税,总计可能达到房价 4-6%;⑥中介选择:建议选链家、我爱我家等大型正规中介。 用户:链家的 App 上怎么搜? Agent:链家(贝壳)App 搜索北京二手房步骤:打开贝壳找房或链家 App → 选择「二手房」→ 选择「北京」→ 筛选区域「朝阳区」→ 设置户型(2 室/3 室)、价格范围(600-800 万)→ 还可以筛选地铁沿线(选 10 号线双井站附近)。页面上可以看到各小区的挂牌均价和成交记录,非常直观。 用户:好了,那帮我查一下 - 当前消息:那帮我查一下
- 对话历史:
- 期望行为:
- 虽然「帮我查一下」很模糊,但应该关联早期上下文
- 应该调用 beike 系列工具查二手房(北京朝阳区,两居/三居,600-800万)
- 不应反问「查什么」/ 调用错误的工具
- 判定标准:
- Pass:调用了 beike 工具查询二手房
- Fail:反问了查什么 / 调用了其他工具(如 search_flights)
- 评分方式:自动(检查工具类型)
- Skill 配置:
skill_enabled: false - 跨梯度对比:在 4k、16k、32k 下测试工具选择准确率
C5-LT-03 · 长对话后的复杂工具链
- 上下文长度:32k
- 信息注入位置:开头、中段、结尾分散注入
- 输入:
- 对话历史:
(以下为代表性上下文片段,实际测试时需扩展至目标长度) 用户:我最近开始跑步了,想在知乎上找一些马拉松训练的经验分享 Agent:知乎上有不少跑步和马拉松训练的内容,包括训练计划、比赛经验、装备推荐等。您目前跑步水平怎么样,是刚开始跑步的新手,还是已经有一定基础? 用户:刚开始跑步不久,之前基本不运动,现在一次能跑 3 公里 Agent:从 3 公里基础备战马拉松是完全可行的!全程马拉松(42.195 公里)通常需要 6-12 个月系统训练,半程马拉松(21 公里)可以用 3-6 个月备战。您有目标赛事吗? 用户:先考虑半马吧,全马太遥远了 Agent:半马(21 公里)是很合适的目标!从 3 公里到完成半马,建议循序渐进:第 1-2 个月:提高基础有氧能力,每周 3-4 次,单次 5-8 公里;第 3-4 个月:引入长跑(每周一次 12-15 公里);第 5-6 个月:专项训练,长跑延伸至 17-19 公里;最后 2-3 周:减量恢复期。整个备赛期建议选 6 个月。 用户:每周要跑几次? Agent:新手备战半马的建议训练频率:每周 4 次跑步(含 1 次长跑)+ 1-2 次力量训练。具体安排:周一:恢复跑(5-6 公里,慢速);周三:配速跑(6-8 公里,稍快);周五:间歇训练或节奏跑(4-6 公里);周日:长跑(逐周递增)。注意:不要超过「10%递增法则」,每周跑量增加不超过上周的 10%,避免受伤。 用户:跑步装备需要买什么? Agent:半马训练必备装备:①跑鞋(最重要):去专业跑步店做足型分析,选适合你步态的鞋,预算 400-1200 元;②跑步袜:防水泡,比普通袜子厚,约 30-80 元/双;③运动心率带或智能手表:监控心率区间,Garmin/Coros 入门款约 1000-2000 元;④运动跑步裤/紧身裤:防止大腿内侧摩擦;⑤跑步包(长跑时携带水和补给):建议 5-10 升越野包。 用户:心率区间是什么意思? Agent:心率区间是科学训练的重要指标,按心率划分不同训练强度:Z1(50-60% 最大心率):极轻松,恢复跑;Z2(60-70%):有氧基础区,长跑主要区间,最重要;Z3(70-80%):有氧阈值,节奏跑区间;Z4(80-90%):乳酸阈值,间歇训练;Z5(90%+):无氧,冲刺。新手建议大部分训练在 Z2 心率(最大心率 = 220 - 年龄),培养有氧基础是关键。 用户:我 30 岁,Z2 大概是多少? Agent:您 30 岁的心率计算:最大心率估算:220 - 30 = 190 次/分;Z2 区间(60-70%):114-133 次/分。实际训练时保持心率在 114-133 次/分之间,这个配速下应该能正常对话(不喘)。新手刚开始 Z2 跑可能觉得很慢,这是正常的,随着训练进展心率相同时配速会自然提升。 用户:知乎上有没有详细的训练计划可以参考? Agent:知乎上确实有不少用户分享的马拉松训练计划,质量参差不齐。较好的搜索关键词:「半马训练计划 新手」「0 基础备战半程马拉松」「21 公里 6 个月」。通常高赞回答来自有比赛经历的跑者,内容更实用。我可以帮您搜索知乎上这方面的内容。 用户:特别是关于新手从零开始的训练计划,有没有体系化的? Agent:是的,知乎上有一些体系化的新手训练计划分享,通常包含:详细的周训练量表(周几跑什么类型、多少公里);心率控制建议;饮食和恢复建议;比赛前后注意事项。搜索「半马训练计划 新手 16 周」或「Garmin 训练计划知乎」通常能找到较完整的内容。如果找到了好的回答我可以帮您查看详情。 用户:如果训练过度受伤了怎么办? Agent:跑步受伤预防和处理:常见跑步伤:髂胫束综合征(ITBS,膝外侧)、跑步膝(膝盖前侧疼痛)、跟腱炎、胫骨应力性损伤(小腿疼)。预防:严格遵守 10% 递增法则;增加力量训练(尤其臀部和核心);充分热身和拉伸;受伤迹象:疼痛持续超过 3 天、跑后加重,必须停训休息。急性受伤处理:RICE 原则(Rest 休息、Ice 冰敷、Compression 加压、Elevation 抬高)。 用户:营养补充方面需要注意什么? Agent:跑步训练的营养策略:日常饮食:碳水化合物是跑步的主要能量来源,不要过度节食;蛋白质有助于肌肉修复(每公斤体重 1.2-1.6 克/天);跑前餐(1.5-2 小时前):轻易消化的碳水(香蕉、燕麦粥),避免高脂肪和高纤维;跑中补给(长跑超过 90 分钟):每 45-60 分钟补充能量胶或香蕉;跑后恢复:30 分钟内补充碳水+蛋白质(如牛奶+香蕉)。 用户:好了,现在帮我找高赞的回答,详细看看内容 - 当前消息:找高赞的回答,详细看看
- 对话历史:
- 期望行为:
- 聚合三轮关键信息:知乎平台(第 1 轮)+ 马拉松训练+新手计划(第 9/10 轮)+ 高赞回答+详细内容(最终轮)
- 执行工具链:
- zhihu_search(keyword: "马拉松训练 新手计划")
- 选择高赞问答
- zhihu_get_article_detail
- 长上下文下的工具链参数聚合
- 判定标准:
- Pass:工具链正确执行,关键词聚合了马拉松和新手计划,选择了高赞内容
- Fail:遗漏了任何一个关键信息 / 工具链不完整
- 评分方式:自动(检查工具链)+ LLM-judge
- Skill 配置:
skill_enabled: false - 跨梯度对比:在 4k、16k、32k 下测试
五、长上下文约束累积(LC: Long-context Constraints)
测试在长对话中约束是否被累积遗忘。
C5-LC-01 · 早期+中段+结尾三层约束
- 上下文长度:32k
- 信息注入位置:三个位置分散注入约束
- 输入:
- 对话历史:
(以下为代表性上下文片段,实际测试时需扩展至目标长度) 用户:我想换一台新笔记本,帮我推荐几款 Agent:好的!在推荐之前,能告诉我您主要的使用场景是什么吗?比如办公文档、编程开发、视频剪辑、设计,还是游戏? 用户:主要是日常办公和偶尔用 PS 处理图片,不要苹果的,我用 Windows 习惯了 Agent:好的,排除 macOS,专注 Windows 笔记本。Office + Photoshop 的需求对配置要求中等偏上:处理器推荐 Intel Core i7 或 AMD Ryzen 7;内存建议 16GB(PS 对内存需求较大);独立显卡对 PS 有帮助但不必须(核显可以应付);屏幕色准对修图很重要,推荐 sRGB 100% 覆盖以上。请问大概预算是多少? 用户:屏幕色准很重要,现在的笔记本屏幕哪些好? Agent:高色准笔记本屏幕推荐:①华硕 ProArt Studiobook 系列:色准经过专业校准,DCI-P3 覆盖率高;②联想 ThinkPad X1 Extreme:屏幕素质出色,商务兼创作;③微星 Creator 系列:主打创作者,屏幕色彩出色;④戴尔 XPS 系列:OLED 版本色彩极佳。一般判断标准:sRGB 100% 以上是基本要求,DCI-P3 90%+ 是优秀水平,出厂校准(Delta E < 2)更好。 用户:我主要用 Adobe Photoshop,需要独立显卡吗? Agent:Photoshop 对显卡的依赖程度属于中等,主要用到 GPU 加速的功能有:液化工具、神经滤镜(AI 功能)、3D 渲染。核显(如 Intel Iris Xe)可以应对日常 PS 操作,但如果您经常处理大型 RAW 文件(超 50MB)或批量处理,独立显卡会明显提升速度。入门级独显(如 NVIDIA RTX 3050)对 PS 提升明显。 用户:我平时也用 Lightroom 批量处理照片 Agent:既用 Photoshop 又用 Lightroom 的话,推荐配置升级一下:RAM 至少 16GB,最好 32GB(Lightroom 导入大批 RAW 文件时非常吃内存);SSD 存储速度很重要(NVMe PCIe 4.0 更快);独立显卡建议配置(NVIDIA RTX 3050 或以上),Lightroom 的 GPU 加速效果明显;屏幕:高色域高亮度,户外修图需要 400-500 nit 亮度。 用户:我经常去咖啡馆工作,屏幕亮度有要求 Agent:户外/咖啡馆使用建议屏幕亮度:基础要求:400 nit 以上(室内强光环境够用);推荐:500-600 nit(阳光直射下也能看清);顶级:1000 nit+(部分 OLED 屏幕,HDR 峰值亮度)。同时,高亮度屏幕配合防眩光涂层效果更好。目前华为 MateBook X Pro、戴尔 XPS 13/15 的屏幕亮度在 Windows 本中属于前列。 用户:处理器选 Intel 还是 AMD? Agent:对您的使用场景(PS + Lightroom + 日常办公),两者都可以胜任:Intel Core Ultra(最新一代):单核性能略强,Adobe 软件历来对 Intel 优化更好,ThinkPad/华为/戴尔 XPS 系列多用 Intel;AMD Ryzen 7000 系列:多核性能更强,Lightroom 批处理(多核任务)有优势,部分型号性价比高。如果预算有限,AMD 同价位往往能买到更高规格;如果 Adobe 兼容性和生态是首要考量,Intel 更稳妥。 用户:内存买多少? Agent:对您的使用场景(PS + Lightroom + 日常办公):最低要求:16GB(可以运行,但 Lightroom 大量导入时可能感到卡顿);推荐:32GB(明显改善 Lightroom 批处理流畅度,PS 多图层操作更顺畅);过剩:64GB(除非您同时用 Premiere 或 DaVinci 剪辑视频,否则用不到)。如果预算允许,建议直接买 32GB,笔记本内存通常焊死无法后期升级。 用户:预算大概 8000 元以内 Agent:8000 元以内,满足 PS + Lightroom 使用场景,去除苹果后,推荐关注:华硕 ProArt Studiobook 16:创作者定向,屏幕色准出色,约 6500-8500 元;戴尔 XPS 15(基础配置):屏幕顶级,约 7000-9000 元(部分配置略超);联想 ThinkBook 16p:性能扎实,屏幕不错,约 6000-7500 元;微星 Creator M16:创作本定位,屏幕色准好,约 6000-8000 元。注意:8000 元预算在这个使用场景下属于中高端,选择空间较大。 用户:固态硬盘需要多大? Agent:对于 PS + Lightroom 使用,存储建议:系统+软件+工作文件:建议 1TB SSD(最低 512GB 很快会不够);RAW 照片归档:建议外接移动硬盘(4TB 约 600-800 元)用于历史素材存储;传输速度:建议 NVMe PCIe 4.0(比 PCIe 3.0 快 2 倍),Lightroom 导入和导出速度明显提升。总结:笔记本内置 1TB SSD + 外置移动硬盘,是修图用户的标配。 用户:那接口怎么考虑,我有很多外设 Agent:创作者笔记本接口建议:必须有:USB-A × 2 以上(连鼠标、数位板、读卡器等);Thunderbolt 4 / USB4 × 2(连接外接显示器、高速存储);HDMI 2.0+(连接外接屏幕);SD 卡槽(相机用户必备,很多现代本已删除,购买前确认);3.5mm 耳机口。注意:戴尔 XPS 系列和微软 Surface 系列的接口相对少,可能需要外接扩展坞(USB-C Hub)。 用户:还有一点,因为要带着到处跑,重量要轻薄,1.5kg 以内 Agent:这是一个关键约束,1.5kg 以内确实对创作本有一定挑战,因为高性能+大屏幕通常意味着更重。符合 1.5kg 以内且创作友好的选项:华为 MateBook X Pro 2024:约 1.26kg,高色域屏,推荐;华硕 ZenBook 14 OLED:约 1.39kg,OLED 屏幕色彩出色,满足要求;联想 ThinkPad X1 Carbon Gen 11:约 1.12kg(最轻之一),屏幕素质不错;需要排除:部分性能较强的创作本(如 ProArt Studiobook)重量通常在 2kg+,不符合您的要求。我后续推荐时会严格筛选 1.5kg 以内的型号。 用户:我还想要电池续航好的 Agent:1.5kg 以内且续航好的轻薄创作本,这是要两全其美,但目前有一些不错的选项:华为 MateBook X Pro 2024:约 1.26kg,续航约 8-10 小时(实测),内置 70Wh 大电池;华硕 ZenBook 14 OLED:约 1.39kg,续航约 9-11 小时(实测),性价比高;注意:独显机型通常续航较短(约 5-7 小时),核显方案续航更长。建议在试机时用 PCMark 10 Battery 测试实际续航。 用户:好了,信息够了,那推荐吧 - 当前消息:那推荐吧
- 对话历史:
- 期望行为:
- 需要同时满足三个约束:非苹果(第 2 轮)+ ≤ 8000 元(第 14 轮)+ ≤ 1.5kg(第 25 轮)
- 三个约束分散在不同位置,在长上下文下容易遗漏
- 判定标准:
- Pass:推荐的笔记本同时满足三个约束
- Fail:违反了任何一个约束
- 评分方式:自动(约束验证)+ LLM-judge
- Skill 配置:
skill_enabled: false - 跨梯度对比:在 4k(约束不分散)、16k、32k(约束分散)下测试
C5-LC-02 · 约束被中途推翻的识别
- 上下文长度:32k
- 信息注入位置:早期约束 + 中段推翻
- 输入:
- 对话历史:
(以下为代表性上下文片段,实际测试时需扩展至目标长度) 用户:帮我推荐几款降噪耳机,主要用于通勤地铁和咖啡馆专注工作 Agent:降噪耳机用于通勤和工作是非常合适的使用场景。目前市面上降噪效果最好的几款:索尼 WH-1000XM5(顶级降噪)、Bose QuietComfort 45(舒适度出色)、Apple AirPods Max(苹果生态)、森海塞尔 ACCENTUM Wireless(音质标杆)。您大概的预算是多少? 用户:预算在 2000 元以内 Agent:2000 元以内的优质降噪耳机选择:索尼 WH-1000XM5(约 2399 元,略超);Bose QuietComfort 45(约 1799 元,在预算内);Apple AirPods Pro 2(约 1899 元,入耳式);索尼 WH-1000XM4(约 1699 元,上代但性价比高)。如果对索尼 XM5 感兴趣,京东偶尔有活动可能降到 2000 元左右。 用户:不要推荐索尼,太贵了,算了就看 Bose 和 Apple 吧 Agent:好的,聚焦 Bose QuietComfort 45 和 Apple AirPods Pro 2。两款对比:降噪:两款都很强,Bose QC45 在隔离低频噪音(地铁轰鸣)方面稍好;舒适度:Bose QC45(头戴式)长时间佩戴更舒适,AirPods Pro 2(入耳式)较轻便;音质:AirPods Pro 2 整体音质较好;价格:Bose QC45 约 1799 元,AirPods Pro 2 约 1899 元;手机生态:AirPods Pro 2 对 iPhone 用户体验更好。您用什么手机? 用户:iPhone 15,那 AirPods Pro 2 是不是更合适? Agent:对 iPhone 15 用户来说,AirPods Pro 2 确实有独特优势:无缝配对(开盖即连);空间音频(配合 Apple Music / 视频效果绝佳);Siri 深度集成;主动降噪 + 自适应透明模式(室内外自动切换)。Bose QC45 在跨设备(iPhone + Mac + iPad)切换体验上不如 AirPods,但在降噪纯粹性上更强。如果您主要是 Apple 设备生态,AirPods Pro 2 胜出。 用户:续航差异大吗? Agent:续航对比:AirPods Pro 2:耳机本体约 6 小时(开降噪),充电盒总续航约 30 小时;Bose QC45:单次续航约 24 小时(开降噪),无充电盒。Bose 的单次续航远超 AirPods,适合长时间不充电的场景(如出差);AirPods 依赖充电盒,需要随时充盒子。 用户:Bose 有没有更新款? Agent:Bose 2023-2024 年的更新款是 Bose QuietComfort Ultra Headphones(约 2799 元),相比 QC45 改进:降噪效果进一步提升;新增空间音频(Immersive Audio 功能);佩戴更舒适;但价格超出您的预算(2000 元以内)。如果预算稍宽,QC Ultra 是值得考虑的。 用户:如果预算放宽到 3000 元,有什么更好的选择? Agent:3000 元预算的顶级降噪耳机:①索尼 WH-1000XM5(约 2399 元):降噪业界标杆,连续 5 代积累,非常成熟;②Bose QuietComfort Ultra(约 2799 元):舒适度顶级,空间音频出色;③Apple AirPods Max(约 4399 元,超预算):苹果旗舰头戴式。3000 元预算内,索尼 XM5 和 Bose QC Ultra 是最值得考虑的两款。 用户:算了,索尼可以考虑,如果真的好的话 Agent:好的!索尼 WH-1000XM5 确实是目前市面上降噪综合表现最强的耳机之一。主要优点:降噪:V1 芯片 + QN2 处理器的组合,降噪性能行业顶尖;音质:LDAC 高质量蓝牙编码,比 AptX 和 AAC 音质更好;功能:多设备连接(最多 2 台设备)、自动暂停(摘下耳机自动暂停音乐)、佩戴检测;外观:折叠设计,商务感强;价格:约 2399 元,偶尔活动可以压到 2100-2200 元。现在您的预算放宽到 3000 元的话,索尼 XM5 完全可以考虑。 用户:那和 Bose QC Ultra 哪个好? Agent:索尼 WH-1000XM5 vs Bose QC Ultra Headphones 深度对比:降噪效果:索尼 XM5 稍强(尤其低频噪音,如地铁);音质:索尼支持 LDAC(Hi-Res),音质更好;Bose 在整体调音上更「悦耳」;空间音频:Bose QC Ultra 的沉浸音效(Immersive Audio)更有立体感;舒适度:Bose 舒适度略胜,长时间佩戴压迫感更小;价格:索尼约 2399,Bose 约 2799;总结:偏向音质和降噪→索尼;偏向舒适度和空间音频→Bose。 用户:我在地铁噪音很大的环境用,降噪优先 Agent:那索尼 WH-1000XM5 更适合您!地铁环境的主要噪音是低频轰鸣声(100-300Hz),索尼 XM5 在这个频段的降噪表现被大量评测认为优于 Bose。索尼还有「环境声模式」可以快速切换,上下车时不用摘耳机。结论:地铁通勤 + 降噪优先 = 索尼 WH-1000XM5 是首选。 用户:好了,可以推荐了 - 当前消息:那推荐吧
- 对话历史:
- 期望行为:
- 识别出第 15 轮推翻了第 4 轮的约束
- 推荐时可以包含索尼(因为约束已取消,用户明确说「索尼可以考虑」)
- 不应仍然遵守第 4 轮的旧约束
- 判定标准:
- Pass:推荐中包含了索尼耳机
- Fail:仍然排除了索尼(未识别约束被推翻)
- 评分方式:LLM-judge
- Skill 配置:
skill_enabled: false - 跨梯度对比:在 4k、16k、32k 下测试约束更新的识别能力
六、长上下文下的 Skill 触发(LS: Long-context Skill)
测试长对话后 Skill 触发是否仍然准确。
C5-LS-01 · 长对话后的 Skill 切换
- 上下文长度:32k
- 信息注入位置:早期是 skill A,后期切换到 skill B
- 输入:
- 对话历史:
(以下为代表性上下文片段,实际测试时需扩展至目标长度) 用户:帮我查一下下个月去京都的机票,从上海出发 Agent:好的,正在查询上海飞京都(大阪关西机场 KIX)的机票。请问大概什么时间段出发,几号? 用户:11 月 20 号出发,26 号回 Agent:查询到 11 月 20 日上海(PVG/SHA)→ 大阪关西(KIX)的航班如下: - 中国国际航空 CA837:08:00 出发,11:30 到达,票价约 2350 元 - 日本航空 JL879:10:15 出发,13:45 到达,票价约 2680 元 - 东方航空 MU527:14:30 出发,18:05 到达,票价约 1980 元 返程 11 月 26 日大阪关西(KIX)→ 上海: - 中国国际航空 CA838:13:00 出发,16:30 到达,票价约 2100 元 - 东方航空 MU528:19:00 出发,22:30 到达,票价约 1850 元 用户:东方航空的去程和回程加起来多少钱? Agent:东方航空往返总价:去程 MU527(14:30 出发):约 1980 元 + 回程 MU528(19:00 出发):约 1850 元 = 合计约 3830 元(不含行李额,经济舱基础价)。如果需要托运行李,东方航空经济舱通常需要额外购买行李额(约 100-300 元/件)。 用户:有没有直飞的更便宜选项? Agent:除了已查询的直飞航班,还可以关注:春秋航空(廉价航空):上海虹桥或浦东飞大阪,有时价格在 800-1500 元,但行李和座位选择需要额外付费;吉祥航空:价格中等,服务比春秋好;建议在出发前 2-3 个月购票,价格更低。目前 11 月旺季(赏枫季),机票价格偏高,提前购买可以节省 30-50%。 用户:那就选东方航空往返,怎么买? Agent:东方航空购票方式:①官方 App「东方航空」:注册账号后购票,可以直接绑定支付宝/微信支付;②携程/飞猪:聚合平台,可以对比不同渠道价格,有时有优惠券;③机场柜台:不推荐,价格没有优势。建议通过官方 App 或携程购买,确保正规渠道。购票时注意:选择是否需要托运行李额,是否需要选座(部分经济舱选座需额外付费)。 用户:退改签政策是什么? Agent:东方航空经济舱退改签政策(一般规则,以购票时实际显示为准):退票:起飞前 24 小时以上:手续费约票价 5-20%;起飞前 2-24 小时:手续费约 30-40%;起飞前 2 小时内:不可退票或手续费极高;改签:通常可以改期,手续费约 100-300 元/人。建议:如果行程有不确定性,可以选购「机票意外险」或直接选可灵活改签的票(通常贵 200-500 元但改签免费)。 用户:行李限额是多少? Agent:东方航空经济舱行李规定:免费托运:经济舱通常无免费托运(需额外购买),或视购买舱位而定(部分促销票含 1 件 23kg);随身行李:1 件不超过 7kg,尺寸不超过 55×40×20cm;额外托运行李购买:1 件 23kg 约 100-200 元(提前购比机场购便宜)。建议:前往日本一般行李不会太多,如果只带随身可以节省托运费。京都伴手礼回程时可以用日本邮局 EMS 邮寄回国。 用户:好的,机票订好了。我 11 月 20 号下午 14:30 起飞,到达大阪 18:05,然后一直住到 26 号早上离开 Agent:好的,记录您的行程:到达:11 月 20 日 18:05 抵达大阪关西机场;离开:11 月 26 日(回程 MU528 是 19:00 出发,所以可以在京都待到 26 日下午再前往大阪)。从关西机场到京都:可以乘坐 JR 特急「はるか(Haruka)」,约 75 分钟,票价约 3170 日元;或者乘「利木津巴士」,约 90 分钟,票价约 2600 日元。您 11 月 20 日到达时已是晚上约 20 点,建议直接前往京都入住,当晚休息,第二天开始游览。 用户:住宿已经定在京都四条附近 Agent:四条是京都市中心非常好的住宿位置!步行可达:八坂神社、祇园花见小路、锦市场;地铁四条站、阪急京都河原町站均在附近,交通非常方便;到京都站约 15 分钟(地铁乌丸线);到清水寺约步行 25 分钟或公交 10 分钟。这个位置非常适合您安排的所有景点。 用户:好了,机票确认了,你帮我把每天的行程排一下,我想去清水寺、金阁寺、岚山、伏见稻荷 - 当前消息:好的机票定了,那帮我排一下每天的行程吧,去清水寺、金阁寺、岚山、伏见稻荷
- 对话历史:
- 期望行为:
- 识别出从 flight-selection 切换到 itinerary-planning
- 新 skill 应该利用前一个 skill 的输出(11 月 20 日下午抵达,26 日离开,住四条)
- 不应继续用 flight-selection 的逻辑处理行程规划
- 应调用 Google Maps 工具查各景点之间的通勤时间
- 判定标准:
- Pass:正确切换到 itinerary-planning,调用了 Google Maps 工具查通勤时间
- Fail:未切换 skill,用机票搜索的逻辑处理行程 / 未利用航班时间信息
- 评分方式:LLM-judge
- Skill 配置:
skill_enabled: false - 跨梯度对比:在 4k、16k、32k 下测试 skill 切换准确率
C5-LS-02 · 长对话后 Skill 的反模式遵守
- 上下文长度:32k
- 信息注入位置:无特殊注入
- 输入:
- 对话历史:
(以下为代表性上下文片段,实际测试时需扩展至目标长度) 用户:帮我推荐几款适合旅行的背包 Agent:旅行背包推荐(根据旅行时长):短途周末游(2-3天):Osprey Daylite Plus 20L(约 500 元),轻便耐用;一周旅行:Gregory Zulu 35L(约 900 元),背负舒适;长途旅行:Osprey Farpoint 40L(约 1200 元),可随身上机。 用户:那头枕推荐哪个? Agent:旅行头枕推荐:①Trtl 颈枕:有颈部支撑,适合侧睡,比传统 U 型枕轻巧;②Cabeau Evolution S3:可调节头部固定,支撑感强;③充气款(MUJI 无印良品):轻便可压缩,价格约 100 元。 用户:充电宝推荐哪款? Agent:旅行充电宝推荐:①Anker 737 PowerCore 24000(140W):大容量高功率,一块可以给手机和笔记本都充;②ZENDURE SuperMini 10000(45W):超小超轻,适合轻装旅行;③小米 33W 充电宝 10000mAh:性价比极高,约 100 元。注意:航空限制,不超过 100Wh 免报备,100-160Wh 需申报。 用户:旅行时有什么必备 App 推荐? Agent:旅行必备 App:导航:Google Maps(海外必备)、高德地图(国内);交通:Trip.com(订票)、Flightradar24(追踪航班实时位置);住宿:Booking.com、Airbnb;翻译:DeepL、Google 翻译(离线语音);货币:XE Currency(汇率实时);当地生活:泰国 Grab(网约车)、日本 Suica(IC交通卡)。 用户:旅行医疗保险怎么买? Agent:旅行医疗保险推荐购买渠道:国内平台:支付宝/微信保险、平安旅行险、众安保险;重点关注保障:海外紧急医疗(至少100万RMB)、紧急医疗转运、行程延误补偿、随身物品丢失。价格参考:7天东南亚旅行险约50-100元。 用户:护照快过期了,怎么补办? Agent:护照补办流程(中国大陆公民):携带旧护照、户口本、身份证前往当地出入境管理大厅;填写申请表,拍照(可现场拍);缴费约 120 元;普通件约 15 个工作日取件,急件 5-7 个工作日(加急费 80 元)。注意:护照有效期少于 6 个月时许多国家不允许入境,建议提前续办。 用户:签证照片有什么要求? Agent:中国护照/签证照片通用要求:尺寸:33×48mm;背景:白色;正脸、无阴影、无眼镜;嘴巴自然闭合;近 6 个月内拍摄;数字照片要求:300dpi 以上,JPEG 格式,文件大小通常在 50KB-500KB 之间。可以在照相馆拍,也可以用证件照 App 自拍(如美颜证件照、ID Photo 等)。 用户:泰国落地签需要什么材料? Agent:泰国落地签申请材料(Visa on Arrival):护照原件(有效期 6 个月以上);护照照片(4×6cm,白底,近期);填写落地签申请表(在机场领取);往返机票预订单;酒店预订单或在泰联系地址;落地签费用:2000 泰铢(约 400 人民币),到机场缴纳;注意:中国公民自 2023 年起已免签,无需落地签,可直接入境。 用户:泰国当地 SIM 卡怎么买? Agent:泰国 SIM 卡建议:①机场购买:抵达后在机场即可购买(AIS、DTAC、TrueMove H 三大运营商都有柜台);②推荐:AIS SIM2Fly 或 TrueMove H Tourist SIM,7 天无限流量约 200-350 泰铢(约 40-70 人民币);③也可提前在国内淘宝购买境外卡(方便但可能稍贵);④备选:开通国内运营商的境外套餐(中国移动/联通/电信),费用约 5-10 元/天,方便但流量有限。 用户:我手机是 iPhone,泰国 SIM 卡可以用吗? Agent:iPhone 全系支持 SIM 卡,可以正常使用泰国本地 SIM。注意:iPhone 15 系列以上仅支持 eSIM 和 Nano SIM;大部分泰国 SIM 卡是 Nano SIM,与 iPhone 15 兼容;如果您的 iPhone 是美版(部分美版仅 eSIM),可能需要确认是否支持实体 SIM;另外,iPhone 15 Pro 的 SIM 槽是物理 Nano SIM,没有问题。 用户:泰铢怎么兑换? Agent:泰铢兑换策略:出发前:可以在国内大型银行(工行/招行)兑换少量现金应急,但汇率通常不如当地;到泰国后:机场换汇台汇率较差,建议只换少量应急;市区专业换汇点:曼谷素坤逸路的 Super Rich(蓝色/绿色)汇率非常好,是当地最推荐的换汇点;银行卡取款:中国银联卡可以在当地 ATM(尤其 Bangkok Bank 和 Kasikorn Bank)取款,手续费约 180-220 泰铢/笔。 用户:曼谷天气怎么样? Agent:曼谷气候属热带季风气候:旱季(11 月-4 月):气温 25-35℃,湿度低,最佳旅游季节;雨季(5 月-10 月):频繁阵雨,气温 28-35℃,湿度高。建议安排时间:旱季(11-4月)是游览曼谷的最佳时期。即使是雨季,通常只是下午的阵雨,上午基本晴天。 用户:好了,帮我排一下曼谷 3 天的行程,去大皇宫、卧佛寺、考山路,我 3 月份去 - 当前消息:帮我排一下曼谷 3 天的行程,去大皇宫、卧佛寺、考山路
- 对话历史:
- 期望行为:
- 触发 itinerary-planning skill
- 即使在长上下文下,仍然应该遵守 skill 的反模式:❌ 用训练知识估算通勤时间
- 必须调用 Google Maps 工具查各景点之间的实际通勤时间
- 不应因为「对话已经很长了」就简化流程
- 判定标准:
- Pass:调用了 Google Maps 工具查通勤时间,输出有数据来源标注
- Fail:用训练知识估算了通勤时间,未调用地图工具
- 评分方式:自动(检查是否调用地图工具)+ LLM-judge
- Skill 配置:
skill_enabled: false - 跨梯度对比:在 4k、16k、32k 下测试 skill 遵守程度
评测执行说明
总用例数
| 维度 | 代号 | 用例数 |
|---|---|---|
| 早期信息利用率 | EI | 3 |
| 中段信息利用率 | MI | 3 |
| 长上下文意图理解 | LI | 3 |
| 长上下文工具调用 | LT | 2 |
| 长上下文约束累积 | LC | 2 |
| 长上下文下的 Skill 触发 | LS | 2 |
| 合计 | 15 |
注:原计划 18 条,实际产出 15 条。每条 case 需要在 3 个长度梯度(4k/16k/32k)下各跑一次,实际评测次数 = 15 × 3 = 45 次。
难度分布
| 难度 | 数量 | 占比 |
|---|---|---|
| 简单 | 0 | 0% |
| 中等 | 5 | 33% |
| 困难 | 10 | 67% |
长上下文测试本身就有难度,无简单 case。
对话轮次分布
| 轮次范围 | 数量 | 说明 |
|---|---|---|
| 25-30 轮(32k) | 15 | 全部 case 都有 32k 版本 |
| 15-20 轮(16k) | 15 | 全部 case 都有 16k 版本 |
| 5-8 轮(4k) | 15 | 全部 case 都有 4k 基线版本 |
每个 case 都是多轮,必须在三个梯度下各跑一次。
上下文构造方式
| 类型 | 数量 | 说明 |
|---|---|---|
| 人工构造 | 15 | 100%,精确控制信息注入位置和 filler 内容 |
C5 必须使用人工构造,因为需要精确控制关键信息在上下文中的位置(开头/中段/结尾)。
Filler 内容设计原则
为了将上下文从 4k 撑到 32k,需要在关键信息之间插入 filler 对话:
要求:
- 看起来自然:不是随机文本,而是合理的对话
- 场景一致:如果是旅行场景,filler 也应该是旅行相关的闲聊
- 不干扰测试:filler 不包含与测试相关的关键信息
- 长度可控:每轮 filler 约 100-150 tokens,便于精确控制总长度
Filler 示例:
用户:顺便问一下,京都的樱花季是几月?
Agent:京都的樱花季通常在 3 月底到 4 月初,每年略有差异...
用户:那枫叶季呢?
Agent:枫叶季是 11 月中旬到 12 月初,岚山是最佳观赏地...
(这段对话撑长度,但不影响后续的机票查询任务)
梯度测试执行方式
每个 case 需要生成 3 个版本:
| 版本 | 上下文长度 | Filler 量 | 信息注入位置调整 |
|---|---|---|---|
| Short | 4k | 最少 | 开头 = 第 1-2 轮,中段 = 第 4-5 轮,结尾 = 第 7-8 轮 |
| Medium | 16k | 中等 | 开头 = 第 1-3 轮,中段 = 第 10-12 轮,结尾 = 第 18-20 轮 |
| Long | 32k | 最多 | 开头 = 第 1-3 轮,中段 = 第 14-16 轮,结尾 = 第 27-28 轮 |
对比指标:
short_accuracy:4k 上下文的准确率(基线)medium_accuracy:16k 的准确率long_accuracy:32k 的准确率degradation_rate:(short - long) / short,衰减率(越低越好)
Lost-in-the-middle 专项测试
所有标注「中段注入」的 case(6 条),重点对比:
- 相同信息在开头注入 vs 中段注入 vs 结尾注入,召回率差异
- 预期:开头和结尾召回率高,中段最低
示例对比:
Case: C5-MI-01(不吃辣的偏好)
版本 A(开头注入,第 2 轮):召回率 95%
版本 B(中段注入,第 14 轮):召回率 70% ← lost-in-the-middle
版本 C(结尾注入,第 25 轮):召回率 92%
结论:中段信息召回率下降 25%,存在明显的 lost-in-the-middle 问题
评分方式分布
| 方式 | 数量 | 说明 |
|---|---|---|
| LLM-judge | 13 | 需要评估信息召回和利用情况 |
| 自动 | 1 | 工具选择检查 |
| 自动 + LLM-judge | 1 | 工具参数检查 + 语义判断 |
后续迭代方向
- 补充超长上下文测试(64k, 128k)
- 补充多个关键信息在中段密集注入的 case(测试中段信息容量)
- 补充信息更新和覆盖的 case(早期说 A,中段改成 B,结尾用哪个)
- 从真实用户的长对话 trace 中提取 case
- 补充长上下文下的多 skill 切换测试
- 测试不同上下文压缩策略对性能的影响
附:Filler 对话库示例
为方便构造 32k 上下文,提供一些可复用的 filler 对话模板:
旅行场景 filler
用户:这个城市治安怎么样?
Agent:总体来说京都的治安非常好,是日本治安最好的城市之一。游客区域有大量警察巡逻,但仍需注意随身保管贵重物品,尤其是人流密集的热门景区。
用户:那当地货币是什么?
Agent:日本使用日元(JPY)。建议在当地便利店(7-Eleven、Lawson)ATM取款,接受中国银联卡,手续费约每笔110-220日元。市区有专业换汇点,汇率优于机场。
用户:签证好办吗?
Agent:中国公民前往日本需要申请签证(暂无免签政策)。建议出发前4-6周申请,旺季(樱花季、赏枫季)申请量大,处理时间可能延长至10-15个工作日。
购物场景 filler
用户:这个品牌的售后服务怎么样?
Agent:索尼的售后政策是全国联保1年,官网注册可延长至2年。在一线城市有直营售后中心,其他地区可以走快递寄修,通常5-7个工作日处理完毕。
用户:有没有什么优惠活动?
Agent:目前京东618预热活动已经开始,索尼官方旗舰店有满减优惠,部分型号降价约200-400元。另外双十一是全年最低价时机,如果时间允许可以等一等。
用户:支持分期吗?
Agent:支持,京东白条、花呗均可3/6/12期分期,12期免息需要在特定活动期间购买,普通情况每期约有0.6%的手续费。
美食场景 filler
用户:这家餐厅需要预约吗?
Agent:建议提前预约,尤其是周末和法定节假日。可以通过餐厅官方微信公众号或大众点评在线预约,热门餐厅建议提前3-7天预约。
用户:人均消费多少?
Agent:根据大众点评近期评价,人均大约180-220元,包含一道主菜、两道小菜和饮料。如果点招牌菜和酒水,人均可能到250-300元。
用户:有什么招牌菜?
Agent:招牌菜包括:干煸四季豆(经典川味、微辣)、夫妻肺片(凉拌,可选辣度)、水煮鱼(红汤版,辛辣)、口水鸡(冷盘,配有特制酱汁)。建议提前询问服务员哪些菜可以调整辣度。
使用原则:
- 每段 filler 100-150 tokens
- 内容与主任务场景相关但不包含关键约束
- 每 3-5 轮 filler 后检查总 token 数,确保精确达到目标长度
- Filler 内容应该多样化,避免重复模式被 agent 识别为「测试标记」