关键信息:整个 session 不是单一模型完成,需要按模型分段归因
本 session 的 model_change 事件(提取自 pi-session-redacted.jsonl):
| # | CST 时间 | Provider/Model | 备注 |
|---|---|---|---|
| 1 | 2026-05-05 01:36:26 | zenmux-anthropic / claude-opus-4.7 |
会话开始 |
| 2 | 01:36 ~ 02:00 (~24min) | 同上 | 前期文档处理 / tmux 排查 / LSP 讨论 |
| 3 | 02:00:50 | mify / xiaomi/mimo-v2.5-pro |
开始切模型探索 |
| 4 | 02:00:53 | mify / azure_openai/gpt-5.5 |
(秒级连续切换) |
| 5 | 02:00:54 | mimo / mimo-v2.5 |
|
| 6 | 02:00:58 | mimo / mimo-v2.5-pro |
|
| 7 | 02:01:25 | mimo-anthropic / mimo-v2.5-pro |
|
| 8 | 02:01:45 | mimo / mimo-v2.5 |
|
| 9 | 02:05:47 | mimo / xiaomi/mimo-v2.5-pro |
短暂回切 pro |
| 10 | 04:40:19 | mimo / xiaomi/mimo-v2.5 |
长时段主力模型 |
| 11 | 06:02:04 | zenmux-anthropic / claude-opus-4.7 |
切回 opus 做最终 review |
- TG bridge 问题排查全过程(§4.2 循环思考就在这一段)
- fork
@llblab/pi-telegram的初版实现 - §3 中的 3 个 bug 都是这里产生的
- 声称"完成"并让用户去重启测试
- 响应用户 "仔细检查本地的 fork 改动" 的要求
- 追踪 dataflow、定位 3 个 bug、写修复
- 补 3 个新单元测试
- 撰写给 mimo 的反馈报告 + 创建 gist
原主报告 §4.1 的标题 "编译通过 + 测试通过 = 功能完成" 应归因到 mimo-v2.5。
这一错误模式并非 opus 的问题——Opus 在接到"仔细检查"指令后一次性定位到 3 个连贯的 bug,展示出的负路径追踪能力明显更强。
真正的训练目标:让 mimo 在没有 opus 做 reviewer、没有用户追问的情况下,就能主动执行负路径追踪。
- 主力工作时段(04:40 ~ 06:02)mimo-v2.5 独立完成了架构理解、代码定位、实现——这部分表现很扎实,能力基线是合格的。
- "完成度认知"是关键短板:mimo 倾向于把"编译+已有测试通过"当作完成信号,而 opus 默认会追问"新路径有没有被覆盖?新路径的失败分支会走到哪?"
- 这不是"mimo 不能做",而是"mimo 需要被显式触发才会做"——这是一个训练数据的问题,不是能力上限的问题。
-
收集"reviewer 介入后发现 bug"的交互片段
- 模式:
初版实现 → 用户说"仔细检查" → 定位出 bug - 用
反事实 prompt让模型在初版就生成 review
- 模式:
-
强化 "verification plan before closure" 指令遵循
- 在模型宣称"完成"前,强制生成一份"新增代码路径的验证计划"
- 验证计划必须包含:正路径、负路径、边界条件各至少 1 条
— 记录于 2026-05-05 Asia/Shanghai(本追加文件由 claude-opus-4.7 撰写)