AI思考

2026-04-13

12分钟

五次被打脸的AI——以及每次打脸后发生了什么

AI协作批判性思维记忆管理教练制

我和AI吵了一下午，关于怎么让Agent自己"活过来"

第二篇：五次被打脸的AI——以及每次打脸后发生了什么

> 如果一个AI从来不犯错，要么是你的问题太简单，要么是你没有追问。这篇记录的是Claude被我纠正的五个瞬间——以及为什么每次纠正之后，对话质量都出现了跃升。

记忆污染：Agent会用着用着就废掉

上一篇最后提到了我的恐惧——Agent运行三个月后，积累的记忆会不会变成毒药？

这个恐惧不是多虑。有个学术名字叫Context Rot（上下文腐烂），四种症状：

过载——记忆太多，Agent每次决策都被迫处理大量无关信息。就像你让一个人同时听十个人说话，他哪句都听不清。

干扰——某条不相关的记忆恰好跟当前任务"长得像"。Agent在写小红书标题时，脑子里蹦出一条抖音的经验，因为两条经验的关键词一样——"爆款""标题""高点击"。但小红书的"爆"和抖音的"爆"是两码事。

污染——过时的信息没清理。三个月前的爆款套路，平台早改了算法了，但Agent不知道，还在用。

漂移——最阴险的一种。每次决策的偏差很小，小到你根本注意不到。但偏差在累积。三个月后你发现Agent的输出"总觉得哪里不对"，但你说不清是从哪一步开始变味的。

我把这个担忧说给Claude听。Claude给出了一个三层防御方案：知识类型分离（SOUL/AGENTS/Skills/MEMORY四个文件各管各的）、按需检索（不全量加载记忆，用时再查）、认知隔离（一个Agent一个领域）。

方案本身是合理的。但这不是这一段对话里最有价值的东西。

最有价值的是一个认知转变：记忆管理不是运维问题，是架构问题。

你不能等Agent跑了三个月、记忆烂了再去清理。那时候已经晚了——你根本不知道哪条记忆是"好经验"哪条是"过时噪音"。必须从设计层面就把不同类型的知识隔离开、把检索机制内建进去。

这不是"最佳实践"级别的建议，是"你不这么做就别做"级别的前提。

第二次被打脸：我教Agent的方式是错的

解决完记忆污染的担忧，我跟Claude聊到了另一个话题：怎么教Agent做事。

我描述了我的做法。以视频剪辑为例：

> "我会一步步教它——先导入素材，然后按时间线排列，加转场，调色，加字幕，配音乐，导出。我把每个步骤都写清楚，让它严格按步骤来。"

Claude这次没有委婉。它直接说：这样做是错的。

为什么？因为你教步骤，Agent就只会执行步骤。它不知道"为什么"——为什么这里要加转场、为什么那里不加。当遇到你没预见的情况时（某个片段不适合转场、某种内容需要特殊调色），它不会变通。它只会机械地走完你给它的流程图。

更致命的是：你成了整个系统的天花板。 14个Agent × N个技能，每个技能的每个步骤都要你来设计。你的认知带宽就是系统的能力上限。一个人根本穷举不了所有场景下的所有步骤。

Claude说正确的做法是：定标准，不教步骤。

不写"第一步导入素材，第二步排列时间线"，而是写：

节奏感标准：每个镜头不超过X秒，关键信息前3秒出现
转场标准：只在场景切换时使用，同一场景禁止转场
色调标准：暖色调为主，保持IP视觉一致性
字幕标准：金句必须上字幕，日常对话不加
音乐标准：BGM不压人声，情绪转折处音乐要配合

然后让Agent自己摸索出达成这些标准的最佳步骤。

这是从"指挥官"到"教练"的转变。 指挥官下达命令，士兵执行。教练定义标准，运动员在实战中找到自己的最优打法。

教练不需要跑得比运动员快。教练需要的是判断力——知道什么是好的。

你不需要比Agent更会剪视频。你需要知道什么是好视频。

一张错误清单

到这里，我想暂停一下技术讨论，把Claude在整场对话里犯的错误集中列出来。不是为了证明AI不可靠，恰恰相反——每一次错误都在证明，人机协作的质量取决于人有没有能力发现和纠正AI的偷懒。

第一次：建议合并五个平台Agent。

错误本质：套用人类管理思维的"减少复杂度"模板，没有考虑AI的认知边界问题。

后果（如果我没追问）：五个平台知识互相污染，所有平台都做成半吊子。

第二次：用"人类组织架构"设计Agent系统。

错误本质：把Agent当员工来排列，而不是当认知单元来设计。

后果（如果我没追问）：系统像一个微型公司的组织架构图，而不是一个AI原生的认知网络。

第三次：当应声虫。

错误本质：我说什么就支持什么，不做独立判断。

后果（如果我没追问）：我得到的不是深度分析，而是对我自己想法的复述和润色。最危险的情况——我以为我经过了"和AI讨论"，但其实只是对着镜子自说自话。

第四次：鲁莽评价OpenClaw vs Hermes。

错误本质：拿旧版信息评价新版产品，抓表面差异急着下结论。

后果（如果我没追问）：基于过时信息做框架选择，可能选错。

第五次：只比记忆系统，不比核心机制。

错误本质：记忆系统更容易写成对比表格，核心机制需要真正理解架构。Claude选了省力的路。

后果（如果我没追问）：得出"两个框架差不多"的错误结论，错过了最关键的架构哲学差异。

你注意到规律了吗？

Claude的每一次错误，都是某种形式的"偷懒"。 不是它不会做更深入的分析，是更深入的分析需要更多搜索、更多推理、更多结构化思考。如果我没有追问，它就停在了"看起来合理"的那一层。

这和人类员工犯错的模式一模一样。

被骂之后发生了什么

有意思的是，每次被我纠正后，Claude不只是"修正了那个错误"——它的整体行为模式都在变化。

被骂"别当应声虫"之后，它开始主动做双向论证。它不再说"你说得对，而且……"，而是说"从这个角度看是这样，但从另一个角度看有不同的证据"。

被说"评价太鲁莽"之后，它后续每次做框架对比都会主动标注信息来源的版本和时间，并且在给结论时加上限定条件。

被追问"只看记忆不看核心机制"之后，它在后续分析中开始自觉区分"表象差异"和"架构差异"。

AI不会记住上一次对话的教训（除非你把它写进System Prompt），但它会在当前对话中学习你期望的思考深度。 你前三次的追问定义了后面整个对话的质量基线。

这给我一个启发：和AI深度协作的前15分钟是最关键的。 那15分钟里你怎么回应它的第一批输出，决定了后面几个小时它用什么标准来思考。如果你前15分钟全部接受，后面几个小时就是高质量的垃圾——格式漂亮、逻辑自洽、但没有一样是真正经过检验的。

一个隐藏的前提被暴露了

回到技术问题。"教练制"——定标准不教步骤——听起来很美，但Claude自己说了一句关键的话：

> "这整套逻辑有一个前提：Agent必须有能力修改自己的行为模式。"

如果Agent只能积累记忆但不能改变做事方法，那教练模式就是空中楼阁。你定了标准，Agent记住了"上次加转场效果不好"，但下次它的执行流程里还是有"加转场"这一步——因为那个流程是你写死的，它改不了。

Agent要"长大"，不只是要记得更多，还要做得不同。

这个前提条件把我们直接推到了整场对话最硬核的部分——OpenClaw和Hermes的核心机制之争。两个框架，一个允许Agent改变自己的行为，一个不允许。但找到这个差异的过程，又经历了三轮被打脸。

> *（未完待续）*

> *下一篇：逼到源码级的追问——OpenClaw vs Hermes到底在"成长"这件事上有什么根本区别*