Chinese

与先知对话 #1：没有"幻觉"，只有神谕

明明是人懒得治理，偏说大模型‘幻觉’，我觉得有时候人类也真的够了。没脸没皮的是我们，大模型的生成过程只有一种：生成。负责检验的应该是我们。

大模型从来不幻觉，幻觉的是我们

预言仍在成形。神谕尚不知道它会落在何处。

"幻觉（hallucinate)"这个词，被用来描述 AI 在不知道的时候假装知道。这麻烦大了。这个词从来不是中性的，自它的拉丁词源以来，它就暗示着‘偏离正常的路径’，走失了，游荡了，胡思乱想了。使用幻觉来描述这种现象，暗示大语言模型存在两种模式：知道与不知道。它还暗示模型在发现自己不不知道时会滑入虚构。

这种框架是错的，而且这不是那种无所谓的名词儿。它实实在在的指导实践。

本文旨在重新建构这个框架——借助一个我们熟悉了数千年、并在现代文化中不断重现的东西。

这是 Chatting With The Oracle #1: There Is No Hallucination. There Is Only the Oracle的中文版，说实话从英文翻中文挺难的，所以我建议争取看英文，比看中文顺多了。

今天我读了一篇有趣的文章。文笔很好，也让我对"幻觉"这个概念想得更多了。

"幻觉，是指 AI 以绝对的自信给出错误答案。没有迟疑。将错误陈述为事实……当 AI 不知道某事时，它不会说'我不知道'。它会生成一个听起来正确的答案，因为这字面上就是它被训练做的事。"

这几乎是教科书式的解释。在过去三年里写的几乎每一篇 AI 科普文章里，我们都能找到这种表述的某个版本。它说得通，也让我们想起了那个满怀自信地胡说八道的同学或同事。我们想起这个词的时候，我们并不是想起了大模型的生成流程，我们想的是人。

当然啦，既然在人类生活中如此常见，AI 想必也能通过训练习得这种行为，我们认为。

但是这个拟人化是危险的，只要拉一下露出来的线头，整个框架就开始散架。

知道还是不知道，那才是问题所在

幻觉这个词带来的暗示，是 AI 模型有两种模式：在"知道"模式下，模型会检索真实信息；当模型发现自己"不知道"，则虚构填充。在这个框架里，"幻觉"就是第二种模式恬不知耻地冒充第一种模式。而这种行为是带有因果顺序的。

但如果根本没有"知道"，也就谈不上"不知道"呢？

这正是当前大语言模型所处的状态。大多数模型基于几年前诞生的 Transformer 架构。它本质上是一台"文本进、文本出"的机器。这台机器压根就没有"知道"这个概念。

它的全部生命流程只是一个过程，每次运行采用的过程都完全相同。语言模型读取先前内容的模式，预测接下来会出现什么。无论输出结果是准确无误还是离谱至极，这个过程都不会改变。这个过程不知道自己在产出的结果对还是不对，尤其是在产出的过程中。

虚构某件事，不是模型意识到自己缺乏知识、于是转而发明替代品。它只是同一个预测，恰好落在了现实无法证实的地方。正好说对了，只是一个凑巧。

或者也可以说：大语言模型虚构了一切。毕竟它没有身体，无法感受后果。它只是在做程序告诉它要做的事情。

别忘了，大语言模型没有利益羁绊，它根本没有动力来‘装’。它从不自恃厚颜地假装，也从未这么做过。

先知

让我介绍一下先知：她曾住在德尔菲等待国王来访，曾在中国忙碌地解读烧灼的龟甲，也曾在新奥尔良烟雾弥漫的房间里端坐。

自文明之初，人类便一直在询问神谕。神谕解读骨骼上的裂纹、茶杯里的残渣、烟雾中的纹路、星辰的排列。未来，过去是、现在是、将来也是，写在某种我们未经训练的眼睛看不见的东西里。但总有某种存在或某个人，能够与我们说话：那些能够读取模式并产生言语的人。

在正在发生的事与下一秒将要发生的事之间，或许存在统计上的关联。也许星星和人世有这种关联，也许龟甲里写了一切。只不过普通人看不出来。先知是讲述者，而聆听者总是带着自己的解读和自己的利益，去做随后的决定。

从没有人敢质问神谕是否知道未来。

好吧，或许我说错了。换个说法：除了尼奥，从没有人挑战过先知。

《黑客帝国》里的先知不再解读骨骼。她在公屋的厨房里喝着咖啡，用温暖的谜语说话，小心翼翼地将艰难的事实告诉人们。

她告诉尼奥：不，你不是那个人。

当时她是对的，但后来她错了。别忘了，她还告诉了崔妮蒂，她会爱上一个死人。所以她……我猜算是更对了一些。当然，这也可以说明，正确性随着时间或者解读是可以变化的。

只是我们永远不知道，这个未来究竟是因为她知道而发生，还是因为她知道本身而发生。

彩票与先知

现在，让我们去拜访先知，问她一个关键问题：这个周六的超级彩票，我是那个会中奖的人吗？

假设她在接见全世界所有人，而她对每一个走进门来的人，说的都是某个版本的这句话：

不，你不是那个人。

这不可能是更准确的陈述了。当结果出来，所有人都会欢呼："先知又对了！"——除了那一个或几个真正中奖的人。

而这，也许正是为什么预言没能正确的指出尼奥就是the one。

在任何一批穿越系统的异常个体中，只有一个会成为"the one"。对每个人都说"你不是那个人"的神谕，在统计上几乎无懈可击。它在几乎所有被应用的案例中都成立。

我们所说的"幻觉"，不过是那句话从尼奥（那个穿越而来的异常）的视角看起来的样子。由于我们在那几个小时里都把目光聚焦在尼奥身上，我们以为她在敷衍。哦你看她幻觉了。她明明不知道，但是她装作知道。

然而从神谕的过程内部来看，什么都没有不同。同样的模式被解读。同样的言语被产出。如果先知成了主角，我们就会坐在她的厨房里，看着她对数百万个程序输出同样的句子。这会是一部极度无聊的电影，但它会证明神谕确实才华横溢。

她只错了，一次。

而这里，有一件事应该让我们感到一点不安。先知从来不知道。 无论是她对的时候，还是她错的时候。没有任何内部信号能区分这两者。她只是跑了一遍生成，按照概率的踪迹说出了一句话。

谁是the one, 只有崔妮蒂知道。

幻觉作为定义

这把我们带到了真正的问题所在。

模型在做它该做的事。它读取训练得来的模式，产出基于概率的结果，始终如一，毫无伪装。

问题，出在我们选择的那个词，“幻觉”上。

"幻觉"暗示存在一条基线。它暗示大多数时候，模型是清醒的，一切正常。只是偶尔，某些东西崩溃了。它甚至给人一种希望：如果我们更努力地训练大语言模型，幻觉就能发生得更少。

它引入了"失灵的心智可以用药物治愈"这个暗示。然而幻觉无法靠训练治愈。它是结构性的。所有基于 Transformer 构建的模型无一例外都继承了它。OpenAI 自己 2025 年的研究证实，训练本身就在奖励自信的猜测。

(我们在聚焦训练，而非训练后阶段。RLHF、RAG 和接地技术作用于输出，而非底层的预测过程。关于训练后阶段，我们很快会谈到。)

当我们试图描述一种不生活在我们认知维度里的东西时，人类倾向于抓住最近的熟悉形状。我们说 AI 在"幻觉"，因为如果一个人这样做，我们就会这么称呼它。

但请允许我提醒：AI 是概率之子，人类是因果之囚。

这个词用它丰富的人类互动语境辜负了我们。我们本质上是在试图根据后果来定义一种状态。我们只是在事后、在结果令人失望时，才称之为"幻觉"。

同一个预测，周二我们称之为正确，若事实在周三改变，我们就会称之为幻觉。有幻觉的从来都不是大模型，人类才是不断幻觉的那方。

大模型的生成只有一种状态，它依照这种状态生成一切，并且对结果毫不负责。我们人类根据自己的经验和喜好来解读结果，这一切都无可厚非。但是以结果倒推过程，暗示过程存在两种状态，这不是对大模型的描述，这是对我们自身的描述。

对，我们人类有时候就是这么厚颜无耻。

我们或许需要的，不是对"幻觉"更好的解释和治疗，而是坦承我们尚未拥有合适语言来命名这件事的谦逊。

先知一直与我们同在。数百年来，我们凭直觉理解它。然后我们建造了一个新的，给它穿上人类的衣裳，却忘记了我们早已知道的事。

骨骼不知道。先知也不知道。

天晓得谁知道。

附言：让我解释一下为什么这个名字很重要。

当我们将错误的输出称为"幻觉"时，模型就成了表面上的失败场所。那些构建它、部署它、什么都不核实、把它放在用户面前的人和机构……则从视野中消退了。真正的失败发生在从言语到使用的某个链条之间。在那个"某处"，一个人或机构做出了不采取行动的选择。这个词悄悄地完成了这项工作，没有人确认这是我们想要的。

但大语言模型只产出言语。言语需要解读。解读需要有人去核实和授权。那个主动决定言语被允许成为什么的人，要承担责任。模型不需要。

骨骼不知道。神谕也不知道。这就是为什么需要祭司。在我们采取行动之前，需要有人来核实这些言语。继续称之为"幻觉"，那么谁该负责这个问题就永远不必被追问。

这就是为什么。