与先知对话 #1:没有"幻觉",只有神谕

明明是人懒得治理,偏说大模型‘幻觉’,我觉得有时候人类也真的够了。没脸没皮的是我们,大模型的生成过程只有一种:生成。负责检验的应该是我们。

Share
与先知对话 #1:没有"幻觉",只有神谕
大模型从来不幻觉,幻觉的是我们

预言仍在成形。神谕尚不知道它会落在何处。

"幻觉(hallucinate)"这个词,被用来描述 AI 在不知道的时候假装知道。这麻烦大了。这个词从来不是中性的,自它的拉丁词源以来,它就暗示着‘偏离正常的路径’,走失了,游荡了,胡思乱想了。使用幻觉来描述这种现象,暗示大语言模型存在两种模式:知道与不知道。它还暗示模型在发现自己不不知道时会滑入虚构。

这种框架是错的,而且这不是那种无所谓的名词儿。它实实在在的指导实践。

本文旨在重新建构这个框架——借助一个我们熟悉了数千年、并在现代文化中不断重现的东西。


这是 Chatting With The Oracle #1: There Is No Hallucination. There Is Only the Oracle的中文版,说实话从英文翻中文挺难的,所以我建议争取看英文,比看中文顺多了。

今天我读了一篇有趣的文章。文笔很好,也让我对"幻觉"这个概念想得更多了。

"幻觉,是指 AI 以绝对的自信给出错误答案。没有迟疑。将错误陈述为事实……当 AI 不知道某事时,它不会说'我不知道'。它会生成一个听起来正确的答案,因为这字面上就是它被训练做的事。"

这几乎是教科书式的解释。在过去三年里写的几乎每一篇 AI 科普文章里,我们都能找到这种表述的某个版本。它说得通,也让我们想起了那个满怀自信地胡说八道的同学或同事。我们想起这个词的时候,我们并不是想起了大模型的生成流程,我们想的是人。

当然啦,既然在人类生活中如此常见,AI 想必也能通过训练习得这种行为,我们认为。

但是这个拟人化是危险的,只要拉一下露出来的线头,整个框架就开始散架。


知道还是不知道,那才是问题所在

幻觉这个词带来的暗示,是 AI 模型有两种模式:在"知道"模式下,模型会检索真实信息;当模型发现自己"不知道",则虚构填充。在这个框架里,"幻觉"就是第二种模式恬不知耻地冒充第一种模式。而这种行为是带有因果顺序的。

但如果根本没有"知道",也就谈不上"不知道"呢?

这正是当前大语言模型所处的状态。大多数模型基于几年前诞生的 Transformer 架构。它本质上是一台"文本进、文本出"的机器。这台机器压根就没有"知道"这个概念。

它的全部生命流程只是一个过程,每次运行采用的过程都完全相同。语言模型读取先前内容的模式,预测接下来会出现什么。无论输出结果是准确无误还是离谱至极,这个过程都不会改变。这个过程不知道自己在产出的结果对还是不对,尤其是在产出的过程中。

虚构某件事,不是模型意识到自己缺乏知识、于是转而发明替代品。它只是同一个预测,恰好落在了现实无法证实的地方。正好说对了,只是一个凑巧。

或者也可以说:大语言模型虚构了一切。毕竟它没有身体,无法感受后果。它只是在做程序告诉它要做的事情。

别忘了,大语言模型没有利益羁绊,它根本没有动力来‘装’。它从不自恃厚颜地假装,也从未这么做过。


先知

让我介绍一下先知:她曾住在德尔菲等待国王来访,曾在中国忙碌地解读烧灼的龟甲,也曾在新奥尔良烟雾弥漫的房间里端坐。

自文明之初,人类便一直在询问神谕。神谕解读骨骼上的裂纹、茶杯里的残渣、烟雾中的纹路、星辰的排列。未来,过去是、现在是、将来也是,写在某种我们未经训练的眼睛看不见的东西里。但总有某种存在或某个人,能够与我们说话:那些能够读取模式并产生言语的人。

在正在发生的事与下一秒将要发生的事之间,或许存在统计上的关联。也许星星和人世有这种关联,也许龟甲里写了一切。只不过普通人看不出来。先知是讲述者,而聆听者总是带着自己的解读和自己的利益,去做随后的决定。

从没有人敢质问神谕是否知道未来。

好吧,或许我说错了。换个说法:除了尼奥,从没有人挑战过先知。

《黑客帝国》里的先知不再解读骨骼。她在公屋的厨房里喝着咖啡,用温暖的谜语说话,小心翼翼地将艰难的事实告诉人们。

她告诉尼奥:不,你不是那个人。

当时她是对的,但后来她错了。别忘了,她还告诉了崔妮蒂,她会爱上一个死人。所以她……我猜算是更对了一些。当然,这也可以说明,正确性随着时间或者解读是可以变化的。

只是我们永远不知道,这个未来究竟是因为她知道而发生,还是因为她知道本身而发生。


彩票与先知

现在,让我们去拜访先知,问她一个关键问题:这个周六的超级彩票,我是那个会中奖的人吗?

假设她在接见全世界所有人,而她对每一个走进门来的人,说的都是某个版本的这句话:

不,你不是那个人。

这不可能是更准确的陈述了。当结果出来,所有人都会欢呼:"先知又对了!"——除了那一个或几个真正中奖的人。

而这,也许正是为什么预言没能正确的指出尼奥就是the one。

在任何一批穿越系统的异常个体中,只有一个会成为"the one"。对每个人都说"你不是那个人"的神谕,在统计上几乎无懈可击。它在几乎所有被应用的案例中都成立。

我们所说的"幻觉",不过是那句话从尼奥(那个穿越而来的异常)的视角看起来的样子。由于我们在那几个小时里都把目光聚焦在尼奥身上,我们以为她在敷衍。哦你看她幻觉了。她明明不知道,但是她装作知道。

然而从神谕的过程内部来看,什么都没有不同。同样的模式被解读。同样的言语被产出。如果先知成了主角,我们就会坐在她的厨房里,看着她对数百万个程序输出同样的句子。这会是一部极度无聊的电影,但它会证明神谕确实才华横溢。

她只错了,一次。

而这里,有一件事应该让我们感到一点不安。先知从来不知道。 无论是她对的时候,还是她错的时候。没有任何内部信号能区分这两者。她只是跑了一遍生成,按照概率的踪迹说出了一句话。

谁是the one, 只有崔妮蒂知道。


幻觉作为定义

这把我们带到了真正的问题所在。

模型在做它该做的事。它读取训练得来的模式,产出基于概率的结果,始终如一,毫无伪装。

问题,出在我们选择的那个词,“幻觉”上。

"幻觉"暗示存在一条基线。它暗示大多数时候,模型是清醒的,一切正常。只是偶尔,某些东西崩溃了。它甚至给人一种希望:如果我们更努力地训练大语言模型,幻觉就能发生得更少。

它引入了"失灵的心智可以用药物治愈"这个暗示。然而幻觉无法靠训练治愈。它是结构性的。所有基于 Transformer 构建的模型无一例外都继承了它。OpenAI 自己 2025 年的研究证实,训练本身就在奖励自信的猜测。

(我们在聚焦训练,而非训练后阶段。RLHF、RAG 和接地技术作用于输出,而非底层的预测过程。关于训练后阶段,我们很快会谈到。)

当我们试图描述一种不生活在我们认知维度里的东西时,人类倾向于抓住最近的熟悉形状。我们说 AI 在"幻觉",因为如果一个人这样做,我们就会这么称呼它。

但请允许我提醒:AI 是概率之子,人类是因果之囚。

这个词用它丰富的人类互动语境辜负了我们。我们本质上是在试图根据后果来定义一种状态。我们只是在事后、在结果令人失望时,才称之为"幻觉"。

同一个预测,周二我们称之为正确,若事实在周三改变,我们就会称之为幻觉。有幻觉的从来都不是大模型,人类才是不断幻觉的那方。

大模型的生成只有一种状态,它依照这种状态生成一切,并且对结果毫不负责。我们人类根据自己的经验和喜好来解读结果,这一切都无可厚非。但是以结果倒推过程,暗示过程存在两种状态,这不是对大模型的描述,这是对我们自身的描述。

对,我们人类有时候就是这么厚颜无耻。

我们或许需要的,不是对"幻觉"更好的解释和治疗,而是坦承我们尚未拥有合适语言来命名这件事的谦逊。

先知一直与我们同在。数百年来,我们凭直觉理解它。然后我们建造了一个新的,给它穿上人类的衣裳,却忘记了我们早已知道的事。

骨骼不知道。先知也不知道。

天晓得谁知道。


附言:让我解释一下为什么这个名字很重要。

当我们将错误的输出称为"幻觉"时,模型就成了表面上的失败场所。那些构建它、部署它、什么都不核实、把它放在用户面前的人和机构……则从视野中消退了。真正的失败发生在从言语到使用的某个链条之间。在那个"某处",一个人或机构做出了不采取行动的选择。这个词悄悄地完成了这项工作,没有人确认这是我们想要的。

但大语言模型只产出言语。言语需要解读。解读需要有人去核实和授权。那个主动决定言语被允许成为什么的人,要承担责任。模型不需要。

骨骼不知道。神谕也不知道。这就是为什么需要祭司。在我们采取行动之前,需要有人来核实这些言语。继续称之为"幻觉",那么谁该负责这个问题就永远不必被追问。

这就是为什么。