大模型与铸币・再
本文部分观点源自以下文章,以及部分基于gpt4o的英译英的阐述。有能力有意愿的读者可直接食用原文。
Boisseau, Éloïse. “Imitation and Large Language Models.”Minds and Machines34.4 (2024): 42.
在大模型是否理解语言这个问题上,可以依照光谱从“完全理解”到“完全不理解”列出一排观点,例如:
- (完全理解)通常来说又可以称作(泛)计算主义,认为认知和意识本质上是计算过程,心理状态和过程可以通过计算模型来解释,所以大模型就是一种可以模仿人类神经系统的,能完全理解其所处理的理想模型。
- (部分理解)模型的输出混合了对于一些逻辑的理解以及对另一些的不理解,这类似于一些学生在上课时“似乎”理解了一个公式的意义,并且可以利用这些公式进行计算,但是如果你刨根问底,他们并不真的完全理解这些公式的内涵,仅仅是在有模有样的进行使用。
- (有限理解)模型仅具有语言学上的知识,但是并没有一个现实意义的知识,例如,模型可以很清楚地讲出来如何计算除法,但是却没有办法进行除法计算,模型虽然像一个专家一样侃侃而谈,但是并不能理解如何将这些知识利用在现实当中。
-
(完全不理解)概率鹦鹉学派,也就是认为大模型只是在像鹦鹉一样随机地对人类的语言进行一种形式上的模仿,而完全不明白其中的含义。 我们在这里并不去具体地争执哪一种理解是对的,我们的关注重点是,对于“理解”本身的描述,基本上是围绕模型的行为与人(或者鹦鹉)的行为的关联性,相似度来解释的。通俗一点说,我们关注的是“大模型就是在模仿人类或者与进行了一种与人类相似的行为”这个判断在多大程度上是正确的。这便需要我们对“模仿”(Imitation)这个词提供一个准确的定义。简化掉前述原文中各种繁琐的讨论,我们基本上认为“模仿”是一个有如下属性的词语:
- 模仿的核心在于相似性,且这种相似性不能是偶然发生的。例如,我喷了几句字节的大模型,这并不代表我是在模仿长度单位酱进行发言,这只是一种基于共识的偶然。
- 模仿应该是不同主体之间的行为,我不能模仿我自己的文风,但是我可以按照我自己的文风喷某个大模型一百遍。
- 模仿具有两个形态,一种是模仿行为本身(Imitative Behaviour),另外一种是基于模仿行为的物态(Status of Imitation)。例如,我在以长度单位酱的发言模式,对某个公司阴阳怪气本身这个行为属于一种模仿;而我写出了一篇嘲讽某个大模型的文章,让它在不知情第三者眼中看来似乎是出自长度单位酱之手,那么这篇文章就可以认为是一个物态。
- 有一个更直观的例子:伪币就是一种由于模仿行为而产生的物态,因为它是在有意地制造对另外一种是事物的相似性。
- 当然本人在这里对前述原文的这两种形态持一种相对保留的态度。这很难解释一些边界问题,如果我按照某种模式对某个公司进行了一番阴阳怪气,但是其实我是在写一篇软文,那么这个行为是否是对长度单位酱的模仿,因为这个行为的核心意义在于对目标
- 对象的否定态度。
- 所以在我看来,如果将模仿行为本身直接就定义成一种可以被有意的制造相似性的态,则会更符合一些思考上的逻辑。例如,如果某个公司发行了一种自己的产品上都可以用的O币,虽然O币并不是伪币,但是这个发行的行为就可以看作是对银行的一个模仿态。
- 模仿区别于复制(Duplication),复制品本身应具有相同的内核效应,即便有些时候“模仿行为”与“复制行为”两者具有同样的表象,在排除掉一些比较模糊的场景后,这两者所达成的效果应当是有明确区分的。还是以铸币为例,即便我们拿着与真币相同的- 磨具,用同样的工艺去进行铸造,我们依旧是在生产一种模仿的物态,也就是伪币。反过来,具有合法权利的机构,则会生产出货币的复制。
- 模仿区别于模拟(Simulation),模拟与被模拟事物之前的关系有别于模仿与被模仿,简单来说,模拟本身的实现机制甚至于模拟的结果都可以完全区别于被模拟物,而模仿则应该尽可能的相近。
- 很显然,如果我们认为大语言模型是一种模拟的话,那么我们在讨论的是我们是否理解大语言模型本身,而非大语言模型是否理解语言。尽管的确可以如此认为,基于模型神经元就是对人脑神经元的模拟,但是这却离开了原本的讨论范畴。
基于以上定义,上述原文作者认为大模型脱离了模仿行为本身,也不是模仿行为所产生的物态。直接一点讲,大模型就只是一台毫无意识的伪币铸造机,其生产出的产物,是一种对于人类语言的模仿的物态。原文作者有一个极强的假设,认为模仿行为本身应该基于一种可以对对照的“本源行为”。例如鹦鹉在模仿人类讲话之外存在这一套自己的生存行为逻辑,鹦鹉之间可以基于其鸟语进行交流。而大语言模型(在其训练完成之后)就只有一种行为,那就是输出人类的语言。反过来讲,如果将大语言模型装在某个机器人系统上,我们可以认为整个系统是一种对人类行为的模仿,因为机器人——或者说一套机械系统本身——并不是一定要复现人的特定功能才能执行任务。
文章末了谈论一下本人的观点:
-
首先框架性地讲,大模型是铸造伪币的机器这个结论不能说错,但是过渡地宽泛,并且基于此来否定大模型对语言本身不具有理解能力是有些超出框架的边界的,因为创造物态的这个过程是一个非常复杂的过程。特别是最近比较热门的test-time computing或者long CoT reasoning,属于模型在受引导后“自发地”形成的输出模式,区别于一般的推理模式,应当可以看作是对人思维过程的模仿。
-
其次,语言的本质也不应当被过分高估,绝大多数日常语言均为固化表达,即语言使用并非完全依赖创造性语法规则,而是大量依赖预制、高频且整体存储的“语块”(chunks),流利的语言输出是因为快速“提取”而非“生成”。故而不能依此来否定大模型的行为不是模仿,更不能说大模型不理解语言。
-
最后,原文作者将大模型输出文字的能力进行了先知化,也就是说大模型输出的语言是绝对无法与人类语言进行区分的,然而事实并不是如此,人类大体上还是很容易分清模型生成的内容,更不要提某些投入了上百人几万张卡训练出来的连人话都说不好的被整个公司嫌弃的内部模型。这其实就给模型的行为提供了一种本源态,在这个状态上,模型可以按照要求去模仿一些有特征的语言风格或者模式。
Enjoy Reading This Article?
Here are some more articles you might like to read next: