不存在什么原生多模态模型

自从双子座与全能型发布以来，就不停地有人又仿佛看到了我们一路过来一直在赢的样子。虽然我一贯以来的态度，就是秦始皇把马藏在汤师爷脸上——赢匿马葛头，但是似乎这几个月过去了，除了原来一些做语音的组又被挖走了几个人之外，好像这个业界也没有什么特别大的动静：毕竟我们这个银河系中，很多公司是base在水星上的，按照“落后半年”的速度来看，它们或许也应该发布了些什么了，要是都等美洲驼4发布了再行动，那大概得过去半个土星年了。当然这是宏观上的表现，毕竟微观上大家已经纷纷开始用又便宜又涨点的全能型开始刷数据了，而且赢的表现也是很实在的：不用再去纠结刷哪个版本的涡轮型效果比较稳定了。言归正传，这篇文章的主旨并不是冷嘲热讽，在这里我只是想相对客观冷静的讨论一下，我们被迫赢业的原生多模态模型其本体的模糊的边界在哪里。因为，如果你熟悉我国业界内的谈话方式，这里的“原生”可以指“闪亮的”“牛逼的”“不一样的”“可以画出新饼的”“给两个实习生就能做出来的”，但是唯独不会指代“原生的”。但是反过来我又觉得好像这种表述也没什么问题，因为似乎确实不存在什么原生多模态模型。

“原生多模态”本就是翻译再创作

在当下的语境中，对于一个行为体，其所接收的输入与输出的形式，我们泛称之为“模态”。但是在当下的语境中，“原生”一词的来源，可能只是对双子座与全能型技术报告中的一些脑补。如果去追究原文，只会有如下相对单纯的表述：

The Gemini models are natively multimodal, as they are trained jointly across text, image, audio, and video. OpenAI’s first natively fully multimodal moel.

根据我二十年脑偏瘫病情的理解，Google这里natively的意思往保守去讲，应当是说“训练的时候没有单独区分输入与输出的形式”，搞不好甚至是“我们虽然freeze了部分module，但是从整个system层面来看，我们没有单独拎出来某一种形式的输入使劲finetune”。而OpenAI则更保守，他们只愿意承认在输入输出形式上没有区分单一模态，甚至于如何处理这些模态的细节都尽量按照Google的说辞去模糊化。但是事情倒霉就倒霉在我们这个大区的新量机三大顶会上，不由分说的就给冠上一个“原生多模态”，起名这工作如果交给我，我认为直接叫Transformer for Multi-Domain（特喵的）会更加的达与雅一些。因为我们在讨论这种范畴的模型时，侧重点基本上都在如何将多个domain的数据进行融合，并且经由Transformer进行信息的加工（压缩）或者推理。所以换句话来讲，如果大家头脑中很清醒自己在讨论什么，那么无论叫“原生多模态”还是“特喵的”都无所谓。如果没那么清醒，那么最好用“构型+输入+输出”的方式来明确说自己指的是什么：例如，我现在要跟大家讨论一下变色龙+输入文字+输出视频的模型，而不是去做类似于“变色龙是原生，火熔岩（L-Lava）是不是原生”的辩经行为，因为就算是纯粹的LLM+TTS，他从系统层面上（不是模型层面上）也是特喵的。

语言本身就不是原生模态

假设我们现在讲人类本身特化为一种特喵的模型，这种特喵的模型可以接收视觉、听觉、触觉或者嗅味觉等主要信息输入源，并且可以通过肌肉反应、生理反应或者脑电信号进行输出。那么我们会发现，当我们在讨论原生主义的“原生”这个词时，语言本身就不是一种输入或者输出的模态。换句话说，语言本身是经过视觉、听觉、触觉等输入模态所转化的一种次级输出信号，或是经由肌肉运动而造成的“空气震动”，或者“敲击键盘”等次级输出模态所形成的一种终极输出产物。从这个角度来看，人类是没有办法直接被语言或者文字所刺激，且依照顺序依次输出一些新的语言或者文字的。再进一步来看，当我跟人互喷的时候，是否是一个经由ASR把听觉信号转化为文字，然后利用文字在脑内进行处理，然后再经过TTS把脑内生成的文字转化为可以被对面听觉系统感知到的空气震动呢？我认为不是的，这并不是因为我喷人不需要思考，而是语言是一种思维的外在表达，其与思维的过程的关系，体现在人会采用语言将思维进行展现、转录与缓存，而这本身并不是一种输入或者输出的模式。换言之，我之所以在跟人互喷时采用语言，只是因为我需要在“被限制肌肉运动”的条件下将自己的思维进行传达，也就是通过语言来进行展现；而如果没有这个限制我大可以直接采用连续普通拳，后者肯定能更好的表达我当下的思维情况。所以在我看来，当下之所以有LLM如此这般巨大的发展，实质上可能只是卡了一个机器可以直接将语言作为输入或输出域的bug：得益于语言是思维高度抽象化的展现、转录与缓存这一特征，从中寻找规律并构建了一种近似于的语言 -> 思维 -> 语言的过程。最好（也是最极端）的例子，便是用程序代码（数学逻辑记号）进行LLM的训练，因为这些代码就是思维的直接记录（载体），所以在这些数据上进行训练时模型便更容易获得强的逻辑推理能力。反过来讲，这个过程可能并不能很好的在其他真正的原生模态中复现，因为这些原生的输入源并没有经过信息的抽象（或者压缩）的过程，所以想从原生模态中获得具有逻辑的思维是一件相对困难的事情。

Grounding是一个伪命题

当下有一个显著的思潮便是，既然离不开语言模态，那就把其他模态Ground到语言模态上，然后再让语言模态带飞不就好了。更有很多人相信Grounding本身可以帮助语言模态解决词典悖论问题，也就是说如果如果仅仅有语言模态，那么某一个概念的解释会依赖于其与另外的概念的关系，而这些用来解释的概念本身也依赖于另外的概念来解释，而多模态的Grounding则可以给一些概念提供锚定点，换言之模型可以继续这些从其他模态学来的具体的概念来更好的构建一个完备的语言系统。但是显然这个理解里面存在一个缺陷，那便是语言中的概念的实例化是在其接受对象的思维中进行的。换言之，语言中的任何概念都是抽象的，这些概念不会锚定任何一个超出其抽象本身的具体的实例，这种抽象化的概念仅用来在交流的过程中传递思维的内容，其实例化的结果收到交流双方的具体的思维内容的影响，而绝非由概念本身来单一决定。正因如此，虽然似乎我们的模型可以准确的匹配“一张猫的图片”跟“猫”这个单词，但是非常难以处理以下两种情况：

存在语义模糊、歧义或者需要其他模态信息的情况。例如经典的谷粒与谷堆问题，因为一些谷粒是否可以被称为谷堆，仅仅是这个概念的接收者基于交流而形成的一个主观的结果，所以并不存在一个确定的谷堆的实例化结果。否则如果强行的去将视觉上的“数量多少“或者”是否存在层叠“等特征用作区别谷粒与谷堆的标准来做grounding，那么我们是否应该将4粒谷子摆的一个小金字塔的图片匹配到谷堆这个概念上？再例如，”我要惩罚你“这个句子，从一个中年壮汉与妙龄少女的口中说出，势必会造成思维中不一样的实例化，而这些本身就依赖于其他模态信息的概念，更不能也不应该去直接地进行模态之间的grounding。
仅仅存在于语言这种单一模态的概念。虽然听上去很奇怪，但是确实是有大量的概念是没有办法与其他的模态去对应的，这些概念只是单纯的思维所抽象出的结果，也仅仅在思维的交流中存在意义，而且其中的大多数都没有真实的可靠的本体可以与之对应。例如：“我”（思维之载体）、“神”（自然之法则）、“空集”（逻辑之起点）、“基本粒子（电子、光子、夸克等）”（万物之本源）。我们或许可以画一个蓝色的实心小球来表示电子，但是势必不能把这个蓝色的实心小球跟“电子”这个概念进行匹配，而这些概念本身可能要比“猫“”狗“”苹果”更加适合作为语言系统的基础组建。言而总之，grounding这个事情本身确实可以作为多模态模型能力的一个指标，但是如果将grounding作为一种目的，且期待文本模态可以带飞，那么是属于一种本末倒置的思考逻辑。

Unnatrueness与Unlearnability

但是非常不幸的是，如果我们的多模态模型是以语言为主体的，那么很多时候我们又不得不依赖主动进行grounding来对模型进行训练。这牵扯到概念本身的自然性（nativeness）与可学习性（learnability），也就是说某一个概念有多大程度上与“原生”的认知和经验有关系，以及如何与其他概念快速的搭建起联系。举一个非常平凡的例子“红色系”（包含“洋红”、“胭脂红”、“玫瑰红”、“猩红”等），如果不将这些概念主动地与视觉输入进行关联，那么纯粹的语言模型必然不会在接受这个输入的时候获得一个精准的实例化的结果，也不会以“可以让对手获得准确实例化”的原则进行输出。换言之，这些概念即便是非常自然地存在于原生认知中的，但是对语言模型来说也不具有可学习性，仿佛视力障碍者讨论五彩缤纷的世界一样，在内心毫无概念的情况下进行人云亦云式的发言。而对偶的讲，语言为主体的模型的优势在于为非自然的概念提供可学习性。还是用蓝色的实心小球来举例子，我们可以观测到的原生经验是在背景板上的明暗相间的干涉条纹，这种视觉输入可以很直接的让我们学习到“干涉条纹”这个概念本身，但是却不太可能让我们学习到其背后的“电子”这个概念——即便我们有很多这种图片。想要获得一个“电子”的概念，只有通过语言（或者数学符号）将电子在我们可以认知的输入源中，造成的间接的信号组织起来——某种意义上来讲，这属于人类这种高级智慧生物真对自己的思维所作的一种shortcut。缺少了这种机制，仅凭视频输入，我们娇贵的模型可能会把“重力”这个概念解读为“一个非连通区域会自发的沿着Y轴移动”。于是便有了，语言模态不得不要朝着多模态模型发展，然而多模态模型一定要借用非原生的语言模态来运作，此般奇妙的景象。

Positional Embedding与Temporal Embedding

与此同时，同样有不支持语言是原生模态的观点认为，语言作为输入或者输出源是缺乏时间性（Temporal）的，而与之对立的序列性（Sequential）本身与时间性并不能等效。时间性的核心要义是，信息必须按照真实世界的时间分段来编解码（采样/输出），且具有绝对的时间排列顺序；反之序列性并不需要依照时间分段来编解码（如果词表够大一句话也能编码成一个ID），也不需要严格按照时间顺序来进行排列（文字的刷印顺序并不响影读阅）。换言之，positional embedding提供的只是输入的tokens之间的一个粗略的逻辑规律，而不能用作严格的temporal embedding，后者最佳的解决方案依旧是Recurrent系列中严格按照时间输入的模型。

当然我这里的论述并不是针对软文KV或者曼巴或者叉LSTM这些结构的，因为当下的结构设计依旧无法超脱用序列结构来建模时间结构。也就是说，要么就是强行让语言模态具有时间性，要么强行让其他原生模态具有序列性。而事实上正如前一段的定义中所述，语言中包含的思维与逻辑要素并不依赖于具体的编解码分段模式，也不严格依赖于时间顺序，所以采用注意力模式寻找高权重的token这种方案的效率与性能的平衡，要远好于依赖于隐变量的逐个输入输出token的方案。反之，其他的原生模态（语音、视频）不仅仅需要一个时间均匀的编解码分段模式（体现为采样率、帧率），且一个token中可以提供的信息严格依存于前一个token，采用注意力模式反倒有可能降低效率。但是，但是，个人立场是支持软文KV这种思路的，因为思维（与之对应的语言）并不会是无限宽的，也就是说，如果合理的进行编解码分段，并且巧妙的赋予其时间性，那么便可以使之与原生模态较好的融合起来。

结束语

尽管学界对于语言本身的认知尚有诸多不确定之处，但是不可否认的，语言对于当下创造具有智能的行为体而言是最具效率的手段。这种效率不仅仅体现在其与思维之间的紧密关系，也体现在其与其他模态的“联觉”作用（例如一段文字可以有画面感、或者会使人不自觉的唱出来），即“原生模态”之内的抽象与具体的转化也可以给基于语言来进行。故而当下以LLM为底座的、可以兼容处理多种输入输出源的模型并不是没有价值的探索方向，但是我们却不应该盲目认为这种模式就是终极解。语言只是人类在过去为了适应环境而产生的一种本能，或许未来人类也会为了适应智能的发展而创造新的“语言模态”。

拓展阅读

Fedorenko, E., Piantadosi, S.T. & Gibson, E.A.F. Language is primarily a tool for communication rather than thought. Nature 630, 575–586 (2024). https://doi.org/10.1038/s41586-024-07522-w Öhman, C. We are Building Gods: AI as the Anthropomorphised Authority of the Past. Minds & Machines 34, 8 (2024). https://doi.org/10.1007/s11023-024-09667-z Douven, I. The Role of Naturalness in Concept Learning: A Computational Study. Minds & Machines 33, 695–714 (2023). https://doi.org/10.1007/s11023-023-09652-y