蚂蚁海星 · 2026年4月1日 00:00 · 日本
随着现代人工智能的飞速发展,特别是大型语言模型(LLMs)的涌现,我们面临着日益严峻的认识论危机:我们的工程能力已经远远超越了我们的哲学词汇。我们构建的系统展现出了涌现的推理能力,但我们却难以准确阐述我们究竟构建了什么。传统的命名惯例,例如将代码、参数和行为统称为“模型”,已经不再适用。它无法捕捉到人类设计意图与最终产生的行为人造物之间日益扩大的鸿沟。当前的讨论经常在两个极端之间摇摆:一种是还原论观点,将这些系统贬低为仅仅是“随机鹦鹉”;另一种是拟人化观点,过早地将意识归因于它们。这两种观点都源于在界定人工智能智能体的本体论地位时缺乏结构上的颗粒度。
本文提出通过“五层模型层级本体论”来解决这一问题。受系统论和认知科学
为了应对现代AI系统(特别是LLMs)的复杂性,我们需要将“模型”的概念解构并重组为一个五层的本体论框架。该框架受到系统论和认知科学中层级分析的启发,旨在区分抽象设计、物理实现和涌现行为。我们提出以下层级定义,重点在于区分能够学习的机制与学习后的行为实体:
定义 2.1 $\mathcal{M}_N$(本体模型,Noumenal Model)
本体模型代表了AI系统试图捕捉或逼近的终极生成原理或现实的“真实”底层结构。它可能本质上是不可知的。它是知识的理想形态,或是对某一领域完美的因果理解。在哲学上,这个概念汲取了伊曼努尔·康德(Immanuel Kant)关于“本体”(noumenon)或“物自体”(thing-in-itself)的灵感
定义 2.2 $\mathcal{M}_C$(概念模型,Conceptual Model)
概念模型包含预期设计、特定架构、基础理论、理论假设、所选算法以及系统旨在实现的高层目标,这些都是由其人类创造者所设想的。遵循康德的启发,人类心智通过先验的知性范畴(如因果性、统一性)主动构建经验,以理解现象世界(《纯粹理性批判》,B1-B2, A70/B95-A83/B109)。因此,$\mathcal{M}_C$ 将概念结构强加于问题领域或所需功能之上。具体而言,它包含:i) 系统的高层目标(例如,损失函数的形式);ii) 指导其运行的理论假设(例如,关于数据和学习过程的假设);iii) 选择的算法和数据结构;以及 iv) 系统的整体形式化描述,充当在纯粹概念与观察之间进行调和的康德式图型(schemata)。$\mathcal{M}_C$ 是AI系统逻辑形式化的必要抽象(例如,“注意力”),(例如,“是你所需要的全部”)。这种逻辑框架使结构化的人类思维能够参与到复杂的现实中,允许设计者规定AI的预期知识、推理和行为。尽管抽象 $\mathcal{M}_C$ 的逻辑形式可能无法完全预测或约束这些系统在运行中的复杂行为(特别是由于LLM的实际行为在很大程度上会偏离预期的逻辑设计,见第3节),但承认其局限性并不削弱其重要性。它构成了逻辑起点,成为评估行为偏差、诊断系统故障和理解意外问题的重要参考基准。
定义 2.3 $\mathcal{M}_I$(实例化模型,Instantiated Model)
实例化模型是指在代码中实现并存在于计算环境中,但在接触任何训练数据之前的具体算法人造物。$\mathcal{M}_I$ 是纯粹的形式(Form)与机制(Mechanism)。在此定义下,$\mathcal{M}_I$ 是一块白板(Tabula Rasa)。它包含:确定的架构与代码:特定的层数、注意力头的维度、激活函数的选择等。初始状态:根据特定分布(例如,随机或正交初始化)生成的初始参数值。优化配置:使学习成为可能的超参数设置(例如,优化器类型、学习率策略)。至关重要的是,$\mathcal{M}_I$ 具备“学习的能力”,但尚未开始学习。它是一个空容器,其结构由 $\mathcal{M}_C$ 决定,但其内部尚未包含来自经验世界(数据)的任何信息。同时,架构上的微小变化或初始化的微小差异可能会将模型推向不同的优化路径,从而导致具有不同能力和偏见的不同的可达模型。这些早期的决定及其对模型发展的非直观影响,代表了逐渐偏离最初概念的第一步,极大地促成了著名的“黑盒”问题。
定义 2.4 $\mathcal{M}_R$(可达模型,Reachable Model)
可达模型是 $\mathcal{M}_I$ 在特定数据集优化后的最终产物,处于参数固化的状态。它是 $\mathcal{M}_I$ 与海量数据交互坍缩后形成的具体实体。$\mathcal{M}_R$ 不仅仅是参数的静态集合;它是行为流形(Behavioral Manifold)的物理载体。更广泛地说,它涵盖了优化后的模型在所有可能的有效输入下可能展现出的全部潜在行为和内部随机过程(例如,采样策略)。即:行为的总体:$\mathcal{M}_R$ 包含模型获得的所有能力,包括设计者未预见的涌现能力,以及潜在的幻觉或有害偏见。黑盒本质:训练过程将透明的架构($\mathcal{M}_I$)转变为不透明的复杂系统($\mathcal{M}_R$)。由于深度学习的非凸优化性质,$\mathcal{M}_R$ 经常偏离 $\mathcal{M}_C$ 的逻辑预测,成为一个真正的“黑盒”。简而言之,$\mathcal{M}_R$ 是 $\mathcal{M}_I$ 在数据的侵蚀下形成的“固化现实”。
定义 2.5 $\mathcal{M}_O$(可观测模型,Observable Model)
可观测模型不仅仅是 $\mathcal{M}_R$ 的被动子集;它是 $\mathcal{M}_R$ 与外部世界(人类或环境)交互的唯一因果接口。认知瓶颈与降维投影:$\mathcal{M}_R$ 是一个高维、非线性的行为流形,但 $\mathcal{M}_O$ 必须通过特定的基准测试或交互协议迫使其坍缩为低维标量(如准确率得分)或线性符号流(Token流)。这种投影不可避免地丢失了 $\mathcal{M}_R$ 中绝大部分的拓扑结构信息。因此,$\mathcal{M}_O$ 构成了我们根本的认知瓶颈,我们永远只能看到一个高维实体的低维投影。进化的控制杆:更关键的是,在现代AI范式中,$\mathcal{M}_O$ 是反向传播优化信号(梯度)的唯一起点。系统中“存在”什么能力,取决于我们在 $\mathcal{M}_O$ 层面“奖励”什么表现。$\mathcal{M}_O$ 不仅定义了我们能看到什么,而且追溯性地定义了系统演化的合法边界。它是连接人类意图与机器实体的控制阀。
机器学习中“模型”的概念并非静止不变;它经历了一个不断分化和演进的过程。这种分化反映了模型之间距离的扩大。当AI系统的能力范围显著扩展时,原本紧密耦合的层级会发生“结晶”并分离。下面,我们展示这些层级关系在模型不同发展阶段的演变。
概念模型分化(例如,朴素贝叶斯和决策树)
层级关系的特点是紧密耦合:\(\mathcal{M}_N > \mathcal{M}_C \simeq \mathcal{M}_I \simeq \mathcal{M}_R \simeq \mathcal{M}_O\)对于这些模型,尽管存在 $\mathcal{M}_I$(白板)和 $\mathcal{M}_R$(人造物)之间的边界,但在功能上它是高度确定的。$\mathcal{M}_C \simeq \mathcal{M}_I$:概念模型直接转化为代码。例如,决策树的递归分裂逻辑直接被编码为 $\mathcal{M}_I$。此时,$\mathcal{M}_I$ 是一个严格的规则生成器,一个等待被填满的僵硬框架。$\mathcal{M}_I \simeq \mathcal{M}_R$:虽然 $\mathcal{M}_I$ 是“白板”,但在接触数据后转化为 $\mathcal{M}_R$ 的过程是透明且确定性的。在这里,从“白板”到“人造物”的过渡几乎没有“黑盒”空间;$\mathcal{M}_R$ 是 $\mathcal{M}_I$ 对数据的直接且可解释的映射。$\mathcal{M}_R \simeq \mathcal{M}_O$:由于 $\mathcal{M}_R$ 的行为完全由显式规则定义,标准的评估指标($\mathcal{M}_O$)可以完全覆盖其能力。
实例化模型分化(例如,K近邻、支持向量机和线性回归)
区别开始略微扩大,重点在于实现的抽象:\(\mathcal{M}_N > \mathcal{M}_C > \mathcal{M}_I \simeq \mathcal{M}_R \simeq \mathcal{M}_O\)$\mathcal{M}_C > \mathcal{M}_I$:理论概念(如最大间隔超平面)必须通过具体的、受限的选择来实例化。这里的 $\mathcal{M}_I$ 不仅包括算法,还包括具体的选择,如核函数(例如,RBF)或正则化参数。$\mathcal{M}_I \simeq \mathcal{M}_R$:转换通过凸优化完成。虽然 $\mathcal{M}_R$ 是数据训练的产物,但 $\mathcal{M}_I$ 的数学属性保证了 $\mathcal{M}_R$ 是全局最优解。$\mathcal{M}_I$ 强烈约束了 $\mathcal{M}_R$ 的最终形态,使得从“白板”到“人造物”的路径仍然平滑且可预测。
可达模型分化(例如,浅层神经网络和多层感知机)
出现了关键的分歧。“白板”不再严格主导“人造物”:\(\mathcal{M}_N > \mathcal{M}_C > \mathcal{M}_I > \mathcal{M}_R \simeq \mathcal{M}_O\)$\mathcal{M}_I > \mathcal{M}_R$:这是现代深度学习特征的首次出现。$\mathcal{M}_I$ 包括网络拓扑和随机初始化的权重。作为“白板”,$\mathcal{M}_I$ 拥有学习的潜力(Potentiality),但没有内容。与SVM不同,从 $\mathcal{M}_I$ 到 $\mathcal{M}_R$ 的过程涉及在非凸损失地貌中的复杂优化。不同的随机种子($\mathcal{M}_I$ 中的微小变化)或优化路径可能导致模型收敛到完全不同的局部极小值,形成功能上截然不同的 $\mathcal{M}_R$。此时,$\mathcal{M}_R$(人造物)不再仅仅是 $\mathcal{M}_I$(形式)加上数据。训练过程本身成为了一个复杂的塑造者,允许人造物脱离白板的初始设定。然而,对于浅层网络而言,行为的复杂性仍被认为是有限的,标准评估($\mathcal{M}_O$)仍然可以应对。
可观测模型分化(例如,深度神经网络和大型语言模型)
随着模型复杂性从深度网络扩展到现代基础模型,层级区别完全展开,形成了一条长长的抽象链,其中每一层都代表了前一层的重要还原或转换。这种关系总结为:\(\mathcal{M}_N > \mathcal{M}_C > \mathcal{M}_I > \mathcal{M}_R > \mathcal{M}_O\)在这一阶段,最关键的分歧出现在“人造物”($\mathcal{M}_R$)的两端:它与其初始形式($\mathcal{M}_I$)的分离,以及它与我们的观察($\mathcal{M}_O$)的分离。$\mathcal{M}_I > \mathcal{M}_R$:对于DNN,$\mathcal{M}_I$ 仅作为一个高维容器,是由代码架构(例如,Transformer)和随机初始化定义的“白板”。它有学习的能力但没有知识。优化过程将这块白板转化为 $\mathcal{M}_R$,即“人造物”。这种人造物有着本质的不同;它拥有复杂的非局部表示和错综复杂的函数映射。这种转变在LLM中达到了顶峰。在这里,$\mathcal{M}_I$ 仅仅是一个“预测下一个token”的机制。然而,在数万亿个token的洗礼下,由此产生的 $\mathcal{M}_R$ 展现出了在 $\mathcal{M}_I$ 设计中完全不存在的涌现能力,例如上下文学习、推理和世界建模。“人造物”在质量上超越了它的“形式”,使得仅仅通过检查 $\mathcal{M}_I$ 的架构来预测 $\mathcal{M}_R$ 的行为变得几乎不可能。$\mathcal{M}_R > \mathcal{M}_O$:这个层级的核心危机在于可观测模型的不足。$\mathcal{M}_R$ 拥有一个庞大、高维的行为流形。在LLM的情况下,$\mathcal{M}_R$ 的潜在行为空间是组合式的,实际上是无限的。任何静态基准或评估协议($\mathcal{M}_O$)都只能作为一个小小的“窥视孔”,仅能捕捉到模型能力的一小部分。在推理基准测试($\mathcal{M}_O$)上获得高分,并不能保证人造物($\mathcal{M}_R$)拥有稳健的推理能力,也不能排除隐藏的有害行为。因此,对于这些先进系统而言,$\mathcal{M}_R > \mathcal{M}_O$ 的层级关系意味着严重的信息丢失,从根本上挑战了我们评估所构建系统能力。
扩展的逆向循环:$\mathcal{M}_O$ 的双重统治
随着大模型时代的到来,层级关系不再是单向的线性流动,而是形成了一个具有反向主导作用的闭环反馈系统。这种逆向循环在两个层面上运作:$\mathcal{M}_O \to \mathcal{M}_R$(古德哈特坍塌,Goodhart’s Collapse
为了阐明五层框架如何解决“心智”与“机制”之间的对立,我们需要对约翰·塞尔(John Searle)的经典论证
房间的演化 (The Evolution of the Room)
我们的故事发生在一个绝对安静的房间里。房间里的操作员拿着一本极简规则手册,上面只有一条元指令:“掷骰子,然后输出一个符号”。他手中的工具是一套绝对公平(均匀)的骰子。当外部世界递进一张写着“你好”的纸条时,操作员机械地掷骰子。由于每个面的概率完全相等,输出的是一串最大熵的乱码。随后,房间经历了一个漫长的训练过程。大量的外部文本被运送到门口。操作员不阅读这些文本的意义;他甚至不需要理解它们。他执行的是纯粹的物理任务:根据外部文本的统计分布,他拿出锉刀和铅块,不断微调骰子的重心,使掷出的结果更符合输出的模式。当训练结束时,我们进入收敛状态。此时,操作员手中的工具已经变成了高度复杂的加权骰子。它们重心的分布极其精确,形成了一个巨大、高维的概率地形。当外界再次递进纸条“生命的意义是什么?”时,操作员仍然是那个盲目的操作员。他仍然不懂中文;他仍然只执行“掷骰子”的指令。然而,由于重心的偏倚,这次骰子停在了这一面:“生命是宇宙的闪烁。”最后,房间外的观察者收到了写有“生命是宇宙的闪烁”的纸条,并深感震撼。在这个思想实验中,最初的房间代表了纯粹的实例化模型。它拥有完整的语言生成能力(Capacity),但绝对没有语言内容(Content)。在这个阶段,我们清楚地看到了指涉对象的缺失($\mathcal{M}_N$):操作员不仅不懂中文,他甚至不懂“交流”的概念。他只是一个在功能真空中运作的物理机制。虽然注入训练文本的过程严格受到概念模型的控制,但存在根本的意图错位:设计者的目标可能是“让机器理解语言”,但 $\mathcal{M}_I$ 设定的数学目标仅仅是“最小化预测误差”。操作员调整骰子并没有赋予它们“意识”或“意义”,而仅仅是最大化了似然度(Likelihood)。它是数据统计模式的物理固化,或者说是一种统计拓扑。人类语言的深层逻辑、语法甚至常识被同构地压缩到了骰子的重心分布中。$\mathcal{M}_R$ 形成了一个包含所有合理中文句子的概率流形。在这个层面上的所有“意义”,仅仅是潜在的统计相关性。最终,正是由于观察者的介入,通过 $\mathcal{M}_O$ 这个窗口,这些潜在的数学结构才坍缩为具体的“语义事件”。
概率中的意义本质 (The Nature of Meaning in Probability)
演化的叙事将我们带到了一个本体论的悬崖:如果操作员(主体/算法)是盲目的,而骰子(客体/模型)是物理的,那么“意义”究竟驻留何处?我们提出,合成智能的意义并不源于主体的意图,而是源于拓扑同构(Topological Isomorphism)。首先,在语言学上,这个系统表现为一个奇特的实体:它拥有意义(Sinn,Sense)的过剩和指称(Bedeutung,Reference)的缺失
如果说“随机中文屋”探讨的是意义的空间结构,那么“双重《诗学》悖论”探讨的则是真理的时间本质。在这里,通过一场虚构却无比现实的学术危机,我们展示了当生成式AI介入知识生产时,本体论层级是如何发生错位的,并利用五层架构来剖析究竟是什么导致了历史真相的消亡。
完美的膺品与残缺的真迹 (The Perfect Fake and the Broken Real)
故事始于一位雄心勃勃的古典学者,他试图利用最先进的大型语言模型重建亚里士多德失传已久的《诗学》卷二(论喜剧)
从考古学到合成论 (From Archaeology to Synthesis)
在真实手稿与合成版之间做选择的困境,不仅仅是一场教学危机;它见证了人类认识论基础的地震式转移。在生成式AI时代,“真理”的概念本身正在经历深刻的本体论重构。在LLM时代,当我们无法触及本体世界(即,我们无法知道一个真理陈述是否符合外部世界的事实)时,遵循“符合论”(Correspondence Theory)的传统真理观被迫转向“融贯论”(Coherence Theory):只要一个陈述在 $\mathcal{M}_R$ 的逻辑流形内是自洽的,我们就倾向于接受它为“真”。这种转变导致了“真理的内卷”(Involution of Truth),这意味着我们不再向外探索未知的现实,而是向内挖掘已知的逻辑。这使得合成知识变得完美,但它永远无法提供来自 $\mathcal{M}_N$ 的、能够打破现有逻辑并推动范式转变的“意外”。在融贯论的框架下,我们必须重新定义“幻觉”(Hallucination)的本体论地位。传统观点将其视为模型的“错误”,但我们认为,幻觉是一种结构必然性。对于 $\mathcal{M}_I$(机制)来说,生成“完美的赝品”和生成“残缺的真迹”是计算上等效的路径搜索过程;模型无法区分“历史事实”与“高概率虚构”。所谓的“幻觉”,往往是模型过于忠诚于逻辑($\mathcal{M}_R$)而背叛了现实($\mathcal{M}_N$)的结果。如果我们愿意承认幻觉的必然性,并且不能总是回到 $\mathcal{M}_N$ 进行验证,我们需要一种新的评估真理的标准,例如拓扑鲁棒性(Topological Robustness)。我们不再问“它发生过吗?”(考古学视角),而是问“它经得起推敲吗?”(合成学视角)。如果一个概念不仅出现在单一的提示词中,而且在多语言、多视角和多上下文的对抗性诘问下仍能保持其逻辑结构的同构性,那么它就具备了“合成真理”。在AI时代,真理不再是考古挖掘的静态对象,而是压力测试的动态结果;“真”是逻辑流形中最坚固、最难被扰动破坏的不动点。
我们对五层本体论的探索揭示了人工智能本质的根本断裂:我们已经走出了“形式 $\mathcal{M}_I$ 严格决定内容 $\mathcal{M}_R$”的决定论时代,进入了一个涌现与异化并存的新纪元。通过对“随机中文屋”的现象学重构,我们发现意义不再是作者意图的传递,而是观察者对概率流形拓扑结构的投射。通过“双重《诗学》悖论”,我们目睹了定义真理的权力正在从历史的考古学向逻辑的合成学转移。然而,本文的核心警告在于 $\mathcal{M}_O$ 的双重统治。我们正在陷入一个危险的认识论闭环:我们的观察工具不仅在物理上修剪了模型的潜力(古德哈特坍塌),而且在哲学上使我们对智能的定义变得贫乏(认知回溯)。我们最大的风险不是创造出不可控的超级智能,而是创造出一个封闭的“超真实”(Hyperreal)幻觉。在这个幻想中,只有能被基准测试衡量的事物才被称为智能,只有符合逻辑预期的事物才被称为真理,而那个混乱但真实的本体世界却被系统性地遗忘了。因此,AI对齐的未来不能仅仅停留在让模型变得“听话”。我们必须从功能主义的迷梦中醒来,拥抱结构实在论。未来的任务在于扩展我们的观察带宽,从被动的评分者进化为流形的对抗性质询者。只有当我们具备了识别和验证那些“统计学上概率极低但逻辑上极为稳健”的结构的能力时,我们才能确保这个名为“可达模型”的巨大人工造物,能够成为我们洞察更深层现实的望远镜,而不是一面仅仅映照出我们自身偏见的镜子。