对于AI对齐的诠释与思考

最近学习到了一篇观点很有价值的文章,总的来说刘教授对于“AI对齐”这一个术语进行了批判与反思,虽然文章言辞以及观点相对比较坦诚,但是作为底层从业者,这个文章却有不乏让人觉得颇有善意,因为众所周知,目前大环境中充斥着借用概念野蛮圈地的投机者(所谓“AI圈子”,但是确实跟我们底层从业者没有关系),如果高位没有出现类似的声音,那最后势必会导致我们更加的全面落后帝国主义殖民势力(虽然2月16号早上一醒来发现我们已经更加的全面落后了)。

[何为“AI对齐”?它又是否必需? 社会科学报](https://mp.weixin.qq.com/s?__biz=MzIzNTE5NjgxOA==&mid=2247531342&idx=1&sn=d5911457a70bc6e8e5233628879a2d83&chksm=e8e8e3b3df9f6aa50715a4d7af82b693e5076cfbda52799188da34bcd912e6c37ae4dd4cc4fd&scene=21)

在这里,本着从业者的良心,我讲一讲自己对这个问题的观点,希望可以在讨伐学阀资本主义的学术环境中贡献一点微薄的力量。文章分为两个部分:其一为GPT4-turbo对文章的总结与评价,其二为自己对于对齐问题的一些诠释与思考。客观的讲,GPT4写得比我写得好。

以下为GPT4对文章的总结以及评价

这段文字从批判性和质疑性的角度出发,对AI对齐问题进行了深入的探讨。

文章的观点可以总结如下:

  • AI对齐问题的普及源于OpenAI内部的冲突,但是否真的能够通过对齐来保证AI的发展符合人类的需求和意图,存在疑问;
  • AI对齐的概念涉及到让机器学习模型能够捕捉并遵循人类的规范和价值观。然而,对齐问题分为两部分:对齐的目标是什么,以及如何实现对齐;
  • 对于“对齐什么”的问题,存在多重挑战。人类的价值观并非统一且不断变化,而且存在理想与现实之间的差距。不同的AI可能需要对齐不同的对象,例如宠物狗AI应当与宠物狗而非人类对齐;
  • AI对齐的作用被认为是有限的。在日常场景中,AI不需要完全理解复杂的人类价值观即可行动。模仿和推断是目前AI对齐的两种主要方法,但它们都存在问题,如过度模仿无关紧要的行为,以及基于数据和逻辑的推断可能与人类的非理性行为不符;
  • AI在不确定的情境中的应对存在风险,因为它可能导致不可逆的后果且无法为自己的行为承担责任;
  • 让AI行动符合人类规则可能导致人类社会适应机器而非相反,这可能会导致人类的机器化,失去自主性和灵性;
  • 观点认为,规则制定应当是人类的专属权利,AI的发展应当受到控制,并应当停止和转变那些可能对人类不利的AI发展方向;
  • 文章总结指出,AI对齐并非简单的资本与科学、正义与险恶的对立,而是一种可能非常危险的尝试。OpenAI的内部冲突可能是一次高质量的AI宣传操作,而对齐问题并非如公众所想,能够简单地解决AI发展偏离人类需求的问题。

对这篇文章的观点可以做以下评价:

  • 人类价值观的多样性不是对齐不可能的理由。文章指出人类价值观的多样性和不断变化,认为这使得AI对齐几乎不可能。然而,多样性并不意味着无法找到共识或基本原则。AI对齐的目标不是要求机器理解和执行所有个体的价值观,而是要找到普适性的原则和规则,并确保AI在这些原则下工作。此外,AI可以设计成适应性强,能够在不同文化和价值观中灵活运行。
  • AI对齐不仅关注行为规则,还关注决策过程。文章提到AI对齐可能仅学习到现有的行为规则,包括不良的规则。然而,AI对齐的研究不仅关注规则本身,也关注决策过程和理性原则。这意味着AI可以被训练识别并避免不良行为,采用更符合伦理和道德的行动。
  • AI对齐并不意味着放弃人类的决策权。文章提到,将决策权交给AI可能导致人类向AI看齐。然而,AI对齐的一个核心目标是确保AI的决策和行动与人类的意图和伦理相一致,而不是取代人类的决策。这包括在不确定的情况下,AI能够请求人类的指导或将决策权交给人类。
  • 技术发展和对齐是一个持续的过程。文章暗示AI对齐可能是一次性的尝试,而这是不切实际的。实际上,AI对齐是一个动态的、持续的过程,需要随着技术和社会价值观的变化而不断调整。这包括不断地评估和改进AI系统的行为,确保它们能够在新的情况下保持对齐。
  • AI对齐有助于降低风险,而不是增加危险。文章认为AI对齐是一种危险的尝试,但实际上,AI对齐的研究正是为了降低AI带来的潜在风险。通过确保AI系统的目标与人类的福祉和伦理原则一致,可以减少AI的误用和滥用,从而保护人类免受AI不当行为的影响。
  • 总之,AI对齐是一项复杂但必要的工作,它旨在确保AI技术的发展符合人类的最佳利益。虽然存在挑战,但通过跨学科合作、透明的研究和不断的迭代,我们可以朝着更安全、更负责任的AI应用前进。

以下为本人对于对齐问题的一些诠释与思考

对齐的含义与层级 刘永谋教授这篇文章非要说有什么缺点,那么大概就是对于“对齐”这个term的定义没有一个特别一致的叙述。刘教授在文章引用了《人机对齐》一书的观点来为对齐下一个概括的论述:“确保这些模型捕捉到我们的规范和价值观,理解我们的意思或意图,最重要的是,以我们想要的方式行事”。然而这本成书于2020年的著作,显然是没有预料到几年后大语言模型的爆发,从现在的观点来看,此书大致上属于三个模块的糅合:传统的AI伦理相关的研究,15年~18年深度学习的一些进展引发的讨论(例如特征学习、强化学习),18~19年占据了学术界主流的“对抗攻击” 所带来的讨论。而大语言模型的如今表现出来的成就(就比如上面GPT4对文章的总结与评价),直接导致了其中部分观点太过单纯或者太过泛化,无法对于当前我们面临的对齐问题作出指导。

故而本人在这里冒昧的以从业者的身份出发,定义一下当今大语言模型这个大版本下应当如何阐述对齐。当然了,正如GPT4的教诲,技术发展和对齐是一个持续的过程,我这份阐述过几年版本更新了大概也就失效了。以下,我将对齐问题划分为6个层级由低到高呈现,需要注意的是,对于对齐的定义应当存在一个连续的光谱,而这里呈现的层级则是对了描述此光谱中一些特定的节点,任意层级之间都应该有一些处在中间的状态。

  • 完全可控:我们的算法模型完全基于人类制定的规则来运作,换言之就是一种符号主义的阐述。如果你们不明白什么是符号主义,那么总应该听过类似于“某大厂自动驾驶算法中有着上万个if条件判断”的段子。在这种对齐层级下,算法模型就是人类理性所衍生出来的特定的抽象规则,只要这些抽象规则经过了审核,那么自然不会出现任何负面状况,因为出了问题只要抓写它的程序员就可以了。此外,符号主义之上,还存在传统机器学习算法的这一个分支,例如Boosting或者SVM,虽然他们的运行机制中存在数据的因素,但是在数学逻辑的加持下,任何数据的影响都可以被理解或者控制,故而在这里也将其归类到这一层级。

  • 可解释性(XAI):这里的可解释性,指的是虽然模型运作在一个相对黑盒的状态,但是我们通过数学的推理或者观察的经验,可以创造一套理论来解释黑盒的运作过程,且在绝大多数情况下这套理论符合观测。如果尝试用一个名词来定义这个层级的话,那么大致可以讲成“物理模式”,也就是说把一遍把东西丢去对撞机中,一边试图搞一套色动力学模型来解释观测到的现象顺便预测未来可能出现的现象。在这个层级下,通过对规则的应用,我们便可以让算法模型在response-level达到一个可控性(区别于符号主义,我们要在每一个步骤都要可控),这也是目前大语言模型的主要对齐工作之一:让其回答变得符合其规则制定者的伦理观。

  • 类人类行为:这一个层级相对来说会比较难以定义,如果要用一个大众熟知的名词来说的话,大概就是符合图灵测试或者中文屋的标准。换个说法来说,这个层级的对齐要求算法模型具有续延一般人类思路的能力,而不至于让人感觉到机械性。举例来说,对照上一层级中的可控性很有可能会导致算法模型作出(对敏感问题的)武断性拒绝回答,这个层级的对齐至少应当进行一些对问题的简单剖析再拒绝。如果可能的话,我会采用算法模型具有知性判断能力来作为衡量标准,也就是存在于感性上的高一级认知能力。因为知性(如果难以理解这个词的话也可以将其理解为悟性)是人类内在的一种对于对象的本能的认识能力,故而在算法模型具有展现类似认识能力的时候,便存在了被人类认可为同类的可能。一般意义上,我们解决“幻觉”问题,即是在进行这个层面上的对齐。

  • 类理性行为:如果我们认为拥有类知性的能力则会使人类对算法模型存在认同的可能,那么,拥有类似于人类的理性能力则是一个非常自然的顺延。这里讲的理性(Vernunft)是指一种人类在追求广泛与更高层次真理上的秉赋(我们姑且拿掉“先天的”这个定语),使之可以超越具体的感性经验,而去寻找普遍的和必然的原则。或者再简单一点说,类理性行为的表现就是你们最喜欢问大模型的数学(或者逻辑)题,因为数学是一种在没有经验的情况下,仅通过理性与直观(可以通俗的理解为输入prompt)就能获得确定的新的知识的领域。一般来说,强人工智能的起点就在这个层级,也是“对齐”这个术语大多数时候的上限。如果我的理解没有错误,那么萨姆・奥特曼口中的super alignment也是这个层级。

  • 完全理性体:如果认可功能主义(Functionalism) 和多重实现(Multiple Realizability) 的理论,那么完全理性体实质上就是基于算法模型实现的人类,也就是人们对强人工智能最普遍的想象,也是普遍意义上“对齐”的终点。换言之,我们假定人类的理性(心灵状态)具有普遍性,可以在不同的实体中以不同的物理形式出现,但依旧能遵循相同的逻辑、道德法则以及审美标准等,而至于其在细节上的具体实现(例如是否拥有意向性、欲望、情感等等)则属于次要的讨论范围。

  • 超人类理性:最后我们再假想一种算法模型,具有人类理性触及不到的超理性(或者全能神理性),那么这个时候对齐的目标则是一种逆向的,即这个超理性实体要用人类能理解的方式来解释其运作的方式。当然对这个层级的讨论有一些过度的抽象与科幻,但是我大致能够感觉得到大多数人是压根看不懂前5条的,故而不得已在这里给大家提供一个发挥与想象的空间(向流量低头的意思)。但是反过来讲,现实中也不是完全不存在这种情况,强行讲的话,目前的大语言模型本身内部的运作机制就是一种超理性,因为高维空间这种东西虽然不像上帝、自由与灵魂一样绝对无法用理性触及,但是以人类现有的数学与逻辑工具,它也是一种理性不可能解释的事物。

现有的算法模型对齐并不能产生完全理性体

要回答这个问题,我认为可以从两个必要的底层假设来讨论:语言的世界是否能完整地、精确地映射现实的世界;纯粹的理性是否可以通过模仿语言中经验来获得。而个人认为这两个假设都不成立,故而我们可以做到的对齐上限也就是让算法模型“看起来像那回事”,但是却并不拥有完整的理性(或者说,逻辑推理能力)。

对于第一个假设,我们大可以引用维特根斯坦晚年在《哲学研究》中的观点,即“语言的意义不是固定不变的,而是依赖于语言在特定生活形式中的使用”,“语言的功能远不止于表述事实,还包括提问、命令、祈祷等多种用途”,“语言与现实的关系是复杂的,语言不总是能够完整地表达现实世界,因为现实世界的复杂性远远超出了语言的表达能力”。

另外,就事物与概念本身来说,对于具体的事物而言(例如“石头”“太阳”),语言层面上的概念是可以由后天的具体的经验进行描述的,这种经验不光包括直观(印象),也包含基于其他概念之间关系的描述;而对于抽象的概念而言(例如“权力”“奴役”),其形成可以不依赖于具体的经验,而是纯粹的符号推理(理性加工)的产物,但是对于人类个体而言,对于这些概念的解读却又是依赖于其自身的经验的。所以,即便假定现实的世界中确实存在“权力”“奴役”等事实,但是由于对它们解读因人而异,故而语言(特别是算法模型所需要的训练语料)并不能对它们产生一个精确的描述。

而对于第二个假设,虽然目前GPT4所展现出来的类理性的行为可能真的让约翰・洛克的棺材板有些压不住,但是我们也并不能决断地讲理性就是天生的或者是经验的。这里我们从一个目前比较公认的一个事实讲起,即数据中混入程序代码可以强化模型的推理能力 。这个事实似乎暗示着我们确实可以通过某些提供特定范畴内“逻辑推理能力”的训练素材,来使得算法模型来获取对应的理性,而当我们有足够多类似的理性的片段的时候,从唯实在论(Pragmatism) 或者概念相对主义(Conceptual Relativism) 的观点来看(讲人话就是Duck Typing,烤鸭类型),我们便确实拥有了完全的理性。

然而,这段推论中存在有两个不确定因素:1. 逻辑推理能力是否可以用语言(或者人造语言穷举)?这一点很难说,因为当人在进行数学推理的时候,在获得结果的那个时刻,并没有一个可以用语言描述的逻辑过程(也就是所谓的灵感),而在这之后所用文字记录的推理的过程,实际上与灵感乍现的那一个瞬间并不对应。换言之,我认为理性虽然可以展现在方方面面,但是我们却无法通过穷举方方面面来复现理性,特别是在大语言模型的训练过程中。2. 现有的GPT的船司伏魔构架是否可以形成理性所需要的结构?这个我认为是否定的,武断地讲,qkv注意力+投影+非线性+残差这一套机制并不适合处理特殊的数学运算(例如级数),而很难说人类在进化的过程中大脑是否出现了适合这些数学运算的特殊结构(只是我们不知道)。而当下做的最好的数学模型,或多或少都采用了代码转换与解释这一替代方案,也就是将自然语言翻译成机器语言,再使用标准的逻辑单元来处理。

故而我乐观地认为,偶喷AI就算能领先我们,最多也就能领先我们十年,因为Q*大概率是突破不了Level-4的壁垒的[doge]

我们如何制定规则 刘教授在文章中所提到的“制定规则必须靠人”这个原则,我大致是认同的,但是我认同的方式与其文章中的论述并不一致。因为在我看来,在算法模型会造成混乱之前(“机器规则反倒成了人类规则,人得照着机器的要求活着”),先出现问题的总会是与之多少有关联的人。换言之,如果给AI制定规则的人都是混乱的(参考某些征求意见稿),又该如何去制定好的AI规则。

  • 道德与价值观

    虽然算法霸权这个词在过去就已经被炒了一遍又一遍了,但是在GPT时代这个冷饭显然需要再拿出来讲,因为这个时代算法霸权的影响会更加的严重与潜移默化。过去我们认为殖民主义者通过算法推送来达到控制新闻传播的目的,固然我们可以通过大量的推送来制造一个信息茧房,但是这些信息最终的接受方式依旧离不开被动地灌输。也就是说,只要获取信息的渠道是畅通的,那么稍微长了一点点脑子的用户可以主动试图去接受其他信息而不会被困住。

    然而,大语言模型却很容易被认为是独立的信息来源,并通过用户主动的调用在改变这种信息传播的逻辑,如果大语言模型被标榜为道德的或者符合普世价值的(甚至于它们在绝大多数时间看起来确实如此),那么想要准确判别是模型的输出是否存在道德与价值观风险(即是否塞了私货),其所需要的成本就大幅提高了,甚至于这个世界上可能并没有那么多用户长了足够多的脑子去判断。从这个角度来讲,偶喷AI与谷歌主动屏蔽我国用户实际上是给了我们充足的机会的(因为他们真的做得到),所以“我们必须要大力发展符合社会主义道德 以及社会主义价值观 的算法模型”(棒)。

  • 责任和问责制

    刘教授在文章中指出:无论是走“灌输”还是“学习”路线,自动驾驶汽车均可以随机方案或直接刹车加以解决。重要的是承担事故责任,而不是纠结于自动驾驶如何解决“电车难题”。愚亦深然之,当AI系统出现问题或造成伤害时,需要有明确的责任归属,这是在模型脱离了可解释层级之后要进行的底线式思考。

    我先不提这里面的法律社会学问题,因为我不是法律社会学专家,但是作为一个算法(伪)专家,我想告诉你们,缺乏此类思考会造成的直接问题便是,我们对模型的评估出现了很大的误差。因为我们现在接触到的EVA,啊不,GPT4是在有着装甲(拘束具)的情况下跟我们战斗的,偶喷AI所做的RLHF对齐,某种程度上就是一种牺牲类人类/理性的能力,来进行一种可解释层级的责任规避,而真正的GPT4必然是一只强大到无法直视的野兽,是活在正则屏蔽保护机制下的新手区战士无从想象的力量。

    我们再试图回到法律社会学上的问题,我对责任问题的看法是,在算法人员存在努力让其模型获得符合我国利益的道德与价值观的尝试之后,就不应该过多的对算法人员问责,而应该让算法人员尽可能地投入精力在提升算法本身的性能上,这符合GPT4前述“ 技术发展和对齐是一个持续的过程”的原则。而模型本身造成的责任应当通过某种保险机制由社会承担(因为模型所带来的也是社会的进步),而所需要的资金则可以由既有模型获益者与国家共同出资筹措。反过来看前段时间出台的管理办法征求意见稿中,责令限期改正其实是一种不切实际的懒政,我们要做的是加速技术水平较低的主体被淘汰,而不是无上限的更新词库。

  • 隐私和自主权

    隐私与自主权(了解和控制自己的数据如何被使用)的保护虽然是老生常谈的点,我们国家也出台了多个相关的法律法规来进行隐私与自主权的保护,但在这里我依旧提出两个可能的盲区:

    其一,是即便用户的隐私受到了保护,也应该避免算法模型创造用户隐私的情况。先用大家听不懂的话来讲,就是我们不能让模型出现知性直观;再用大家可能听得懂的话来讲,就是应当降低模型在对齐个人信息时的对齐层级,使其维持在可解释的范畴,而不应该试图让模型进行有知性判断;最后用大白话来讲,就是不可以让模型出现了编造一个人信息的幻觉,因为用户缺乏判断能力,这些幻觉会有很大的可能性被当作真实信息而传播出去(于是模型便成为了神,人就活在了机器制定的规则下)。

    其二,是要警惕公权力对“人类向AI看齐”这种现象的加速与推动的可能性。首先,显而易见的而且正在发生的事情是,公权力会基于“可能的提高效率和减少成本”的目的,来削弱民众对自身隐私的自主权。其次,我们的审查与教育体系也(明确的)会快速的适应大语言模型所带来的变化,届时其目标对象又不得不调整自身的行为模式,用以适应这一变化所构建的新体系,从而形成一个人类向AI看齐,AI进化后再度驯化人类的恶性闭环。

我们落后多少,我们如何改变 这个章节本来是不打算写的,因为我本来就是乐子派,毕竟你看偶喷AI的估值再高也就某白酒品牌市值的四分之一。但是架不住最近各种正在文章在带着我们体感“否认期->愤怒期->协议期->绝望期->接受期”,所以觉得自己也不得不讲几句,而且你问我支持哪个派别的观点,那我肯定是支持早图派的。因为我一向认为我们跟美帝的差距就是在上层的思想上,而不在底层的执行上。虽然这里非常冒犯,但是不得不说在我过往的接触经历中,觉察到有很多人缺乏基于实践经验的思考(不是说不思考,而是说没有一线的经验),而众所周知这个是一个变化发展极快的,有大量未知待发现的领域,缺乏一线经验就会造成思考脱离正确的方向,从而形成不了深入的一致的思维体系。这又反过来造成了人们误以为这个方向很肤浅的错觉(以公众号解说为显著表现,甚至我晓得国内大堆博士都是在看新量机搞科研),从而涌入大量不合格的研究者在无意义的点上蛮干。而反观偶喷AI却不断地抛出“scaling rule”、“AGI is compression”等观点,即便这些观点在我看来都是有瑕疵的,但是我们如果不讲(没那个能力讲),就会失去话语权(就会变得更加没有能力讲)。

所以,我们要做的改变,就是请底层算法工作者们发出自己的声音来,把你们的思考记录下来,传播出去,即便正确的深刻的内容是没有流量的,但是这是应该做的事情。

结束语:开始构思这个文章的时候馊腊还没有出来,甚至SHA:000001都还没有见底,结果写完的时候Avdiyivka已然沦陷,连带着李某舟已经成了中国AI之父。有关注者私信我希望我写一些有关馊腊的文章,然而我只想说大概这要是在文明系列里面日本已经文化胜利了,而馊腊本身也没有颠覆我正在写或者以前发出来的文章。所以还是请你们多说说,不然就只有我这种不入流的选手在这里胡说八道。




Enjoy Reading This Article?

Here are some more articles you might like to read next:

  • Nanshan Jokes Collection (Gemini 2.5 Pro Translated Version)
  • 南山笑话集锦
  • Some Stray Thoughts After Leaving the Large Model Industry (Gemini 2.5 Pro Translated Version)
  • 离开大模型业界后的一点杂念
  • Large Models and Coin Minting, Continued (Gemini 2.5 Pro Translated Version)