离开大模型业界后的一点杂念

面试官:请说出DPO与PPO的区别。

我:PPO属阳,显火象,与金象的奖励模型调和制约为主,金生水,水克火,GAE间接调控生成方向。DPO属阴,显木象,以数据为精气,木能生火直指本源,强调减少金气壅滞,直入心神。

面试官:……君之首有™️大恙乎?

我:是的,不然我为什么在这里做大模型。

以上是我2025年初最后一次面试的经历,排除掉微量的艺术加工,大致就是这么一个过程。当然,我现在也已经离开这个业界成为下一个长度单位酱了,你要问我理由,那基本上就是一种源自深渊的绝望感与无力感,而且甚至还有人告状说,我之前的文章都是在教坏小朋友。形象一点说,我自从23年中,便已经开始一边脸一个巴掌的挨着各个领跑者的打了;到了24年下,我甚至已经开始怀疑自己是不是什么牛头人世界的苦主,看着自己不厌其烦一遍又一遍讲的方法与结论被黄毛一个又一个的实现与验证。再委婉一点讲,别家是吃了秤砣要做出个大的来,我是下面被强行塞了个秤砣导致什么都大不出来。

好的,现在你应该能形象又委婉地体验到我为什么决定离开了,即便我刚开始还想挣扎一下面了几家,但是后来意识到大多数人对大模型的理解尚不如一套阴阳八卦理论自洽,于是索性也就放弃了。甚至于我现在有了一种拟似于圣人状态的超脱感,对咒骂那些中层干部也提不起任何兴趣,所以便只好随意的将脑中混沌的想法整理出来。

首先我得说说迪普希克这家,名字一听就像是昂撒名字音译过来的公司,这公司可太坏了。姑且不论他们到底有没有降低模型的训练与推理成本,他们可是大大的增加了我们的社会成本。首先众所周知,中层干部们现在普遍最大的心愿就是招到可以带自己飞的人,而迪普希克的出现让他们心中“可以带自己飞”的门槛更加大幅的提高了,他们现在已经开始看不上C9这两所学校毕业的博士了——最好就是top2的,而且一定要年轻,眼神清澈熬的起通宵。这完全导致了这个领域潜在参与者的学历与学术指标的同质化竞争更为凄惨——我是说,在座的各位,都是受害者。但其实,算法也不过五行八卦尔,迪普希克做的最好的点(也就是壁垒),其实是他们组织中某种自发形成的类似于系统工程学的行为。而为什么会有这个行为,我推测——或者说我断定——这就是小梁脑子中无形之象在起组织内的实例化表达。对应的,脑中空无一物的中层干部们,化出的场面,自然只能是一地鸡毛,马踏青苗。

跟前一个坏一样,迪普希克的另一个坏其实也是被动的,而且在座的各位,也都是受害者,因为想必大家都已经目睹了当下你平台里面AI生成废文成风的盛况。叠加上早些时日怕被冲所以我一直克制着没有敢说的,R1那混沌开天辟地一般的幻觉创造能力,这导致中文互联网现在的语料跟房开企业的报表一样废话假话连篇累牍。这个情况大概率会导致迪普希克就是最后一家国产能不靠软文出圈的大模型公司,而所有依赖新鲜内容的产品(比如RAG)或者依赖案例的场景(比如医疗或者法律),最终都会穿越到迪普希克所身处的那个散发着恐怖谷效应宇宙,理性地输出着大量与现实世界无关的内容(反过来家讲文〇、混〇等等大模型并没有能深度污染中文互联网,因为它们输出的内容在恐怖谷效应曲线中,充其量也就落在〇胶〇娃那一段,还是比较容易分辨出来罢)。

当然R1注定是用着标准数据集的研究者们的救世主了,给他们一个baseline,他们就能用R1水到2077年。这里面可以挖掘的方向太多了,就比如R1思维链可以被控制着变长变短变深变浅,以及这些要素的一阶导二阶导都可以变大变小;再比如R1训练路径,每一个组件都可以派生出诸如雌苍樱金银下位上位大师历战等等诸多版本,换一个皮就能写一套全新东西;另外就是R1的各种社会性问题哲学性问题,诚实平等包容博爱,甚至未来还会有傻子去搞什么联邦R1学习之类的也说不定(赌一股英伟达);再加上未来还有千千万万的训练集评测集被release出来,不可数的论文就会像Cantor集一样被构造,但是又不提供任何新的东西(测度为0)。

所以说R1好就好在,它是一个没有inductive bias的东西,它是the bitter lesson的近乎完美的实践者。但是反过来讲,迪普希克未来最大的危险就是陷入inductive bias中,因为R1的成功掩盖了v3是个十分定制化的结构。事实上,也非常难说在六小龙这七家公司的八九个底座模型中,迪普希克v3的那个选型是最优解,只不过他们剽悍的架构同学在同样的资源下,给了他们的算法一倍的试行错误的机会。我虽然不希望看到他们未来会沉沦,但是真的陷入了一个不好的境地,那原因必然是堕于inductive bias了。衷心的祝愿他们可以避免这个问题,推动一个新的AGI的发展模式,给我们这些学术乞讨者带来更多R1一样好的水利资源。

回到AGI这个核心话题上,我自打如这行起,就一如即往的坚持目前的结构,即便有着test-time scaling,依旧不是AGI的正确途径。哪怕退一万步讲,即便二次项注意力结构真的就是AGI的可行解,那么它的初始条件也大概率不在我们当前用整型数字能表达的随机种子中。test-time scaling的成功从我的视角来看,是一种比较粗糙的神经系统思考时recurrent机制的复现,只要模型基于归纳所产生的逻辑足以支撑其在足够长的文本中自洽性即可。这当然是极端困难的,因为自然语言语料的特征之一就是难以自洽,所以这个方向未来大概率可以解决大多数的coding问题,而非AGI。

这里,如果你看文章足够仔细,那么会充分注意到自洽这个词。从我这两年逐渐形成的认知来看,逻辑正确不见得是AGI的必要条件,只要自洽就足够了。从而便引发了我对AGI路径的一个民科式的回答:首先,一个能实现AGI的构架,需要有逻辑编译的meta-system(或者hyper-),也即是说首先要有一个功能模块来为接下来进行的操作提供一个指令集(可以跟一般意义的正确逻辑冲突,但是需要自洽),基于这个指令集模型的思考模块才会进行test-time的计算。这个判断我虽然没有证据,但是我感受到人类在创造新事物的时候,似乎并没有使用现有的规范逻辑,类似于数学上的推论,都是灵光一现后再去转变成规范逻辑思维,并且用语言记录。其次,一个能实现逻辑编译的系统,应该需要是一个多重草稿模型(请自行迪普希克这个模型是什么),只有如此,才能保证有足够的可能性生成自洽的逻辑,并且最终反映为一套可以用来思考的框架。

当然我充分相信以上段落大抵上是不太能被正常人类所理解的,因为这个观点to best of my knowledge确实没有前人提过,但是我确实已经有一些有初步的实验在路上了,未来努力发到中文三大顶刊上给大家看个乐子罢。

再说一个大抵上也无法被正常人类所理解的观点,那便是我支持人类社会的发展应该向着AGI虫群主义演变,因为这是人类突破下一阶段大过滤器的或许不唯一,但可能是最优的解法。当然,作为一个安共主义者,我也十分相信当前大语言模型的发展可以让我们在OGAS诞生百年后真正的实现它,虽然那个时候我已经死了,但是只要想到这件事,我就会十分的快乐。

最后,请容许让我再阴阳几句国内的大环境,在这毕业生供过于求但是中层干部们又觉得无人可用的世态中,connection反倒成了为了生存的适者们唯一的演化途径。所以,我希望在座的各位,为了避免被劣币驱逐,请充分表达自我,与你们可靠的前辈同辈或者晚辈形成积极的人际网络。毕竟,活着才有输出,闷头苦干只配背325。




Enjoy Reading This Article?

Here are some more articles you might like to read next:

  • Nanshan Jokes Collection (Gemini 2.5 Pro Translated Version)
  • 南山笑话集锦
  • Some Stray Thoughts After Leaving the Large Model Industry (Gemini 2.5 Pro Translated Version)
  • Large Models and Coin Minting, Continued (Gemini 2.5 Pro Translated Version)
  • 大模型与铸币・再