人力密集型大模型没有前途

自打路易十四登基380年以来，不断就有人跑来问我，涡轮型跟全能型之间最大的区别是什么。

其实对这个问题，我是准备了上中下三种回答模版的：如果对方是高引学者，那么我会假装小心翼翼的回答“涡轮型只有一个模态，但是全能型有多个模态”，这样他们便会眯起本来就被肥头大耳挤成一条缝的眼睛，堆着一脸傻笑教导你“对，模态有四种你都知道是什么吗？”——这就是所谓的下马对战对方上马；如果对方是刚进来的实习生，我便会棒读他们一些paper中讨论的技术方案细节，并且告诉他们再过半年我们就会有开源的全能型让他做实验了——这便是中马稳压下马一头；但如果对面是诸君，我最睿智且勤奋的读者们，我会试图像你们传播这份最有意义的回答：

涡轮型是技术密集型产物，而全能型是人力密集型产物。

而我能如此回答的底气，都是或许马上就要死掉的GPTs带给我的：虽然这里面有一些非GPTs本身的问题（例如基于bing的检索功能被各种搜索排序hacking网站捅爆），但是核心的原因依旧是GPT本身无法follow真实世界中各种复杂的instructions，这导致众多的GPTs中只有极少量、非常特定领域的、重复性的标准工作，可以被它较好的执行。换言之，我们现在的技术尚未进化到可以提供一个具有精密逻辑的、泛用的instruction解释器（而这是GPTs的核心组建），以至于我们需要构建一种形同于QEC（量子纠错）的系统让这个解释器可以充分运作。而这个系统的搭建本身又是非标准化且依赖经验与时间成本的，所以GPTs在热度消退了之后也逐渐的销声匿迹了，这充分意味着“以提供技术密集型的基底模型，并让用户进行订制化”路线的破产。事到如今，OpenAI只好跟着业界的脚步，再训练了全能型：这个型号如果你用的够多，那么自然能充分体会到那种“细分领域、细分类目”优化过的结果，即便它在较长的instructions理解上可能不如涡轮型，但是常用的（特别是刷榜的）一些指令上它是真的又快又好。

而之所以业界会有如此的脚步，按照我上文中的臆想模式，事情的原委大概是这样的：一开始有人说自己落后别人两个月，但是说话总得有个凭证，那么就搞搞评测吧。但是翻了翻学术的榜单，赫然发现自己不小心在一年前就已经把别人刷爆了，然而实际用起来的体验又差点成为了跟鲲鲲齐名的烂梗。那么只好这样吧，我们把用户常用的场景分成十几个大类几百个小类，这样只要我们在某个类上以微弱优势赢了，那么我们就得一分，然后再把我们输到看不到边的小类合并成“其他场景”，这样我们最终便可以在“用户能力体验榜”上再体验一把赢的感觉。于是，事情的发展就变成了面向分类优化，每个分类摊去几个人头上，再从别人的模型摘取一些“参考答案”，整合起来放到自研的训练框架里面，用自研的皮皮噢算法，孜孜不倦地提升着每一个小类的点数。渐渐地，便诞生了新质人力密集型大模型的生产流程。

我们现在抛开技术与理想的话题不谈，讨论一下这个模式本身，结果我意识到这个模式最大的优势在于，它能给资本家与他们的管理层带来安全感：

它切实地将“落地”这种政治正确与自己的工作方向做了结合。因为确实，人类的创造力平均下来是非常贫乏的，包括提问的多样性与复杂度，所以针对性复读机的本质进行优化是没有任何毛病的，如果不这么做，那也没人知道我们会做出来什么，这就会造成用户体验的急剧下降，严重背离了要赚钱就要落地的客观商业真理。
它切实地为攥写软文提供了依据，而软文的投入又可以在未来某些需要并表的时间中“转化为”商誉，并切形成一个“软文投入越多 -> 估值越高，估值越高 -> 越受关注，越受关注 -> 软文的投入就越少”，这样一种“软文投入越多 -> 软文的投入就越少”的良性循环当中。与之同时，它也为各大评测机构提供了稳定的变现模式，创造了良好的生态环境，毕竟老板，你也不想自家的大模型在我们的编程大类上得分倒数第二吧？
它切实地创造了符合可辨认性的无形资产——数据。从记账的角度来看，大模型所需要的硬件几年就报废了，框架那是开源转自研的，人干一段时间要么跑路了要么猝没了，训出来的模型两个月就落后了，只有数据，有着良好分类体系的高质量数据，才是我账上无形资产中最坚固的、永不蜕化变质的资产。

然而，OpenAI敢去做一个人力密集型是有底气的。

首先，他们真有一个技术密集型的模型，他们不仅可以用你们调用GPT4刷数据的数据来几乎无成本的获得海量的数据（而且其中有一大部份都是你们线上遇到的用户真实case），更可以做严格基于logits的蒸馏实验。全能型只是OpenAI的全能型，但却是你们的人力密集型。而且我认为这个名字起得还是有待商榷的，我要是萨姆奥特曼，我肯定会叫它「光翼型」近接支援残酷GPT。其次，OpenAI有大量真的很懂技术的算法人员，GPT/PPO/CLIP等诸多有影响力算法全都是起源在那里的，打个比方我可以讲他们有着“完备的技术供应链”。而贵社的高级/超级抬头的专家/研究员/科学家，基本都是吃了CV/NLP这十年的开源红利的大可爱，能供应的技术也就是在某个已经被锤烂了的benchmark上提升0.X%性能的trick，整个思维体系已经脱离了时代，甚至连一些最基础的公式都不会看不会推。结果最后似乎大家都很努力很幸苦，但是只是在不断地围绕着某个固化的榜单日复一日的调用别人家的模型刷数据。最后，OpenAI确实有一个轻量化模型的需求，以便让他们腾出算力来做新的工作，这个时候一个在细分领域中有相对优良表现的模型就会显得格外有性价比：毕竟如果用户发现全能型不能理解他们用来刷数据的复杂instructions，自然会去调用涡轮型的。

当然，没有人会承认自己在做人力密集型的大模型。然而，你的主机是超微的，你的交换机是麦拉纳克斯的，你的KFC是英特尔的，你的加速卡是老黄家的，你的操作系统是开源的李娜克斯，你的编程语言是开源的蟒蛇，你写代码的工具是开源的VS代码，你的计算框架是开源的火炬，你的训练框架是开源的威震天、深沉速率、变压器引擎与闪烁注意力，你预训练的数据多半是通用爬虫，你用来蒸馏的教师模型是全能型。好了，你现在告诉我，你的技术又密集在哪里？

最后，本文纯属个人臆想产物，请勿对号入座。另外致敬国内几个依旧走在追求技术与开源道路上的团队。

拓展阅读

秦荣生.数据资源入账入表的管理和税收问题探讨[J].税务研究,2024,(05):29-33.DOI:10.19376/j.cnki.cn11-1011/f.2024.05.006.

拓展阅读

Enjoy Reading This Article?