世界模型九宫格

简单解释一下左上四格:

  1. V-JPEA在做的事情本质是将代表真实世界的视频内容进行编码,在绝对理想的情况下,这类模型经尤其特征空间来implement the world,特征空间中的点可以与真实世界形成双射。
  2. World Model的始祖文章,本质上也是编码,但是其编码的对象是基于真实世界所构造/衍生出的世界,这种世界容量会很小,但是具有封闭性,而最右列通常没有封闭性(实际上最右列的上两个也是有对应的学术文章的,比如ImageNet上的MAE)。
  3. 往下一行的模型则会更进一步,直接表现出人类可感知/认识的信息,Sora便是直接表达世界的典型。
  4. LLM在中间,是因为语言世界本身是基于真实世界所衍生出的独立世界,LLM可能是这个世界的神,但是映射会现实世界就会出现所谓的“幻觉”。



Enjoy Reading This Article?

Here are some more articles you might like to read next:

  • Nanshan Jokes Collection (Gemini 2.5 Pro Translated Version)
  • 南山笑话集锦
  • Some Stray Thoughts After Leaving the Large Model Industry (Gemini 2.5 Pro Translated Version)
  • 离开大模型业界后的一点杂念
  • Large Models and Coin Minting, Continued (Gemini 2.5 Pro Translated Version)