世界模型九宫格

简单解释一下左上四格:

  1. V-JPEA在做的事情本质是将代表真实世界的视频内容进行编码,在绝对理想的情况下,这类模型经尤其特征空间来implement the world,特征空间中的点可以与真实世界形成双射。
  2. World Model的始祖文章,本质上也是编码,但是其编码的对象是基于真实世界所构造/衍生出的世界,这种世界容量会很小,但是具有封闭性,而最右列通常没有封闭性(实际上最右列的上两个也是有对应的学术文章的,比如ImageNet上的MAE)。
  3. 往下一行的模型则会更进一步,直接表现出人类可感知/认识的信息,Sora便是直接表达世界的典型。
  4. LLM在中间,是因为语言世界本身是基于真实世界所衍生出的独立世界,LLM可能是这个世界的神,但是映射会现实世界就会出现所谓的“幻觉”。



Enjoy Reading This Article?

Here are some more articles you might like to read next:

  • The Layered Ontology of Models, Resolving the Epistemological Crisis of AI
  • 模型的层级本体论:化解人工智能的认识论危机 (Gemini 3.0 Pro Translated Version)
  • Shostakovich's Waltz No. 2: Through My Eyes (Gemini 3.0 Pro Translated Version)
  • 我眼中的肖斯塔科维奇第二圆舞曲(Dmitri Shostakovich - Waltz No. 2)
  • Research on Large Language Models Based on CCCP-Era Technologies (awesome-cccp-llm)