世界模型九宫格

简单解释一下左上四格:
- V-JPEA在做的事情本质是将代表真实世界的视频内容进行编码,在绝对理想的情况下,这类模型经尤其特征空间来implement the world,特征空间中的点可以与真实世界形成双射。
- World Model的始祖文章,本质上也是编码,但是其编码的对象是基于真实世界所构造/衍生出的世界,这种世界容量会很小,但是具有封闭性,而最右列通常没有封闭性(实际上最右列的上两个也是有对应的学术文章的,比如ImageNet上的MAE)。
- 往下一行的模型则会更进一步,直接表现出人类可感知/认识的信息,Sora便是直接表达世界的典型。
- LLM在中间,是因为语言世界本身是基于真实世界所衍生出的独立世界,LLM可能是这个世界的神,但是映射会现实世界就会出现所谓的“幻觉”。
Enjoy Reading This Article?
Here are some more articles you might like to read next: