但 3 世界不同它遵循物理法则拥有自己的结构和材料。能够从根本上提取这些信息进行表示和生成这是一种完全不同的问题。尽管我们会借鉴语言模型中的一些有用的想法但从根本上来说这是一个不同的哲学问题。 对所以语言模型是一维的可能是对物理世界的不良表示因为它是人类生成的带有损失。而另一个生成模型的模态是像素即 2 图像和视频。如果你看视频可以看到 3 场景因为摄像机可以平移。那么空间智能与 2 视频有什么不同呢? 这里有两点值得思考。
一是底层的表示二是用户体验的便 沙特阿拉伯电话号码列表 利性。这两者有时会让人混淆。我们感知的是 2 ——我们的视网膜是二维的结构但我们的大脑将其视为三维世界的投影。 你可能希望移动物体、移动摄像机原则上你可以用二维的表示和模型来做这些事情但它并不适合解决你提出的问题。动态三维世界的二维投影可能可以建模但将三维表示放在模型的核心问题的需求。 我们的目标是将更多的三维表示融入模型的核心从而为用户提供更好的体验。这也与我的“北极星”相关。
为什么我们强调“空间智能”而不是“平面像素智能”? 因为智能的发展轨迹如果你回顾进化史它的最终目的是让动物和人类能够在世界中自由移动、互动进而创造文明甚至是做一片三明治。因此将这种 3 的本质转化为技术是释放无数潜在应用的关键即便有些看起来只是表面上的进步。 我认为这是一个非常微妙却至关重要的观点。或许我们可以通过谈论一些应用场景来进一步深入讨论。当我们谈论开发一种可以实现空间智能的技术模型时它可能具体是什么样子的?有哪些潜在的应用场景? 我们设想的空间智能模型可以做很多事情其中一个让我特别兴奋的是“世界生成”。