别被OpenAI的Sora忽悠，它无法达到“构建世界模拟器”的目标（真实世界模拟）

在我的中，主要是从Sora生成的视频来判断其没有内在的3D结构，这完全是基于物理常识与基本的计算机知识做出的判断。也是因其没有内在的结构，所以我认为它不可能真正理解现实世界的运行方式，所以无法走通其宣称的“构建世界模拟器”的目标。

更进一步，我查阅了一些相对专业的技术文章后，确认了我的判断的正确性。例如：“AI范儿”里说的：Meta的人工智能部门负责人Yann LeCun说了，Sora是使用“生成像素来模拟行动”。采用像素级的方法，显然是没有内存结构的。如果生成视频的过程中，有内在的物体的3D结构，是不需要使用这种像素级的生成方法的。

另外，Sora相关的技术文章说明了，其采用的Transformer方法，其核心技术之一是：“并行化实现”。以一种更通俗的方法来说，以1分钟的视频为例，按我的理解，假定每秒有60帧图像，1分钟的视频总共就是3600张图像，它就是在生成这一分钟的视频过程中，它不是一张一张顺序生成的，它先就规划好了3600张图像的大致形态，然后同时并行的处理这3600张图像。先大致保证“视频的连贯性”，然后逐渐细化，直到细化到像素级，以保证其在时间序列上像素之间的变化更“连贯”，更符合其学习到的“常理”。

它为了提高数据处理的速度，也充分利用大量的GPU来并行进行处理，把一个视频分成了多个小的像素阵列，简单的说，还是采用的像素级的方法，基于强大的并行算力来“同时”生成了这3600张图像，形成了这1分钟的视频。为了保证整个视频的连贯性，如果将图片的数量增加一倍，数据的并行处理量增加一倍，所需要的算力可能要增加10倍或100倍，所以：暂时只有1分钟。而对那些看似不大的视频Bug，如果要“消除它”，同样，所需要的算力可能需要增加十倍或百倍，经济上不值得，所以就“不管它了”，反正这样质量的视频对很多行业来说，已经够用了。

由于它采用的是像素级的方法来生成图像，我认为它做的是“表面功夫”。仅靠这种“表面功夫”，而不管图像表象下的内存3D结构，居然能输出动态的不同角度的视频，使其物体在3维空间的移动中保持一致，这是需要非常强大的算力与“理解能力”的。这确实需要大量的“学习”与良好的模型与算法。以至于很多人可能认为它在生成视频的过程中，已经有了内在物体的3D结构，但实际上：它并没有。

小结一下：从Sora发布的视频的Bug，以及从OpenAI公布的Sora相关技术，都说明了：Sora并没有从学习的视频中“理解”现实世界的内在4D时空结构，生成视频的过程中也就无法使用什么内在的3D结构，所以生成视频需要消耗大量的算力，同时会产生一些违反基本物理常的“小Bug”。也因此，我认为Sora这种“非具身”的方式无法达到其“构建世界模拟器”的目标。

下一篇，想做一下Sora与波士顿动力公司公司的机器人进行对比，我觉得后者才是构建真实世界模拟器的正确路径，才有更大的实用价值。