在我的中,主要是从Sora生成的视频来判断其没有内在的3D结构,这完全是基于物理常识与基本的计算机知识做出的判断。也是因其没有内在的结构,所以我认为它不可能真正理解现实世界的运行方式,所以无法走通其宣称的“构建世界模拟器”的目标。
更进一步,我查阅了一些相对专业的技术文章后,确认了我的判断的正确性。例如:“AI范儿”里说的:Meta的人工智能部门负责人Yann LeCun说了,Sora是使用“生成像素来模拟行动”。采用像素级的方法,显然是没有内存结构的。如果生成视频的过程中,有内在的物体的3D结构,是不需要使用这种像素级的生成方法的。
另外,Sora相关的技术文章说明了,其采用的Transformer方法,其核心技术之一是:“并行化实现”。以一种更通俗的方法来说,以1分钟的视频为例,按我的理解,假定每秒有60帧图像,1分钟的视频总共就是3600张图像,它就是在生成这一分钟的视频过程中,它不是一张一张顺序生成的,它先就规划好了3600张图像的大致形态,然后同时并行的处理这3600张图像。先大致保证“视频的连贯性”,然后逐渐细化,直到细化到像素级,以保证其在时间序列上像素之间的变化更“连贯”,更符合其学习到的“常理”。
它为了提高数据处理的速度,也充分利用大量的GPU来并行进行处理,把一个视频分成了多个小的像素阵列,简单的说,还是采用的像素级的方法,基于强大的并行算力来“同时”生成了这3600张图像,形成了这1分钟的视频。为了保证整个视频的连贯性,如果将图片的数量增加一倍,数据的并行处理量增加一倍,所需要的算力可能要增加10倍或100倍,所以:暂时只有1分钟。而对那些看似不大的视频Bug,如果要“消除它”,同样,所需要的算力可能需要增加十倍或百倍,经济上不值得,所以就“不管它了”,反正这样质量的视频对很多行业来说,已经够用了。
由于它采用的是像素级的方法来生成图像,我认为它做的是“表面功夫”。仅靠这种“表面功夫”,而不管图像表象下的内存3D结构,居然能输出动态的不同角度的视频,使其物体在3维空间的移动中保持一致,这是需要非常强大的算力与“理解能力”的。这确实需要大量的“学习”与良好的模型与算法。以至于很多人可能认为它在生成视频的过程中,已经有了内在物体的3D结构,但实际上:它并没有。
小结一下:从Sora发布的视频的Bug,以及从OpenAI公布的Sora相关技术,都说明了:Sora并没有从学习的视频中“理解”现实世界的内在4D时空结构,生成视频的过程中也就无法使用什么内在的3D结构,所以生成视频需要消耗大量的算力,同时会产生一些违反基本物理常的“小Bug”。也因此,我认为Sora这种“非具身”的方式无法达到其“构建世界模拟器”的目标。
下一篇,想做一下Sora与波士顿动力公司公司的机器人进行对比,我觉得后者才是构建真实世界模拟器的正确路径,才有更大的实用价值。
Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved