sora的命脉在于物理仿真技术
现在疯长的软件实际上利空
看看老美就知道了
虽然生成效果还有些瑕疵,但我们能明显感觉到,Sora 似乎是懂一些「物理」的。英伟达高级研究科学家 Jim Fan 甚至断言,「Sora 是一个数据驱动的物理引擎」,「是一个可学习的模拟器,或『世界模型』」。Yann LeCun:生成视频的过程与基于世界模型的因果预测完全不同。图灵奖得主 Yann LeCun 率先亮明观点。在他看来,仅仅根据 prompt 生成逼真视频并不能代表一个模型理解了物理世界,生成视频的过程与基于世界模型的因果预测,模型生成逼真视频的空间非常大,视频生成系统只需要产生一个合理的示例就算成功。不过对于一个真实视频而言,其合理的后续延续空间却非常小,生成这些延续的代表性片段,特别是在特定行动条件下,任务难度更大。此外生成视频的后续内容不仅成本高昂,实际上也毫无意义。因此,Yann LeCun 认为,更理想的做法是生成视频后续内容的抽象表达,并消除与我们可能所采取动作无关的场景中的细节。当然,他借此又 PR 了一波 JEPA(Joint Embedding Predictive Architecture,联合嵌入预测架构),认为上述做法正是它的核心思想。JEPA 不是生成式的,而是在表示空间中进行预测。与重建像素的生成式架构(如变分自编码器)、掩码自编码器、去噪自编码器相比,联合嵌入架构(如 Meta 前几天推出的 AI 视频模型 V-JEPA)可以产生更优秀的视觉输入表达。