Q:其他AI在视频训练中一般是怎么操作的?
A:一般的AI在训练过程中会把素材分割成256乘256的小方块进行处 理,同时每个素材的训练时长大约是4秒钟。这样做主要是出于计算性能和成本的考虑。
Q:OpenAI的Sora在训练过程中有哪些特立独行的做法?
A:Sora在训练的时候会使用视频的原始分辨率,最高可以达到1920乘1080的清晰度。同时,它在训练时并没有限制视频的长度。这意味着, Sora能够获取到更多、更全面的训练信息。OpenAI团队观察到,使用高清素材训练出来的效果要更好。
Q:Sora有哪些不寻常的表现或者收获?
A:Sora的算法在训练数据量级非常大时,会出现一种“涌现”效应,其视频表现出一些优秀的特征。包括三维空间的摄像角度稳定性,也就是说画面中的人物在移动时,摄像机角度能够很自然地变化,人物始终能够保持在恰当的位置。除此之外,其还能保持视频中元素之间的交互关系,比如AI可以记住一位人物咬了一口汉堡,当这个汉堡重新出现在画面中时,它还保留着被咬过的痕迹。另外,对视频中的画风操纵背后的细节保持,比如生成Minecraft游戏世界风格的视频时,视频整体质量依然很清晰,只是物体风格变化为Minecraft马赛克式风格。
Q:通过对比,Sora和其他AI在生成过程中有什么显著的区别?
A:与其他AI相比,Sora生成视频的时能够保证整个3D空间位置以及比例上的稳定性。比如它能够稳定地捕捉到人物移动和镜头移动之间的关系。相比之下,其他AI在这一点上可能无法确保一致性,如Runway2.其人物的运动并不能很好地和镜头的移动保持一致。
Q:为什么大家认为OpenAI Sora很出色?
A:相比以往的AI视频生成技术,Sora表现出较强的动作和场景完成能力。以往的AI生成视频通常把人物动作调整得非常慢,进行平移、转身等相对安全的动作以保证不会出大错误。但Sora敢于执行大动作且转场能力强,如实地完成一个或多个动作,给观众真实完整的视觉体验,这是之前的AI所没有做到的。
Q:如果其他公司或个人想通过purchase的方式来合成视频,他们的难点主要会在哪些地方?
A:基于OpenAI公开的原理,其他公司或个人在尝试实现类似的视频合成可能会遇到以下几个难点。首先,他们需要开发出类似的AI工具。OpenAI自家训练了一个AI用来降维,并训练了一个反过来将低维向量恢复到高维的另一个AI,对于没有这些工具的公司或个人来说,这是首要挑战。另一个难点是,即使成功开发出类似工具,他们还需要大量时间训练这些工具,以完成像Sora这样复杂的视频生成任务。这可能涉及的时间和计算资源可能超出许多公司或个人的承受范围。总的来说,如果想复制Sora的工作,这不仅需要深厚的AI专业知识,还需要大量的时间、精力和资源。
Q:能否从两种AI视频生成方式的原理解读其优劣?
A:传统的AI视频生成方式,如Runway,采用的是AI把图片拼接成视频。它通常只能参考前一帧或前两帧的内容,连续性望远镜可能保证,但对于跨度较大的时间段内物体的运动,它就无法很好地处理。对于这一问题,Sora的解决方案是同时考虑时间和空间顺序,即时间空间编码。这使得Sora能对场景变换有更好的处理,无论从人物角度变换,或者场景之间的切换,都能保持主题不变,且记忆连贯。