登录注册
专家解读OpenAl Sora 20240217
司南磁山
2024-02-18 13:59:28

1. 深度解析OpenAl Sora 的视频生成技术

OpenAl Sora, 相较于过去只能生成短暂且不稳定的视频片段,能生成长达一分钟,分辨率甚至能达到1080P 2K的视频。

OpenAl 使用低维空间转换和四种Al 工具,使得从复杂素材转换成简单的坐标形式成为可能,并还原为视频形式,有别于传统一帧一帧的画出的方式。

通过提高训练规模,即训练次数,Sora 的视频清晰度和准确性大幅提升。


2. 更高效的视频Al 训练之路

OpenAl Sora 用更高分辨率(高达1920x1080) 和更长时间进行训练,没有对视频素材

进行切割和压缩处理。这比其他Al 对素材分成256x256 的块,然后仅训练4秒钟的方法更有效

Sora 训练结果显示出了几个独特的特性:涌现(三维一致性、交互性、模拟虚拟世界)。涌现是指当训练量级达到很大的时候,开始出现一些优秀的特征,而这些特征并没在训练时明确规定与传统Al 视频生成模型相比, Sora 生成的视频更具人物和场景的连贯性,并适应了摄像机的移动。这些特质在Sora 生成的视频中显著,而在传统模型中却难以发现。


3.OpenAl Sora的生成视觉变革

OpenAl Sora 展现出优于传统人工智能视频生成的技术,它能够进行大动作,突然的转场,并且擅长完成有实际意义的动作,适应度较高。

相比之前的视频生成技术,Sora 可实现较长时间、更长意义的视频生成, 且逻辑关系连贯。Sora 采用的技术更适于制作长视频,场景可以在多人之间反复切换,还能保证主题不变,记忆连贯性。

Sora 的抗风险能力更强。传统的Al生成视频为了避免错误,只会进行非常保守的动作,

Sora 则敢于进行更大胆的动作,这使得其产品的观赏性和趣味性大提升,而且对于

需要长时间,连贯场景,且人物动作丰富的视频生成场景(比如电影制作,动画制作等)尤其适用。


4.Al 视频生成技术解析

在生成Al 视频方面,Sara 采用了先生成简单背景下的人物动作,再生成背景的方式。但

此方法有局限性,例如只能生成摄像机不动的画面。如果摄像机需要跟随移动,保持同步的难度则会增加。

Sara 的训练过程中可能用到了虚幻引擎来协助训练,某些场景和视角变化与虚幻引擎的演示场景相似,但是否确实使用暂不清楚。

Al视频生成算力需求远超一张图片。相比一张图片,制作一秒钟动态视频至少需要1224帧, 也就是需要生成1224张图片。因此制作一分钟的视频至少需要生成1800张图片。达到这个数量级的算力需求、保持画面不闪烁、人物动作和表情的稳定不突变等都是Al视频生成面临的挑战。


5.视频生成新高维控制揭秘

利用OpenAlSora 的技术,视频内容生成可以按照几个维度进行调整, 包括物体动作、背景环境、相机视角等。其中,各个变量都可以通过对应的关键词轻易进行调整,具有显著的可控变化性,比如,可以通过一些关键词轻易改变视频的风格。

OpenAlSora 利用用图像拼接(patch) 进行视频内容生成,能实现更长时长的内容制作,

相对于传统的图片拼接方法,有着更好的效果。不仅如此,OpenAlSora 使用的patch

术可以处理任意分辨率或者尺度的图像,能应对更加复杂的视频生成需求。

虽然有些疑问和担忧,比如版权问题、可能产生的恶意内容,以及是否出现了过拟合等,但据专家观察,OpenAlSora 已经达到商业应用的级别。它的强大功能和已经取得的效果,比许多现有的视频生成引擎更为先进,虽然需要在使用上更为谨慎,但对视频制作领域有着巨大的潜力。


6. 因果解析与四重工具探讨

专家在介绍OpenAlSora 时强调其可能存在的问题:在模拟现实物体运动或物理反应时,可能会出现不准确,例如视频中杯子尚未倒落水就提前出现。这将影响视频生成的真实性。

专家认为OpenAlSora 的优势在于其使用的Al 工具,主要包括用于降维的神经网络,将

训练结果升级回像素空间的工具,视频打标签工具以及将用户简单语句转化为复杂定义的prompt 工具。

从投资角度,虽然有可能其他竞争者会尝试模仿这类技术,挑战现有视频生成领域,但实现效果以及应对未知问题的能力仍是关键。同时,独立训练与借助已有工具,如GPT 的选择也关系到成本和效果。



Q&A

Q: 其他Al 在视频训练中一般是怎么操作的?

A: 一般的Al在训练过程中会把素材分割成256256的小方块进行处理,同时每个素材的

训练时长大约是4秒钟。这样做主要是出于计算性能和成本的考虑。

Q:OpenAl Sora 在训练过程中有哪些特立独行的做法?

A:Sora 在训练的时候会使用视频的原始分辨率,最高可以达到1920 1080的清晰度。

同时,它在训练时并没有限制视频的长度。这意味着, Sora 能够获取到更多、更全面的训练信息。OpenAl 团队观察到,使用高清素材训练出来的效果要更好。

Q:Sora 有哪些不寻常的表现或者收获?

A:Sora 的算法在训练数据量级非常大时,会出现一种涌现效应, 其视频表现出一些优秀的特征。包括三维空间的摄像角度稳定性,也就是说画面中的人物在移动时,摄像机角度能够很自然地变化,人物始终能够保持在恰当的位置。除此之外,其还能保持视频中元素之间的交互关系, 比如Al 可以记住一位人物咬了一口汉堡,当这个汉堡重新出现在画面中时,它还保留着被咬过的痕迹。另外,对视频中的画风操纵背后的细节保持,比如生Minecraft 游戏世界风格的视频时,视频整体质量依然很清晰,只是物体风格变化为Minecraft 马赛克式风格。

Q: 通过对比Sora 和其他Al 在生成过程中有什么显著的区别?

A: 与其他Al 相比,Sora 生成视频的时能够保证整个3D 空间位置以及

比例上的稳定性。比如它能够稳定地捕捉到人物移动和镜头移动之间的关系。相比之下,其他Al 在这一点上可能无法确保一致性,如Runway2,其人物的运动并不能很好地和镜头的移动保持一致。

Q: 为什么大家认为OpenAl Sora 很出色?

A: 相比以往的Al 视频生成技术, Sora 表现出较强的动作和场景完成能力。以往的Al

成视频通常把人物动作调整得非常慢,进行平移、转身等相对安全的动作以保证不会出大错误。但Sora 敢于执行大动作且转场能力强,如实地完成一个或多个动作,给观众真实完整的视觉体验,这是之前的Al 所没有做到的。

Q: 目前生成视频的Al Runway Sora 有何对比?

A: 大家普遍认为Sora 直接生成的视频结果更好,比如即使出现场景转换,也能保持连贯

性,保持一致的主题和记忆。相比之下,Runway 这样的Al 每次只能生成短视频片段,

人工剪辑后拼成完整视频,不能生成长且连贯的视频。

Q: 能否从两种Al 视频生成方式的原理解读其优劣?

A: 传统的Al 视频生成方式,如Runway, 采用的是Al 把图片拼接成视频。它通常只能参

考前一帧或前两帧的内容,连续性望远镜可能保证,但对于跨度较大的时间段内物体的运动,它就无法很好地处理。对于这一问题,Sora 的解决方案是同时考虑时间和空间顺序,即时间空间编码。这使得Sora 能对场景变换有更好的处理,无论从人物角度变换,或者场景之间的切换,都能保持主题不变,且记忆连贯。

Q:Sora Runway 在场景拼接方面有什么区别?

A: Runway 生成视频时,每个镜头的生成都需要人工选择,然后再进行拼接。但Sora 可以在保持连贯性的同时进行场景转换,即使视角发生变化,产生的视频同样非常自然。

Q: Sora 生成的视频中,有哪些元素能帮助多个视频片段有意义地拼

接在一起?

A: Sora 生成的视频中,时间顺序、空间顺序以及可能存在的人物和背景之间的区分,

这些元素都有可能帮助多个视频片段有意义地拼接在一起。而这种拼接方式使已生成的视频片段与即将生成的片段在语义上保持连贯,从而让整个视频拥有连贯的时间意义。

Q: 您认为视频合成和单一画面合成背景的做法是否有相似之处,或者说

原理上是否有不同?

A: 视频生成中完全可以应用后者的方法。已有的Al 技术在生成视频时, 我们先生成简单背景下的人物动作,然后再生成对应的背景并将它们贴合在一起。但这种方式的问题是,只能生成摄像机不动的视频。如果你摄像机在动,人在动,那同时你的背景也得和这个摄像机同步,这就做起来相对困难。

Q:OpenAlSora 是否可能结合了像游戏引擎一样的逻辑,比如里面的物

体运动自己规划好,然后再加上背景或者其他一些运动?

A: 有些Al视频专家在推特上对此表示怀疑。他们觉得Sora 在训练过程中可能使用了虚幻

引擎来辅助。但实际上,关于Sora 是否真的使用了虚幻引擎,我们并不清楚。

Q: Al 视频的发展过程中,算力的增加是由哪些维度导致的,是否能

进行概述?

A: 视频的算力需求远超过图像。比如我们都知道生成一个普通的视频, 最基本的你要保持流畅,那你可能就得要1224帧。也就是说,你一秒钟的视频,你就需要画出这么多的帧。然后如果是普通的动态视频,则一般是30帧。这里,我们可以观察到算力需求的变化量级从画图到做视频。因此,Sora 现在可以生成最多60秒的视频,这就对应到了1800张图片,且这些图片都需要生成。然后,对应的需求也在变化,因为现在人们更习惯于看短视频或者YouTube 上的长视频,所以这个应用将有极大的爆发力。

Q: 除了视频长度决定了算力需求增加,对做限制添加的一些Al 功能维度是否还有其他可

能增加算力的因素?例如Al 生成视频中要保证前后一张图的一致性等因素?

A: 确实存在很多因素会增加算力需求。比如,首先是一个人物姿势的稳定性需要保持,这个可以使用ctrllt 实现;其次就是视频里面的场景不能乱变;而后就是视觉深度关系,就是物体跟你这个摄像头之间,哪一个离你更近,哪一个离你更远,也是需要限制的;再加上人物的面容问题,你每增加一个维度,你相当于说是要重画一遍;还有就是人物身上的配饰, 包括服饰,也是需要稳定的。这个重重加下来至少是七八重的这个限制, 就是七八倍的运算量是肯定要有。就是你要保证说你的画面不闪烁,你的人物动作不要突然一下改变,你的人的脸不要突然一下变化。

Q: 在训练这样一个模型,使用的数据量大概是怎么样一个增加的?

A:一般的公司确实做不到这样大的训练量。如果你看普通的4秒钟视频, 你就能感受到这个视频的大小和它的时间长度。以OpenAl 的数据为例, 它把整个视频以原始的分辨率和原始的时长丢进去进行训练。因此, OpenAl 的训练与其他公司相比,数据量级上有很大的区别。如果时长一致的话,文件大小可能有三四十倍之间的差别。

Q: 请展示一下如何使用OpenAl Sora 控制视频中的关键变量?

A:Sora 采用了一种名为motion brush的功能,相当于是控制动画的"mask"。在控制界面上,你可以选择你关注的区域,例如对画出的图片中不满意的部分进行修改,然后给这部分添加运动,无论是X 轴还是Y 轴的运动。此外,你可以选择图片上不同的部分,不断添加运动,这就是OpenAl Sora 控制关键变量的方式。

Q: 与其他Al 视频相较,OpenAl Sora 的控制参数有何特殊之处?

A:Sora 在模型控制上的变化主要表现在两个方面。首先,每一个被选中的区域,它的

控制实际上是基于像素级别的变化,而非完整的物体动作。即便是对于运动对象,模型考虑的是这个对象的像素变化,而不是将其视为一个整体。其次,Sora 的训练方式是基于画面的分割,这让它可以进行任意分辨率或尺度的图像训练。同时,生成过程中, Sora会将分辨率划分为一个个grid, 用于填充对应的像素,这使其能够生成高分辨率的视频。

Q: 是否存在过拟合问题?游戏引擎的场景和Sora 输出的效果如何对

?

A: 对于是否存在过拟合问题,目前我们无法确切判断,这需要我们真正能动手使用后才能作出实质性的评价。同样的,对比游戏引擎的场景和Sora 的输出,我们也仅能通过

OpenAl 选择性展示的部分进行评判。可以注意的是, OpenAl 在发布Sora 时十分谨慎

,也明确指出需要注意使用过程中可能产生的版权、公共危害等问题。

Q:OpenAl

Sora 是否已经达到商用级别?60秒之间的一致性能否被保?

A: 我认为Sora 确实已经达到了商用的应用层面。实际上,以前版本的Al 视频生成引擎

rv2 等已经在部分好莱坞电影中得到运用。而Sora当前的效果已经远超过之前的这些引擎。但是,对于Sora, 我们还需要关注其可能带来的版权问题,以及其被用于制作虚假新闻或假视频的风险。

Q: 为什么使用Sora 合成的视频长度能够拉长,相比于其他图像合成方

式有何优势?

A: Sora 中,如果我们要做的分类如:背景、人物、镜头移动等,都能通过关键词很轻

易地改变视频风格,例如,通过sunset,storm,and festival等词汇可以轻易改变环境风格。此外, Sora 通过模型取分辨率, 对视频的各个像素进行填充,因此,在各自的运动中,角色的配饰、衣物等不会发生明显的变化。这些都增加了Sora 的合成视频的连贯性和可信度。

Q:OpenAlSora 在视频生成过程中有考虑时间数据吗?这是否意味着它

有能力理解物体运动的逻辑和规律?

A: 是的, Sora 确实关注了时间数据,在视频生成过程中,它对前后时间序列的理解和表现是明显的。例如,在模拟人物走动的场景中,你可以明显看到整个画面会随着人物往某一方向移动。这暗示着其在理解时间和空间变化方面的一定能力。然而,需要注意,虽然能够理解一些基本的因果关系,但在某些复杂情况下,其模拟有明显问题,比如倒水的杯子在完全倒下之前,水已经提前出现。这类问题揭示Sora 在协调主体(例如人

)和环境间的关系时仍存在一定困难。

Q: 如果其他公司或个人想通过purchase 的方式来合成视频,他们的难

点主要会在哪些地方?

A: 基于OpenAl 公开的原理,其他公司或个人在尝试实现类似的视频合成可能会遇到以下几个难点。首先,他们需要开发出类似的Al 工具。OpenAl 自家训练了一个Al 用来降维,并训练了一个反过来将低维向量恢复到高维的另一个Al, 对于没有这些工具的公司或个人来说,这是首要挑战。另一个难点是,即使成功开发出类似工具,他们还需要大量时间训练这些工具,以完成像Sora 这样复杂的视频生成任务。这可能涉及的时间和计算资源可能超出许多公司或个人的承受范围。总的来说,如果想复制Sora 的工作,这不仅需要深厚的Al 专业知识,还需要大量的时间、精力和资源。

Q: OpenAl Sora 的模型中有哪些关键的Al 工具?

A:Sora 模型中使用的关键Al 工具主要有四个。一是用于将视频降到低维空间的Al, 该工

具被训练成一个神经网络。二是能将低维表示转化回原来的高维(pixelspace) 视频的另

一个Al 。这两个工具一正一反,齐全后才能完成视频生成的整个流程。三是用来为视频

打标签的Al, 即可以理解视频内容并赋予相应标签的工具,也即是实现videocaptioning

的一个工具。最后一个是将用户输入转化为复杂编码的Al, 通常被称为prompt, 工具可以将用户简单的语言需求转化为深度学习模型可理解的复杂编码。

Q: 关于Sora 模型的参数量,视频训练数等有提供具体的数据吗?

A: 关于模型的具体参数量和视频训练数量, OpenAl 并没有给出明确的数据。不过根据他们提供的信息, Sora 模型的训练视频数量是"internetlevel", 也就是说,它使用的训练数据几乎包括了网上能找到的

所有可以被训练的视频素材。

 

作者在2024-02-18 14:16:29修改文章
作者利益披露:转载,不作为证券推荐或投资建议,旨在提供更多信息,作者不保证其内容准确性。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
诺瓦星云
S
万兴科技
S
当虹科技
S
中文在线
工分
13.56
转发
收藏
投诉
复制链接
分享到微信
有用 14
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
评论(5)
只看楼主
热度排序
最新发布
最新互动
  • 只看TA
    02-18 15:13
    谢谢分享
    1
    0
    打赏
    回复
    投诉
  • 只看TA
    02-18 14:21
    感谢分享
    1
    0
    打赏
    回复
    投诉
  • 只看TA
    02-18 17:18
    sora
    0
    0
    打赏
    回复
    投诉
  • 只看TA
    02-18 16:02
    感谢分享
    0
    0
    打赏
    回复
    投诉
  • 一颗土豆的烦恼
    明天一定赚的剁手专业户
    只看TA
    02-18 15:20
    谢谢分享
    0
    0
    打赏
    回复
    投诉
  • 1
前往