登录注册
SORA最佳受益方向 ---出海短剧
北湖路
2024-02-20 14:28:23
Sora在春节期间横空出世,让大家也想到了去年春节chatgpt横空出世。大家都没有想到文字生成视频或者一本小说、一段信息的描述,很快就能够生成梦想中的世界会来得快,而且边际成本急剧降低,能做到很多人类期间做不到的事,生成的效率大幅提升,但大家最关注是受益的方向,而且肯定是具有视频内容变现的渠道。

因为Sora本质上它还是一个生产力工具,会让公司创作的成本效率各方面都会有一个指数级的变化。而且刚才也提到了最重要的一点,它是能做到很多人类或者现实生活中公司看不到的,物理世界里面甚至相悖的一些造梦的世界出来。所以它对于整个视频变现的渠道的意义非常大的。

超讯通讯正好有特别有这方面的布局。超讯通信目前是全新的一个计算生态的战略启航,也是布局在三大块,一块是算力数据以及AI应用这三大板块。那今天重点和大家分享的公司超讯通信战略投资企业,积火山的多模态的相关的业务。七火山作为公司在算力数据以及的战略生态中,AI应用的重要布局公司是公司投资了30%,然后核心的业务主要是依托自建的处理模块,以及算法能力转化以及优化,以及创造高质量企业具有场景化的商业化的多模态的内容。

那目前七火山拥有三大平台,第一个是公司的多模态的内容生成平台拉瓦,然后第二个是公司的自有的视频平台迷你图片,目前迷你图片已经在印尼已经在应用的排行的前三了。然后第三块是公司的超分图内容生成平台,目前公司的多模态的生成平台是海外快手在海外商店上线的一款短视频的应用。目前应用在印尼的月活已经达到了4,000万的用户,双方也是针对视频内容结成了一个战略合作,那双方将达成包括不限于视频内容的合作,以及内容平台的方面的一些合作。未来七火山也将以技术为基础,那面向全球市场,那不能短剧内容出海。在内容上激活国内的充实的一个储备。在技术上实现内容的快速的一个生成处理。面向全球的一个短期出海市场。为后续更多的视频平台构建视频短剧的生态内容,奠定一个坚实的基础。

Sora在时间点横空出世,肯定是有它背后的自身的一些节奏的安排,因为正好在它发布在在公司发布消息的前几个小时,谷歌刚刚发布了它们的模型,所以其实也是冲淡了一个竞争对手的一次节奏,当然这些可能并不是很重要,因为Sora本质上而言,它最大的亮点是在两个:

第一个是它的语义理解,其实是基于原有的openAI整个现在chatgpt所搭建的一个深厚的基础。直白的理解说原有的不管是还是文生视频,可能你需要让模型去理解你的输入提示词,理解语义的深度的模块是比较浅的,或者说它的维度在向量的维度上面比较低,所以导致了大家一定要去写一个很复杂的提示语,或者说它能理解到的东西始终就只能停留在某个层次,所以做出来的东西可能也就没有达到惊艳的程度,但是openAI因为它有chatgpt的长期的技术的演进,所以它能够对你输入的一段提示词的语义的理解,它的维度是明显要高很多个量级的。所以这就导致了看后来的DALLE 3的出世之后,它的文生图的质量一下子拉高了,能够一定程度能够和midjourney去做对标,因为底层的模型,其实大家还依然是在diffusion扩散的模型上面,但是因为它对语义的理解变的能力增强了,所以它一下子就能够把文生图然后水平能够补齐。如果再直观的来解读说,可能像midjourney是微级的版本,那你能够去把提示词进行理解的能力,可能相当于一个小学三四年级的一个水平。那同样的一段话,你让一个孩子来理解,它能理解到里边的语语义的丰富程度肯定是有限的。但是如果开始接地气,它的能力,然后到了DALLE 3的水平之后,它的理解可能就相当于一个20岁的人。那同样的一段话,一个成年人理解出来的语义的丰富程度那肯定是远远不一样的。所以底座的模型一旦能力足够强之后,它能够做出来的事情可能就远远会提升几个维度。这是Sora能够取得经验的效果的第一点。

第二点其实是Sora本身的一个训练的方法,训练的方法和以往的其它的竞争对手都有很大的不同的一个点,竞争对手的训练全部都是在用图进行训练。它把原有的一些图形原有的一些视频做了一个切片,然后把里面的每一个切片其实理解为一张截图,然后把一系列的截图交给模型去做训练。所以本质上它们的训练都是在训练生成图片,以及想要去生成具有连贯性的图片,但不管怎么说,它的模型理解的所有的这些训练的语料的内容都是图片,大家可以类比一下,之前chatgpt的一些理解,它的模型的能力往哪个方向或者说强与弱,其实是两个因素决定的,第一个是你用来训练的语料的质量以及它的丰富度,第二个语料本身所蕴含的信息量的范畴,比如说你如果你的语料都是英文那大概率,它只能它的模型训练完了,它也只能回答英文的相关的问题,但如果你的语料包含了各种语言,那它其实能够去回应各种语言的一个大模型。

所以如果再映射到Sora的这次的进步上来说,它的和以往文生视频这些竞争对手区别就在于它是直接用视频去进行训练的。它把手头能够收集清洗找出来的这些视频直接作为训练的语料,扔给了Sora的模型,所以它的训练和以往的一些的明显的区别它是直接去学习了视频,然后生成了一个模型,所以大家会看到在现在已经有的解读里面会出现观点。
第一个是说它能够实现单视频的多角度生成,在同一个视频里面好像有多个镜头,然后同时在拍,最后连贯起来是完整的。

第二个是说它是对物理世界引擎的一个模拟,就有这两种观点,是最近在公众号上讨论的比较多的。但事实上真实的原因是因为它们用来训练的这些视频,本质上对整个物理世界的一个一个映射。它拿去训练的这些视频,原来这些拍拍摄电影也好,或者说某些视频的片段拍摄出来,反映出来的一些内容。

所以这些内容在拍摄的时候猜测这些视频可能是真实世界的一些视频,比如说看到的那些物体的运动,或者是一些生活化的场景。所以Sora对这些视频进行了学习之后,那它具备的能力其实恰好也生成的视频,当然如果说用来训练的视频是一些科幻类的,或者说是一些充满更大的想象力类的,那它生成的视频可能就会更为跳脱一些。所以真实来说,整个Sora的模型,事实上它的训练方法和其它竞对有区别的点就在于它是用视频来训练的,而其它的竞对都是还是在停留在用图片来训练。

如果再往深层次去看Sora训练的时候,根据它们公布的技术文档,它用了一种叫pitch的技术思路,可以简单理解为它把每24帧的一组图像,或者说24帧最小单位的一个切片,因为视频事实上就是一组连续的图像,按照动画片的标准,如果每秒能够有24帧,那就会看到一个连贯的影像。最小单位24帧,它把每24帧作为一个pitch,然后在模型的潜在的向量空间,laterstates里面进行学习和运算的时候,它要求模型去学习pitch里面的连贯性。所以会看到Sora生成的视频的内容比之前竞对生成的一致性和平滑度都好得很多,在于技术的先进点就在于这里,它是把每24帧作为一个最小单位的pitch,然后交给了模型,要求模型要去完成的一个过程的学习,所以它在最后生成的时候,它能够去按照模型所学到的能够去很好地完成一致度。然后所以我们看到的视频的内容里面就会感觉会非常的连贯,就不再会有原来我们看竞对那样,它会很跳。

还有第三点说在于尺寸的控制上面,因为Sora拿去训练的这些模型本身就已经是真实,可能原来我们在网络上都能够看得到的这些视频了,所以再加上它的对视频内容的处理,做了切片之后又用了足够的算力去训练模型,所以它能够做到和以往的文生视频不一样,它能够把视频的清晰度或者说分辨率能够提到一个很高水平,就之前大家能做的可能用一些差值,用一些后期预计算的方法,可能能够做到256或者是512,就已经是一个天花板了,但是它能够直接去到2048甚至于更高,所以这个技术,也是它以往去有过在DALLE 3里面的一些积累。但技术可能在过去的一小段时间里面,大家会看到更多的其实是有另外一款超分产品叫magnifier,当然超分的产品其实七火山公司自己也有类似对应的一个模型叫Bromo。但其实在文生视频或者文生图的领域,在最后去提升分辨率的这一关,事实上就同样的一组的技术能力在做支撑,然后只不过openAI在Sora的模型里面,把它们以往积累的从最开始输入的提示词的语义理解的维度做了一个提升。

第二它的训练方法比以往的文生视频有了一个明有了一个明显的差异化,它是直接用视频再加上里面开始的一个pitchs细节的技术思路来进行的训练。第三它们在分辨率的提升上面,借用了之前DALLE 3积累的一些能力,然后把这几样东西给组合在一起。最后是说它们做一些一个长期经营在AI领域的龙头的公司里面,它有足够多的算力,然后也有足够多的魄力,然后来做这件事情。所以它在时间点推出了Sora的文生视频模型,惊艳了整个行业,也让大家对未来在视频领域用AI真正把它作为生产力工具产生了足够多的想象。



Q:Sora对超讯的提升?

A:公司是很大受益者,因为Sora是一个可以输出稳定优质短视频的大模型,这些视频都可以用来训练公司自己的模型,这些数据越好,越有可能生成观众喜欢的短视频。公司当前文生视频AI可以生成几秒,未来也有望生成60秒。未来文生视频产业发展,也有望像23年文生图发展的那么快(23年初很差,23年底很精密)。第二是短剧,短剧拍摄在海外成本很高,Sora可以生成更多短剧,然后用公司的AI技术更好加工、本地化发行等。
作者利益披露:转载,不作为证券推荐或投资建议,旨在提供更多信息,作者不保证其内容准确性。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
二六三
S
中文在线
S
超讯通信
工分
1.59
转发
收藏
投诉
复制链接
分享到微信
有用 4
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
暂无数据