登录注册
“文生视频大模型”主题电话会议纪要
无名小韭49270528
2024-02-19 14:52:53

Sora核心逻辑

①Sora惊艳亮点:可生成长达60秒的2K高清视频;Sora改进了模型架构,使用DiT模型架构,即Diffusion和Transformer模型组合起来的新架构,目前国内没有大模型企业涉及这种架构;数据集的预处理方式和推理过程更加复杂、精准和高效,并能够自己创造数据用于训练,颠覆了此前人工标注数据的技术,加快模型迭代速度;

②商用节点:根据以往模型的商用进度来看,乐观预计Sora会在8月正式商用上线,保守估计在今年第四季度;

③国内文生视频模型:第一梯队为大厂,如百度、阿里和字节等;第二梯队为智谱等创业公司;第三梯队为蓝色光标、三人行、昆仑万维、万兴科技和易点天下等上市公司;

今年大厂会推动国内模型企业在文生视频领域发力,不过可能在第四季度甚至明年才能看到一点类似Sora类似模型的迹象;

Sora或难以在国内应用,不过万兴科技等能够出海的企业有望提前调用Sora进行相关AI产品的研发并在国内推广,有先发优势;

④训练数据资源:国内能够掌握视频资源的是过去几年玩长短视频的企业,如优酷、腾讯、爱奇艺、视觉中国、B站、图虫创意等;

⑤Open AI算力:微软给Open AI的部分投资款以算力补贴的形式给予,因此,Open AI的算力需求会大量依靠微软,未来会自建一些数据中心以降低算力成本;

在向微软的算力硬件供给上,国内GPU的供给概率较小,有机会导入的部件是光模块、交换机、电源、存储、PCB和机柜等,PCB方面国内有工业富联定向给大厂做,光模块会使用国内的,相关厂商有中际旭创;

⑥英伟达供应商:微软等海外大厂会采购英伟达生产的GPU,国内工业富联是英伟达的固定供应商;

⑦存储:随着文生视频模型的出现,向量数据库、视频库会增加大量的存储需求,在基础电路上的存储需求也会出现较大增长,另外,还需要高效的存储来为模型快速生成内容,存储相关企业有中科曙光、三星和海力士等;

⑧下游应用:适用于设计师、电影工作者和游戏工作者,未来的主要场景会是ToB,厂家可以把自己的能力集成在大模型中,基于集成的次数和API的调用次数去付费,以此形成一种商业模式,另外,Sora在自动驾驶和广告营销方面将起到很大的推动作用。

电话会议纪要

问题一:Sora有怎样的亮点?采用了怎样的技术原理,为何比其它的文生视频大模型性能更强?

专家:Open AI发布了Sora,目前仅给部分设计师和做安全测试的人员试用,ToC的用户暂时无法接触到。将官方释放的视频进行拆解来看,Sora的惊艳主要体现在以下三个方面:

1、Sora的第一个亮点是能够生成长达60秒的2K高清视频,此前的文生视频模型如Pika、Runway、阿里、百度以及字节的属于上一代技术,这类技术在生成长视频时有瓶颈。

2、Sora的模型架构发生了重大改进。上一代技术大多采用Gen或SD(Stable Diffusion)扩散模型,加一些辅助模型来共同完成几秒视频的制作,大量的技术围绕着解决中间差值、分辨率等。根据一些相关的论文痕迹,Sora在模型结构上并非单独采用了SD扩散模型或Transformer模型,而是一种DiT模型架构,即Diffusion和Transformer组合起来的新架构,目前国内没有哪一家大模型企业涉及这种架构。

3、数据集的预处理方式和推理过程更加复杂、精准和高效。之前在做模型训练时,大多把图像数据和长视频切成512或256X256、3-4秒一个单元的二维数据进行做训练,然后把二维数据变成高维的向量并存储在模型上做推理、加噪和降噪的处理。

现在有5个概念要清楚:潜在表示、时间块(Spacetime Patch)、扩展(Scaling)、通用模拟器和视频压缩网络。

潜在表示即潜码,比如在图书馆里存储了几百万本书,在找书的时候需要通过计算机检索作者和书名,然后得到一个图书索引卡,用户到索引卡上对应的位置找到书,潜码类似于这个过程的索引卡。

长视频切割成小视频后,Sora要进一步切割成更小的,每一个小块叫做一个patch,也就是时间块,切割维度包括时间、长度和空间等,再把它放到一个位置,这个存放的位置在模型中称为视频压缩网络,时间块类似于图书馆里的书,书架是按照学科来分的,不同的学科放在不同的地方,扩展(Scaling)指放该类书籍的专业区域。

另外,把一层楼划分为若干区域来存储不同的专业书籍,这个概念指通用模拟器。

Sora模型中,每一个patch都能映射到一个潜在表示,在推理的时候,基于我们的文字输入,Sora会根据潜在表示找到对应的patch,然后根据对应的Patch画草图,在画草图的过程中,再不断通过patch进行修修补补,让局部更加细腻,让背景分辨率更高。

生成效果后,大模型再做进一步的评估,直到达到评估标准。

整个过程最大的不同就在数据的预处理,通过更细化的数据标准形成更小的patch,再形成视频。之前很多的数据依赖于人工标注,现在Sora可以用自我复制的方式创造数据来给自己训练,包括通过一些游戏生成引擎来做非常多的场景图和场景视频,再根据数据增强来使用自己的数据进行训练,这也是AGI的一个重要标志,不依赖于人工标注,依赖于自己更迭。

问题二:Sora这种能力大模型的到来比预期快了多少呢?预计何时能够正式商用上线?

专家:此前的预期是Open AI的文生视频技术会与GPT5融合在一起发布,现在提前把文生视频模型单独发布出来,可能为了秀一下技术来进行融资。根据以往ChatGPT上线的节奏,乐观预估会在8月正式商用上线,保守估计是在今年第四季度。

未来Sora会独立地演进,也会被融合在GPT5中,形成多模态的一环。

问题三:国内哪些文生视频大模型的性能较好?

专家:国内的文生视频赛道共有三个梯队,第一个梯队是大厂,如百度、阿里和字节,其中阿里去年12月发布的Outfit Anyone主要用在垂类,如给模特穿衣和跳舞等,百度的文心一格面向ToB,技术倾向于做视频编辑,字节本身是做短视频的,在国内这一方面是比较强的,毕竟有海量的短视频资源。

第二梯队是一些创业公司,智谱等,也没有哪家能做长视频的。

第三梯队是一些上市公司,比如蓝色光标、三人行等,主要做营销场景,产品还没有上线。昆仑万维、万兴科技和易点天下几家公司以生成短视频为主,其中昆仑万维的模型还用来做游戏相关的内容,整体来说这些模型还没法和大厂PK。

问题四:Sora的诞生对国内文生视频大模型来说是否会形成推动?预计国内大模型多久能够赶上现在的水平?

专家:可以类比国内外去年初的差距,国内的大模型开始做文本模型,这些模型在过去一年基本可以和GPT3.5看齐,部分功能已经接近GPT4。

在文生视频领域,过去一年大厂并没有发力去做,只做了垂类小场景的模型,今年大厂肯定要推动,会通过拆解Sora的生成原理、训练方法和数据资源进行参考和打磨。

以Sora的技术原理,接下来基本只有大厂才有能力去重构类似的模型架构,周期的话,今年国内可能推出解决分辨率和时长的模型,不过还是没法与Sora相比,可能在第四季度甚至明年能看到一点类似模型的迹象。

问题五:在训练资源方面,更依赖图片资源还是视频资源?国内哪些企业拥有大量的高清高质量视频以及图片资源?

专家:Sora会使用引擎生成的数据、自动驾驶的数据以及一些公开的数据。对国内来说,能够掌握视频资源的是过去几年玩长短视频的企业,如优酷、腾讯、爱奇艺、视觉中国、B站、图虫创意等。

问题六:Open AI是否有采用微软的算力?哪些国内企业在为微软、Open AI供货算力相关的产品?

专家:微软的云服务Azure在国内的占比约为8%,Azure的主要客户是出海企业以及外企。Open AI与微软是深度绑定的关系,微软会把一部分给Open AI的投资款用算力补贴的方式给予,因此,在算力方面,当下Open AI大量依靠微软,未来Open AI会自己建设一些算力中心。

算力硬件上,国内GPU的供给概率比较小,有机会导入的部件是光模块、交换机、电源、存储、PCB和机柜等,PCB方面国内有工业富联,定向给大厂做,光模块会使用国内的,相关厂商有中际旭创。

问题七:Open AI在融资7万亿美元用于芯片的生产,Sora的出现在多大程度上提升了今年或两年内对算力的需求?

专家:Open AI融资这些钱是为了降低算力成本,但是融资金额太大,短期内不太可能完成。

根据预测,2023-2028年算力集群的需求还会成倍增长,去年算力的增长是7-8倍,其中推理算力的需求会更旺盛。

2024年,大厂之前积攒的英伟达芯片虽然不多,但也有3-3.5万片,今年大厂在做多模态时都要依赖这部分芯片来进行,是比较紧缺的,阿里、腾讯、百度和华为已经基本看不到新的算力出租。

目前大厂在做国产算力的适配,第一季度国内算力如果顺利跑起来,第二、三季度会慢慢增长,对国内几家芯片厂商来说是比较大的挑战。

在Sora没有出来之前,预测2024年算力同比提升50%,但随着后续各企业根据Sora来调整自家算力架构,下半年算力需求会有进一步提升。

问题八:国内哪些企业在向英伟达供货?

专家:英伟达的固定供应商是工业富联,把英伟达的GPU芯片做成板卡,然后浪潮信息和中兴通讯这些企业再从工业富联购买板卡做成服务器,进一步卖给英伟达的客户。

零部件方面比如存储,国内有中科曙光等能够提供产品,另外还有海外的三星、海力士等。不管是因为向量数据库,还是文本和视频资源,文生视频模型都会增加大量的存储需求,在基础电路上的存储需求也会出现较大的增长,还要提供高效的存储来为这些模型快速生成内容。

问题九:Sora将更快、更多地赋能哪些下游细分领域呢,能带来怎样的颠覆性变化?对各个行业的竞争格局产生怎样的影响?

专家:文生视频领域的赛道有AI视频生成和视频编辑等,比如Adobe,在做AI编辑视频的模型,可以对原视频形成二次创作。不管是文生图、图生视频,还是视频的扩展,都是基于再创作,不过定位不太一样,在各自垂直的赛道都会有各自发挥的空间,未来真正用到Sora大模型的人会是设计师、电影工作者以及游戏工作者,将传统的技术集成在AI流程里面。

目前C端方面,用户可以依托于自己的原始图片,生成自己的视频,不过未来主要的商用场景会是ToB,厂家可以把自己的能力集成在大模型中,基于集成的次数和API的调用次数去付费,以此形成一种商业模式。

Sora有切镜头和对物理规律理解的能力,比如从正面、侧面和俯视几个角度,咬一口面包会有东西调出来,轮船放在咖啡里会晃动,可以颠覆此前现实生活没法真实模拟的一些尴尬,因此,可以应用在游戏领域和视频创作中。

具体来看,电影制作方面可能还是会使用原来的技术,Sora在物理定性上还没有做得非常好,导致在拍摄过程中还是会有违背物理规律的画面出现,起码在未来一年内很难使用Sora这样的技术来进行电影制作。但是厂商可以根据要推动的产品,比如游戏的发布来制造60秒的宣传视频,这样的应用场景会更快实现。

另外,Sora可以生成高清视频,可以模拟城市和不同的道路,并转化成3D模型,而自动驾驶的模拟需要生成大量的3D空间数据,这个技术出来后,特斯拉CEO马斯克也表示Sora这样的大模型可以使用自动驾驶的数据,来进行自动驾驶的训练,甚至传统的靠汽车进行扫描空间的技术可能会被颠覆。

问题十:Sora的诞生会对国内产生多大的影响?

专家:预计Sora会在三四季度出现,原有的文本模型依然有自己的生存空间,不会一股脑得一下被颠覆,之前做垂类领域模型的起码还有一年的存活时间,等Sora出来之后会有厂商根据Sora去做一些更前沿的垂类,比如广告营销领域、新闻媒体领域等。

另外,由于Sora可能在国内难以应用,国内厂商的生存空间会更大一些,不过国内还是会有厂商通过技术手段绕过去,比如万兴科技,现在还是可以调用ChatGPT4,那么这些厂家可能会提前拿Sora做一些在国内使用的产品,国内大模型厂商的业务就会承压,甚至逐渐面临淘汰。
作者利益披露:转载,不作为证券推荐或投资建议,旨在提供更多信息,作者不保证其内容准确性。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
万兴科技
S
蓝色光标
S
三人行
S
易点天下
工分
18.30
转发
收藏
投诉
复制链接
分享到微信
有用 16
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
评论(4)
只看楼主
热度排序
最新发布
最新互动
  • 只看TA
    02-20 09:49
    0
    0
    打赏
    回复
    投诉
  • 只看TA
    02-20 07:47
    0
    0
    打赏
    回复
    投诉
  • 周康1980
    自学成才
    只看TA
    02-19 23:05
    ③国内文生视频模型:第一梯队为大厂,如百度、阿里和字节等;第二梯队为智谱等创业公司;第三梯队为蓝色光标、三人行、昆仑万维、万兴科技和易点天下等上市公司;
    0
    0
    打赏
    回复
    投诉
  • 加油奥利给
    下海干活的韭菜种子
    只看TA
    02-19 21:28
    0
    0
    打赏
    回复
    投诉
  • 1
前往