登录注册
专家鑫访谈-AI系列_对话Sora专家
金融民工1990
长线持有
2024-02-21 20:29:16

关键词

视频生成 潜在表示 数据预处理 模型架构 物理引擎 连贯性 sara AI生成 视频数据 空间计算 三维重建 物理规律 精度 多模态 影视制作 广告营销 AI安全 版权问题 训练数据集 视频设计模型

 

全文摘要

SARA模型是一种能够生成高清视频并符合物理规律的AI技术。它采用了多镜头技术和模拟现实世界的特点,使物体和人之间的交互符合物理规律。SARA的核心论文主要涉及将传统模型融合和解决分辨率不一致的问题。该模型通过学习大量的视频数据,可以复制现实世界中的场景。未来,SARA有可能应用于ARVRMR等场景,并且可以用于提高视频的清晰度。此外,对话还讨论了多模态模型的优势和应用领域,以及AI在影视制作、广告创意、游戏设计等领域的应用。对于SARA的商业化应用,专家预测可能在第四第三季度末或年底发布。然而,要实现与现有产品完全一样的效果仍有一定难度。国内企业在这方面的追赶过程中面临不同的挑战和机遇。未来一年至一年半,短视频技术仍将存在价值,并且可能引发监管与技术先进性的冲突。

 

章节速览

l 00:00 SARA模型的经验之处和技术核心

SARA模型是一种生成视频的模型,具有长视频长度和高质量的特点,支持高分辨率。它采用了多镜头技术和模拟现实世界的特点,使物体和人之间的交互符合物理规律。此外,SARA还具有完成一些模拟现实任务的能力。其核心论文主要涉及将传统模型融合和解决分辨率不一致的问题。

l 04:07 sara的数据预处理方式

sara的数据局来自公开数据和游戏引擎生成的数据,同时收集重驾驶和使用CGI和VR技术合成的影像。数据预处理使用时通快的技术,将长视频切割成时空块,压缩相似元素,以patch为单元进行预训练。

l 08:58 视频预训练模型及标注方法

本文介绍了一种基于潜在表示的视频标注方法,通过reception技术和recapping技术对视频进行标注,包括时空信息、上下文信息、风格和情感信息等。标注后的视频体积dada减小,适用于预训练模型。同时介绍了预训练模型的结构,包括diffusion和transformer架构的融合,以及它们在图像生成和上下文理解等任务中的应用。最后解释了潜在表示和patch的关系,类比为图书馆索引卡和书架的关系。

l 13:24 AI学习潜在表示的标注信息及映射关系

在整个预训练过程中,AI学习如何将patch和潜在表示进行映射。Patch类似于大语言模型中的token,AI将其分门别类并存储在cache中,以备计算和推理。模型架构依赖于一篇关于Java的论文,将diffusion和transformer进行融合。模型包含多种block,处理标注的潜在表示和patch信息。用户输入被扩展成更详细的文本,并映射成潜在表示,以便进行推理计算。

l 17:15 潜在表示计算与视频生成

本文介绍了潜在表示计算背后的时空块(patch)以及图像构建过程。在生成视频的过程中,使用物理引擎确保图像符合物理规律。同时,通过打比例和重组时刻模块来增进图像细节和分辨率。整个过程中涉及大量的计算,包括图像支持和物理引擎。此外,还介绍了AI在推理视频时的预测过程,以及与传统方法的不同之处。

l 20:59 SARA:生成视频的新方法

SARA是一种能够生成高清视频并符合物理规律的新型AI技术。通过学习大量的视频数据,SARA可以复制现实世界中的场景,如天安门。然而,要将SARA应用于ARVRMR等场景,需要将其生成的视频数据转换为三维格式。一旦完成转换,这些模型可以用于类似ARVR的应用中。

l 24:37 空间计算和三维重建的应用场景

随着技术的发展,空间计算和三维重建技术可以应用于城市规划设计、ARVR场景以及自动驾驶等领域。但要实现这些应用场景,需要高精度、高分辨率的视频生成和处理技术。除了开发,AI生成式工具和模型也可以提高视频的清晰度。

l 28:18 关于提升时间和媒介的讨论

对话中讨论了提升时间维度的快速性,以及将VRMR空间计算和智能驾驶应用于机器人身上的可能性。还讨论了媒介的迭代变化和基于视频生成的高精度提升对产品质量的影响。另外,还涉及了单个物体和复杂场景的生成技术的差异,以及谷歌和SARA在研究方向上的异同点。

l 32:23 多模态模型的研究及应用

该对话片段讨论了多模态模型的优势和应用领域。该模型能够处理文本、图像和视频等多模态数据,并生成符合物理规律的视频内容。与传统的生成模型相比,该模型能够模拟现实世界并理解物理现象。未来,多模态模型有可能在广告营销、影视剧创作等领域带来巨大的助力和赋能。

l 36:30 AI在影视制作和广告创意中的应用

AI在影视制作中可以辅助编导快速实现剧本,节约时间和成本。对于长片和危险镜头,可以用AI替代。然而,AI申请需要解决版权和人脸冲突问题。在广告创意方面,AI技术已广泛应用于营销场景,包括电商展示。在3D领域,AI技术可以提高生成精度,而在游戏设计中,AI工具可以辅助设计师完成角色和场景设计。未来有可能集成这些API能力到游戏业务链路中。

l 39:58 SARA的商业化应用发布时间预测及优化需求

专家预测SARA的商业化应用最早可能在第四第三季度末发布,最晚可能在年底发布。在发布前,SARA需要进行算力储备、安全测试、API和文档开发、产品功能完善等优化工作。此外,SARA还需要优化物理引擎准确性和违背自然规律的问题,并降低推理成本以提高实用性。未来可能出台监管政策,SARA需要匹配合规。同时,加强安全测试以防止用户生成违法、色情等内容。

l 43:46 SARA的连贯性和版权问题的优化

该对话片段讨论了SARA在未来商用中需要优化的连贯性和长距离依赖关系,并提到了版权问题。专家解释了SARA在生成图片和视频时会避免侵犯版权和IP的问题,通过过滤训练数据和使用合成人脸来解决。此外,SARA在用户输入时也会有防守策略,自动解决和提示用户关于敏感信息和侵权问题。

l 47:51 AI生成艺术的版权问题和修改方式

未成熟的技术在版权领域引发了讨论,AI生成艺术作品需要避免侵权。同时,生成的作品可能存在缺陷,可以通过人工干预和软件修改来修正。视觉指针技术是一种局部修改的方式。另外,新秀公司月之暗面计划推出下一代大模型,其估值高达10亿美金。

l 51:26 国内企业推出类SARA产品差距及可能性

国内企业推出类SARA产品的差距主要在技术和产品积累方面。腾讯、百度、阿里、字节跳动等大厂在视频领域有技术积累,有潜力推出类SARA产品。其中,阿里投资的百川自主、乐视安全也值得关注。这些公司在视觉领域有落后和核心专利,并且具备延展到多模态模型的能力。另外,阿里和百度本身在短视频领域已经有积累,未来也有推出类SARA产品的可能性。

l 54:48 叶子案例的挑战与难点

叶子案例面临着模型结构、数据处理和物理引擎等多方面的挑战。模型架构、数据集处理以及物理模型的建立都是需要解决的问题。此外,时间连贯性、空间连贯性和空间计算等也是叶子案例需要应对的难点。虽然国内的大厂和公司有能力解决这些挑战,但要实现与现有产品完全一样的效果仍有一定难度。然而,如果社区中有类似的开源项目出现,则可能缩短叶子案例的开发周期。预计叶子案例可能在半年内推出雏形,但要达到60秒的长度仍需克服诸多困难。

 

问答回顾

l 发言人

sara模型的核心技术是什么?

l 发言人

sara模型的核心技术包括多镜头技术、物体与物体之间、人与物体之间的交互、模拟现实世界的能力、大模型的超大规模数据量毕业后产生的新的现象等。

l 发言人

sara模型的理论基础是什么?

l 发言人

sara模型的理论基础是由两篇论文构成的,其中一篇论文是关于将传统的diffusion模型和transformer模型进行融合,构建一个新的模型架构;另一篇论文是关于解决视觉生成过程中分辨率不一致的问题。

l 发言人

sara模型的数据预处理方式是什么?

l 发言人

sara模型的数据预处理方式包括使用多种类型的数据,如公开数据、游戏引擎生成的数据、重驾驶数据、CGI和VR合成的影像等。它引入了时通快的技术,将长视频切割成若干个时空块,用patch职工图像块为单元来进行预训练,并使用dara y ring模型进行标注。

l 发言人

模型结构如何融合?

l 发言人

模型结构融合成一个叫潜在扩散变化器,叫later decisions transform这样的架构。在这个架构里面,它融合成delusion和transformer这两种架构。

l 发言人

预训练过程的关键词有哪些?

l 发言人

预训练过程的关键词包括潜在表示、patch、cache、token等。

l 发言人

AI如何学习潜在表示的标注信息?

l 发言人

AI通过学习潜在表示的标注信息和patch的映射关系,来学习这个逻辑关系。

l 发言人

模型架构主要由哪些模块组成?

l 发言人

模型架构主要由diffusion和transformer这两种架构组成。

l 发言人

diffusion transformer block模型的子模块有哪些?

l 发言人

diffusion transformer block模型的子模块包括规划层、跨注意力的attention层、上下文的认识等。

l 发言人

AI在生成文本时会做什么?

l 发言人

AI会把用户输入的信息扩展成更详细的一段文本,并映射成背后的潜在表示。

l 发言人

物理引擎的作用是什么?

l 发言人

物理引擎的作用是计算生成的图像是否符合现实的物理规律。

l 发言人

整个计算过程中的额外计算有哪些?

l 发言人

整个计算过程中的额外计算包括物理引擎的计算、打touch的计算、视频生成的计算等。

l 发言人

AI在推理视频的时候中,它是基于什么去做预测下一帧的预测?

l 发言人

AI在推理视频的时候中,它是基于我们的catch去做预测下一帧的预测,跟我们token去预测下一个字符一类似的。只是说它这种是基于开启为单元的这种推理的过程。

l 发言人

sara生成的视频有哪些特点?

l 发言人

sara生成的视频第一比较高清,第二它符合世界的物理规律。基于这两点的话,其实它是可以有能力去复制现实世界的。

l 发言人

如何将sara生成的视频应用于ARVRMR等场景?

l 发言人

需要将高清的视频通过nerve或pick words等工具转换成三维带渲染的效果的三维,然后将这种模型应用到类似ARVR这些场景中。但目前还差一点,因为精度不够,需要达到一迷你级别。随着技术的发展,精度越来越高,有可能将高清的三维视频导成高清的三维3D,应用到ARVR中。

l 发言人

AI生成视频的清晰度提升速度如何?

l 发言人

AI生成视频的清晰度提升速度很快,未来可能会应用于VR、MR、智能驾驶、机器人等领域,是一个质的飞跃。

l 发言人

AI生成视频的场景精度要求如何?

l 发言人

AI生成视频的场景精度要求不高,可以用于广告营销、产品展示等单体场景,但对于复杂场景需要考虑物体之间的空间距离和精度。

l 发言人

谷歌的吉姆利和sara的异同点是什么?

l 发言人

吉姆利更专注于多模态的长文本、音频、视频的处理,而sara更专注于视频生成。吉姆利能够模拟现实世界,而sara能够代表世界模型,未来可能会成为多模态厂家追赶的一个方向。sara在数字创意、广告营销、影视剧创作等领域有很大的助力和赋能。

l 发言人

AI在影视制作中的应用有哪些?

l 发言人

AI可以在影视制作中辅助编导快速实现剧本,节约时间和成本。未来在核心镜头上,包括爆炸等危险镜头,完全可以用AI来替代。

l 发言人

AI在广告片中的应用有哪些?

l 发言人

AI可以快速构建几分钟的样片,拿到投资和电影局的版权许可以后再去拍电影,节约时间和成本。

l 发言人

AI在3D领域中的应用有哪些?

l 发言人

AI可以在3D领域中解决单体简单的精度不高的问题,未来可能会被集成到游戏工具中,辅助设计师完成造型设计、场景设计等。

l 发言人

AI商业化应用的预测和问题有哪些?

l 发言人

AI商业化应用的发布时间预计在第四第三季度末或年底,需要解决算力储备、安全测试、API开发技术、产品功能完善、技术缺陷优化等问题。未来需要优化物理引擎、推理成本和安全测试。

l 发言人

AI在版权合规方面面临哪些问题?

l 发言人

AI在版权合规方面需要匹配不同的政策,加强安全测试,防止用户生成色情、犯罪、暴力等画面。

l 发言人

sara如何避免侵犯IP问题?sara生成的缺陷能否通过人工干预或软件层面修改?

l 发言人

sara在训练数据集里把关,使用合成的人脸避免生成明星等敏感信息,购买版权解决问题。sara未来可能会提供在线的局部修改和二次编辑功能,如果未来没有提供这些功能,可以交给其他工具处理。

l 发言人

sara如何避免版权冲突?

l 发言人

sara在数据源头、合规、版权审查、用户输入过滤等方面规避版权冲突。

l 发言人

国内新秀公司是否会推出类sara的产品?

l 发言人

新秀公司可能在2024年推出类sara的产品,但具体可能性不确定。

l 发言人

国内企业推出类sara产品的差距在什么?其他公司有没有可能推出类sara产品?国内大厂或公司能在几个季度内推出类sara产品吗?

l 发言人

腾讯、百度、阿里、字节等大厂在过去视频领域有很多技术积累,包括disuse and former等产品。叶子暗面可能推出一个比较像样的模型出来,其他公司只要突破了模型架构、数据预处理和物理引擎等难点,也可能推出类似的产品。如果没有类似的开源,可能需要三个月或六个月才能推出雏形或demo。但如果有类似的开源,可能能缩短0到1的周期。

l 发言人

复刻sara的挑战在哪里?

l 发言人

复刻sara的挑战在于构建模型架构、处理数据集和物理引擎等方面,其中物理引擎是最大的挑战。如果没有类似的开源,可能需要三个月或六个月才能推出雏形或demo。

l 发言人

短视频公司和PGC视频公司在训练模型上是否有优势?

l 发言人

Sara的数据集汇集了全网的短视频数据,包括海外的长短视频,但除此之外还有很多AI生成的工具和数据。

l 发言人

sara的模型训练需要哪些算力?sara的推理测需要哪些算力?

l 发言人

模型体积为31种左右,数据量为数百个PD级别,包括互联网的长短。训练过程中需要学习潜在表示映射、物理规律、上下文的逻辑关系。训练需求量大,集群需要上万片H100,训练周期至少2个月甚至3个月。推理测的计算量比之前多了一些,包括物理规律的把关和反复的打太极等方式。推一次的计算量会比传统的视频模型大几十倍。

l 发言人

sara的迭代后参数是否会增加?

l 发言人

模型架构逐渐稳定,不会增加特别大。transformer整合进来后,只用了一小部分的能力,主要用于语义理解和上下文关系。

l 发言人

大厂和新创公司对追赶哪些企业持有不同的态度?

l 发言人

大厂会挑战中小厂,而新创公司需要足够的技术和资金才能应对挑战。大厂会去拆解Sara的技术架构,然后构建出新的模型架构。未来一段时间,传统这些短期内的东西不会一下子就没活干了。

l 发言人

短视频技术在未来一年或一年半的时间内还存在哪些价值?

l 发言人

短视频技术在锤的场景下还是有存在的价值的,比如在电商中几秒几十秒的宣传视频展示就足够了。

l 发言人

纹身视频产业的商品化和商业化方面,老专家对监管层的动向有何了解?

l 发言人

AI视频领域还存在一个版权IP的法律体系不完善的问题,需要厂家自觉遵守法律法规,进行数据筛选和版权购买。监管层会观察并定期召集大厂讨论,但更长周期才会形成法律。

l 发言人

为什么语言模型过于敏感?

l 发言人

语言模型过于敏感,稍微问一个敏感的东西就会回避不回答。

l 发言人

实时信息获取的作用是什么?

l 发言人

实时信息获取是把全网的网页最好的搜过来,提炼成摘要给你。

l 发言人

AI视频设置会面临哪些监管和技术先进性的问题?

l 发言人

AI视频设置会面临类似的监管和技术先进性的问题。

 


作者利益披露:转载,不作为证券推荐或投资建议,旨在提供更多信息,作者不保证其内容准确性。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
智度股份
S
高鸿股份
S
同方股份
工分
1.95
转发
收藏
投诉
复制链接
分享到微信
有用 0
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
评论(1)
只看楼主
热度排序
最新发布
最新互动
  • “韭菜”
    中线波段的老韭菜
    只看TA
    02-21 20:52
    谢谢分享
    0
    0
    打赏
    回复
    投诉
  • 1
前往