登录注册
视频大数据时代,真的来了!
掘金寻牛
全梭哈的老韭菜
2023-12-14 09:01:25

视频大数据时代,真的来了!

刚刚,李飞飞的斯坦福团队同谷歌合作,推出了用于生成逼真视频的扩散模型W.A.L.T。这是一个在共享潜在空间中训练图像和视频生成的,基于Transformer的扩散模型。W.A.L.T的方法有两个关键决策。

首先,研究者使用因果编码器在统一的潜在空间内联合压缩图像和视频,从而实现跨模态的训练和生成。其次,为了提高记忆和训练效率,研究者使用了为空间和时空联合生成建模量身定制的窗口注意力架构。通过这两个关键决策,团队在已建立的视频(UCF-101 和 Kinetics-600)和图像(ImageNet)生成基准测试上实现了SOTA,而无需使用无分类器指导。最后,团队还训练了三个模型的级联,用于文本到视频的生成任务,包括一个基本的潜在视频扩散模型和两个视频超分辨率扩散模型,以每秒8帧的速度,生成512 x 896分辨率的视频。W.A.L.T的关键,是将图像和视频编码到一个共享的潜在空间中。

Transformer主干通过具有两层窗口限制注意力的块来处理这些潜在空间——空间层捕捉图像和视频中的空间关系,而时空层模拟视频中的时间动态,并通过身份注意力掩码传递图像。

Transformer概念股一览:

汉王科技:汉王科技的Transformer技术可以用于文本的自动撰写和生成,例如新闻标题自动撰写,以及机器写作等。

中科金财:公司智能客服机器人采用的是Transformer神经网络算法,形成了面向复杂NLP语义识别和内容生成的智能机器人对话系统、自动代码生成引擎、自动流程指令生成引擎。

拓尔思:一款人工智能技术驱动的自然语言处理工具,使用了Transformer神经网络架构。

神州泰岳:中文信息深度处理平台是公司的一款产品,是基于Transformer架构自主研发的模型

 

作者利益披露:转载,不作为证券推荐或投资建议,旨在提供更多信息,作者不保证其内容准确性。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
汉王科技
S
中科金财
S
拓尔思
工分
1.84
转发
收藏
投诉
复制链接
分享到微信
有用 2
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
暂无数据