登录注册
AI产业链专家交流反馈
夜长梦山
2024-01-09 08:48:54
AI产业链专家交流反馈 专家认为 AI 生成视频或者图片技术就是输入一段内容包括文本、图片、视频等,输出图片和内容,Runway 公司推出相关产品后,相关概念得到大家关注,后来 Pika 团队四个人融了几千万美元半年时间做的更好。但产业成熟度来看,下一个迭代周期至少还需要 2-3 年。从 2013 年开始,AI 生成经历了三个阶段的深度学习或者框架迭代,第一阶段是 VAE 编码器,用于数据增强,实际应用是虚拟头像,实际没有太多应用场景。之后第二阶段是谷歌推出相关算法,应用举例是图像风格迁移,如改造黑白图片变为彩色,让梵高的画作动起来。第三阶段是以 2020 年开始成熟的扩散网络。2013、2014、2015 三年学术界都有非常重量的论文发表,产业从 2017-2020 开始进行迭代,纵观 10 年来看本质是算法框架的迭代,后者快速的迭代前者,产业的产品和功能重新重构。AI 视频就是在 AI 图片的基础上补帧和增帧从而达到 AI 生成视频的效果,简单来看就是几秒 GIF,但是让大家认知到了 AI 是可以生成视频的,从而产生了极大的冲击力,不亚于此前英伟达推出 Style 相关技术。 AI 生成视频技术发展路线,主流技术是 DIffusion,以 Runway 为代表。谷歌也在推进,但越来越封闭,越来越闭源,也没对外说使用什么技术,目前只有一些 Demo 出来。现在 Diffusion 的技术原理是一张一张图片去生成,比如一只小鸟,每一张生成的过程都有随机性,所以连续性一直是核心,Pika 实在生成图片模型的基础上加入了控制框架,把上下文图片信息带入,所以视频中每一张图片都是微小变化,通过框架把局部嵌入整体的过程,本质是图片与图片之间的相似性带入,生成众多微小变化图片缓慢移动,让大家认为是连续的。目前连续性是核心问题,比如一个箱子本来是灰色的,但可能在一环中突然变为蓝色的,背后是控制性引发的稳定性问题。以图片生成技术为参考,近几年腾讯 G2I 也是一类代表,本质也是为了控制主体,而不是为了控制像素和背景。整体底层的引导不是周边的引导者能做改变的,更多的是以插件式方法来做控制,并不能从根本上解决连续性问题。 目前 AI 视频都是 3-15 秒,原因也是因为时长越长越容易变为出现稳定性问题,连续性将越来越难控制,一只小鸟可能在 100 秒后变为一只狮子,其余都是推理层面的问题。AI 视频推理成本远远高于 AI 生成图片(英伟达 8G 甚至 4G 显存就可以实现),AI 视频至少要 20G 显存,目前业界也在努力做优化如 OpenAI 的 Costmodel(业内叫 CD)以及谷歌的 PT 算法,缩减搜索空间和生成范围,本质是平衡性问题,是要生成时长更高的准确性,还是割舍准确性的快速性。
作者利益披露:转载,不作为证券推荐或投资建议,旨在提供更多信息,作者不保证其内容准确性。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
信雅达
工分
1.64
转发
收藏
投诉
复制链接
分享到微信
有用 1
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
暂无数据