登录注册
OpenAI首个视频生成模型Sora技术报告公布
一苇渡大江
2024-02-19 13:15:31
     2022年末,OpenAI聊天机器人ChatGPT的面世无疑成为了引领人工智能浪潮的标志性事

件,宣告了新一轮科技革命的到来。无论是聊天娱乐、教育学习,还是工作生产、医疗健

康等领域,人工智能正以前所未有的速度渗透到我们生活的方方面面。

    而就在2月16日,OpenAI宣布推出全新的生成式人工智能模型“Sora”。据了解,通过文本

指令,Sora可以直接输出长达60秒的视频,并且包含高度细致的背景、复杂的多角度镜

头,以及富有情感的多个角色。

 Sora不仅可以在不同设备的原生宽高比直接创建内容,而且展示了一些有趣的模拟能力,

如3D一致性、长期一致性和对象持久性等。

  不同于此前许多AI大模型文生图或视频时,会出现人物形象前后不一致等问题,此次

OpenAI展示的Sora生成的视频中的主角、背景人物,都展现了极强的一致性,可以支持60

秒一镜到底,并包含高细致背景、多角度镜头,以及富有情感的多个角色,可谓是相当

的“炸裂”。甚至有不少人疾呼,传统视频制作行业将会被“革命”!

  就连一向和 OpenAI 不对付的马斯克也甘心承认 Sora 的强大,并盛赞“在未来的

几年里,人类借助 AI 的力量,将创造出卓越的作品。”

 OpenAI 在 2020 年首次提出了模型训练的秘诀——Scaling Law。根据 Scaling Law,模型

性能会在大算力、大参数、大数据的基础上像摩尔定律一样持续提升,不仅适用于语言模

型,也适用于多模态模型。官宣 Sora 模型几个小时后,OpenAI 的技术报告也随之公开:

在报告中,Sora 模型被称为“里程碑式”的突破。

 

模型路径:

1. 架构为扩散模型(diffusion model)+transformer

2. 训练时先用预训练模型把大量的大小不一的视频源文件编码转化为统一 的 patch 表示,把时空要素提取作为 transformer 的 token 进行训练。

3. 模型效果好和超大量的数据集和更多的运算时间息息相关

优势:

1. 人物和背景的连贯性,即时人物运动出了相机范围再回来时还保持同样特征

2. 自然语言的理解程度很高

3. 可以在同一个种子下生成不同尺寸(横向竖向)的视频适配不同设备

4. 可以生成长达 1min 高清视频

5. 可以以文字,图片,视频作为控制要素控制输出结果

不足:

1. 对于物理规则了解较弱,比如吹气后蜡烛不会熄灭,左右不分,玻璃掉落不会碎

2. 对于算力要求较高(猜测)


可以实现:

1. 文生视频,图生视频,图+文生视频,视频修改

2. 视频转绘,视频延伸,视频补全

 

 

 

 

 

 

 未来畅想:

1. 重新洗牌 AI 生成视频产业

2. 扩散模型的上限比想象中的高!

3. 全局一致性可以被解决

4. 文字生成 3D 或将迎来突破

5. AR,VR,VIsionPro 新型应用潜力

  Sora展示了人工智能在理解真实世界场景并与之互动的能力,这是朝着实现通用人工智能

(AGI)的重要一步。它能够模拟真实物理世界的运动,如物体的移动和相互作用。360创

始人周鸿祎发布微博提到自己对Sora的看法,周鸿祎认为,Sora的诞生意味着AGI(通用人

工智能)实现可能从10年缩短至一两年。

     Sora发布后,马斯克用一句话点评:“gg人类(gg humans)。。Sora AI官推也回应

称:“Sora开始接管。”

 

    随着技术的不断进步和应用领域的不断拓展,我们有理由相信,未来的视频生成将会更

加出色和惊艳。同时,我们也期待着更多的科技创新能够为人类社会的发展带来更多的惊

喜和进步。建议关注,算力侧:高新发展、拓维信息、鸿博股份;应用测:万兴科技、当虹科技、中文在线

作者利益披露:原创,不作为证券推荐或投资建议,截至发文时,作者持有相关标的,下一个交易日内可能择机卖出。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
高新发展
S
拓维信息
S
鸿博股份
S
万兴科技
S
当虹科技
工分
1.80
转发
收藏
投诉
复制链接
分享到微信
有用 3
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
暂无数据