登录注册
【Genie:“生成式互动环境”创造AI新玩法】
掘金寻牛
全梭哈的老韭菜
2024-02-27 21:10:34

【Genie:“生成式互动环境”创造AI新玩法】

Genie:自学成才,新范式的提出,“生成式互动环境”创造AI新玩法

#什么是Genie?

Genie基于一种内存高效的ST-Transformer架构,是首个#从未经标记的互联网视频中,以无监督方式训练的生成式交互环境。该模型可以根据文本、合成图像、照片甚至草图的提示生成各种可控动作的虚拟世界。训练素材是超过20万小时的公开在线游戏视频数据集。

——————

Genie 拥有#110 亿个参数,可以被视为基础世界模型。它由#时空视频tokenizer、自回归动态模型和一个简单可扩展的潜在动作模型组成。

#时空视频tokenizer使得Genie能够将原始视频帧转换为离散的 token同时理解视频中的空间信息和时间信息,且保证学习时不会消耗太多内存。

#自回归动态模型 可以根据当前帧的 token 和潜在动作预测下一个帧。

#一个潜在动作模型(LAM),用于推断视频帧之间的潜在动作。

整个模型分为两个阶段进行训练,首先训练视频 tokenizer,然后训练潜在动作模型和动态模型。

——————

#与Sora相比的进步?

相比于 Sora 作为图像/视频生成,Genie 多了交互性,也就是在文/图基础上生成了可交互的世界,也就证明在生成过程中,模型能够在一定程度上理解空间和物体之间的互动关系。

#Genie最大的意义包括什么?

1)证明了让模型学到“一定的物理规则”是可行的(之前Sora一定程度上从结果上体现了这一点),可操控性也全面提升;

2)Genie 的最大意义可能是可以训练通用 Agents,通过在更多视频(不只是横版游戏视频)下学习,帮助 Agents 程序模仿来从未见过的行为(即给定起始帧,预测不在学习材料中的环境交互行为)。

#哪些领域会落地加速?

算里侧和内存侧受益:通过Genie的描述可以看出内存和算力限制是未来AI视频应用的瓶颈;

#高新发展、神州数码、泰嘉股份;

机器人端侧模型将全面加速

#科大讯飞、中控技术;

游戏、视频类、教育类应用最为受益,可控性大幅提升;

#万兴科技、佳发教育

 

作者利益披露:转载,不作为证券推荐或投资建议,旨在提供更多信息,作者不保证其内容准确性。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
高新发展
S
科大讯飞
S
万兴科技
工分
2.07
转发
收藏
投诉
复制链接
分享到微信
有用 1
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
暂无数据