【Genie:“生成式互动环境”创造AI新玩法】
Genie:自学成才,新范式的提出,“生成式互动环境”创造AI新玩法
#什么是Genie?
Genie基于一种内存高效的ST-Transformer架构,是首个#从未经标记的互联网视频中,以无监督方式训练的生成式交互环境。该模型可以根据文本、合成图像、照片甚至草图的提示生成各种可控动作的虚拟世界。训练素材是超过20万小时的公开在线游戏视频数据集。
——————
Genie 拥有#110 亿个参数,可以被视为基础世界模型。它由#时空视频tokenizer、自回归动态模型和一个简单可扩展的潜在动作模型组成。
#时空视频tokenizer使得Genie能够将原始视频帧转换为离散的 token同时理解视频中的空间信息和时间信息,且保证学习时不会消耗太多内存。
#自回归动态模型 可以根据当前帧的 token 和潜在动作预测下一个帧。
#一个潜在动作模型(LAM),用于推断视频帧之间的潜在动作。
整个模型分为两个阶段进行训练,首先训练视频 tokenizer,然后训练潜在动作模型和动态模型。
——————
#与Sora相比的进步?
相比于 Sora 作为图像/视频生成,Genie 多了交互性,也就是在文/图基础上生成了可交互的世界,也就证明在生成过程中,模型能够在一定程度上理解空间和物体之间的互动关系。
#Genie最大的意义包括什么?
1)证明了让模型学到“一定的物理规则”是可行的(之前Sora一定程度上从结果上体现了这一点),可操控性也全面提升;
2)Genie 的最大意义可能是可以训练通用 Agents,通过在更多视频(不只是横版游戏视频)下学习,帮助 Agents 程序模仿来从未见过的行为(即给定起始帧,预测不在学习材料中的环境交互行为)。
#哪些领域会落地加速?
算里侧和内存侧受益:通过Genie的描述可以看出内存和算力限制是未来AI视频应用的瓶颈;
#高新发展、神州数码、泰嘉股份;
机器人端侧模型将全面加速
#科大讯飞、中控技术;
游戏、视频类、教育类应用最为受益,可控性大幅提升;
#万兴科技、佳发教育。