只需输入文本指令,便可生成60s的视频内容,并在画面效果、视频时长、流畅度和逻辑性等方面具备惊人效果……近日,OpenAI发布的文生视频大模型Sora迅速引发人们关注。业内分析认为,该项新产品或将促使大模型厂商加大对多模态大模型的研发投入,并进一步推动AGI(通用人工智能)进程。
一直以来,视频领域便是被普遍看好的AI应用落脚点之一。继可生成图文的ChatGPT之后,Sora的发布迎合了业内对多模态大模型的期待。
模态即每一种信息的来源或形式。人们在信息获取、环境感知、知识学习与表达等方面都是采用多模态的输入、输出方式。
华福证券研报表示,相比单模态,多模态大模型同时处理文本、图片、音频以及视频等多类信息,与现实世界融合度高,更符合人类接收、处理和表达信息的方式,与人类交互方式更加灵活,表现得更加智能,能够执行更大范围的任务,有望推动AI迈向AGI。