登录注册
国盛证券-多模态,比我们想象的更近
明天一定赚
2023-03-10 15:34:44
微软推出多模态大语言模型 KOSMOS-1,印证大语言模型能力可延伸至 NLP 外领域。该模型采用多模态数据训练,可感知图片、文字等不同模态输入,并学 习上下文,根据给出的指令生成回答的能力。经过测试比较,KOSMOS 在语言理 解、语言生成、无 OCR 文本分类、常识推理、IQ 测试、图像描述、零样本图像 分类等任务上都取得了相比之前其他单模态模型更好的效果。

产业竞争已经开启,预计 GPT4/4.5 或将推动多模态。据《财富》杂志报道,GPT4 有望于今年发布。根据 OpenAI 的 CEO Sam Altman 的公开采访推测,相较前代, GPT4 可能不会有参数量上的巨幅提升,而是在其他方向寻求提高。我们认为,多 模态模型训练数据为图像、视频等,规模远大于语言类模型,算力需求有望激增, 也会同样为 AI 视觉、视频传输等领域的公司带来全新需求突破。
GPT 带来通用智能,多模态使得输入输出信号超越语言,且国内具备快速追赶及 超越机会。1)GPT 代表通用智能,ChatGPT 基于其思维链(CoT)能力已经能在 多种任务、各类领域里产生应用,且当前已经开放 API,参考过往 GPT3 可进行细 分领域 fine-tune 的实例,未来有望向更通用领域发展。2)多模态是未来实现通 用人工智能的关键。现实世界中的数据天然就是多模态的,人类通过综合运用多 种感官,来感知和理解现实世界中的数据,而多模态使得 AI 的输入输出信号超越 语言。3)从 KOSMOS1 论文看,主要作者为华裔,KOSMOS 模型规模不大,且披 露了较多训练细节,有利于复现;国内具备海量视频数据优势,可能具备快速追 赶、甚至超越的机会。

多模态未来能力提升空间巨大,带来千行百业应用。我们认为,多模态 GPT 落地 应用速度将会很快,国内有望复现类似模型并快速在细分场景使用。

1)1~5 年内, 多模态的输入输出主要将是文本、图像和音频,一大应用场景会是智能办公,如 智能 PPT 和其他 office 套件,可以通过理解用户语言需求和根据用户提供的多模 态输入数据,产出办公成果。

2)1~7 年内,多模态有望在综合机器视觉领域得到 广泛应用,输入输出将包括 3D 模型,视频等,有望赋能自动驾驶领域感知、规控 和仿真能力,亦有望有望提高 3D 模型生产效率,助力游戏内容与元宇宙构造。

3)5~10 年内,多模态 AI 模型有望具备与真实世界所有输入交互的能力,将极大 提升人形机器人的能力,使得人形机器人加速落地普及。
投资建议。

建议关注:
1)视觉智能:海康威视、大华股份、云从科技、商汤科技。
2)产业工具:当虹科技、数码视讯、网达软件等;
3)潜在多模态受益:万兴科技、中科创达、新国都等。

风险提示:AI 技术迭代不及预期风险;经济下行超预期风险;行业竞争加剧风险。
作者利益披露:转载,不作为证券推荐或投资建议,旨在提供更多信息,作者不保证其内容准确性。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
当虹科技
S
网达软件
S
新国都
工分
5.96
转发
收藏
投诉
复制链接
分享到微信
有用 13
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
评论(2)
只看楼主
热度排序
最新发布
最新互动
  • 1
前往