登录注册
【国盛计算机】多模态GPT,比我们想象的更近
波罗
2023-03-05 23:47:59
微软推出多模态大语言模型KOSMOS-1,印证大语言模型能力可延伸至NLP外领域。该模型采用多模态数据训练,可感知图片、文字等不同模态输入,并学习上下文,根据给出的指令生成回答的能力。经过测试比较,KOSMOS在语言理解、语言生成、无OCR文本分类、常识推理、IQ测试、图像描述、零样本图像分类等任务上都取得了相比之前其他单模态模型更好的效果。

产业竞争已经开启,预计GPT4/4.5或将推动多模态。据《财富》杂志报道,GPT4有望于今年发布。根据OpenAI的CEO Sam Altman的公开采访推测,相较前代,GPT4可能不会有参数量上的巨幅提升,而是在其他方向寻求提高。我们认为,多模态模型训练数据为图像、视频等,规模远大于语言类模型,算力需求有望激增,也会同样为AI视觉、视频传输等领域的公司带来全新需求突破。

GPT带来通用智能,多模态使得输入输出信号超越语言,且国内具备快速追赶及超越机会。1)GPT代表通用智能,ChatGPT基于其思维链(CoT)能力已经能在多种任务、各类领域里产生应用,且当前已经开放API,参考过往GPT3可进行细分领域fine-tune的实例,未来有望向更通用领域发展。2)多模态是未来实现通用人工智能的关键。现实世界中的数据天然就是多模态的,人类通过综合运用多种感官,来感知和理解现实世界中的数据,而多模态使得AI的输入输出信号超越语言。3)从KOSMOS1论文看,主要作者为华裔,KOSMOS模型规模不大,且披露了较多训练细节,有利于复现;国内具备海量视频数据优势,可能具备快速追赶、甚至超越的机会。

多模态未来能力提升空间巨大,带来千行百业应用。我们认为,多模态GPT落地应用速度将会很快,国内有望复现类似模型并快速在细分场景使用。1)1~5年内,多模态的输入输出主要将是文本、图像和音频,一大应用场景会是智能办公,如智能PPT和其他office套件,可以通过理解用户语言需求和根据用户提供的多模态输入数据,产出办公成果。2)1~7年内,多模态有望在综合机器视觉领域得到广泛应用,输入输出将包括3D模型,视频等,有望赋能自动驾驶领域感知、规控和仿真能力,亦有望有望提高3D模型生产效率,助力游戏内容与元宇宙构造。3)5~10年内,多模态AI模型有望具备与真实世界所有输入交互的能力,将极大提升人形机器人的能力,使得人形机器人加速落地普及。

投资建议。建议关注:1)视觉智能:海康威视、大华股份、云从科技、商汤科技。2)产业工具:当虹科技、数码视讯、网达软件等;3)潜在多模态受益:万兴科技、中科创达、新国都等。

风险提示:AI技术迭代不及预期风险;经济下行超预期风险;行业竞争加剧风险。
作者利益披露:转载,不作为证券推荐或投资建议,旨在提供更多信息,作者不保证其内容准确性。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
海康威视
工分
22.48
转发
收藏
投诉
复制链接
分享到微信
有用 16
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
评论(4)
只看楼主
热度排序
最新发布
最新互动
  • 只看TA
    2023-03-06 09:04
    谢谢分享
    0
    0
    打赏
    回复
    投诉
  • 只看TA
    2023-03-06 08:14
    谢谢分享
    0
    0
    打赏
    回复
    投诉
  • 大头向前冲
    蜜汁自信的老韭菜
    只看TA
    2023-03-06 07:35
    感谢分享
    0
    0
    打赏
    回复
    投诉
  • 大头向前冲
    蜜汁自信的老韭菜
    只看TA
    2023-03-06 07:34
    感谢分享
    0
    0
    打赏
    回复
    投诉
  • 1
前往