登录注册
AI多模态机会
望尘
2023-12-07 19:07:44

北京时间12月7日凌晨,谷歌突然发布目前规模最大、功能最强大的AI多模态模型 Ge­m­i­ni 1.0。

Ge­m­i­ni最早公布于 2023年5月的谷歌 I/O 全球开发者大会,由谷歌收购的 De­e­p­M­i­nd研发。12月2日,外媒报道谷歌原定于下周举行的一系列Ge­m­i­ni发布会取消,模型的发布推迟到2024年1月,此次谷歌官方突然发布Ge­m­i­ni超出预期。新模型包括能力最强的Ge­m­i­n­i­U­l­t­ra、适应多任务的Ge­m­i­n­i­P­ro以及针对特定任务和端侧的Ge­m­i­n­i­N­a­n­no三个版本。Ge­m­i­n­i­U­l­t­ra在MM­LU(大规模多任务语言理解数据集)中得分率高达90%,成为第一个在MM­LU上超越人类专家的模型。

目前其他多模态模型是针对不同模态训练单独的组件,然后将它们粗略拼接起来,这会导致模型功能的不完备,而谷歌Ge­m­i­ni是一个真正原生的多模态大模型,从一开始就在不同模态上进行预训练,然后通过额外的多模态数据进行微调,以进一步提高性能。因此Ge­m­i­ni可以无缝理解、编辑和整合不同模态的信息,包括文本、代码、音频、图像和视频。

从谷歌的演示视频结果看,市面上现有的全部多模态大模型与Ge­m­i­ni的性能表现都有代际差,包括Me­ta的Im­a­g­e­B­i­nd以及Op­e­n­AI的GPT-4。测评显示,Ge­m­i­n­i­U­l­t­ra的得分在MM­LU、GSM8K等多项任务中超过GPT-4V,测评得分中仅一项推理的测试集逊于GPT-4V,其余包括数学、通用、代码能力均超越GPT-4V,特别是在对视频和音频的理解上要远胜于GPT-4V。Ge­m­i­ni可以直接输入视频,GPT-4目前只能输入图像。Ge­m­i­n­i­P­ro则在基本所有能力上超过GPT3.5。

谷歌后续将在其相关产品中全面集成Ge­m­i­ni,包括搜索、广告、Ch­r­o­me、Du­e­t­AI等。谷歌搜索在Ge­m­i­ni的加持下能力大幅提升,测试显示用户的生成搜索体验速度更快,延迟减少40%,同时质量也得到提升。另外,谷歌还将Ge­m­i­ni引入Pi­x­el,Pi­x­el 8 Pro是第一款搭载Ge­m­i­n­i­N­a­no的智能手机。

谷歌Ge­m­i­ni多模态大模型发布标志着AI技术在多模态领域的重大飞跃,为全球范围内的AI研究和应用带来了新的里程碑。AI进入多模态时代,一方面可以拓宽AI下游应用场景,例如在自动驾驶、机器人等应用中的潜在革命性突破,另一方面能够带来上游算力需求的持续升级。据外媒报道,GPT-5多模态模型将在2024年初发布,不仅支持文本、图像,还将支持视频,甚至“具有一定程度的自我意识”。后续GPT-5等大模型的发布将给AI产业带来更多催化。

重点关注$恒信东方(SZ300081)$ $盛天网络(SZ300494)$ $思特奇(SZ300608)$

作者利益披露:转载,不作为证券推荐或投资建议,旨在提供更多信息,作者不保证其内容准确性。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
思特奇
S
恒信东方
S
盛天网络
工分
2.29
转发
收藏
投诉
复制链接
分享到微信
有用 1
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
评论(4)
只看楼主
热度排序
最新发布
最新互动
  • 只看TA
    2023-12-07 19:36
    请问下老师,思特奇和多模态ai有啥关系
    1
    0
    打赏
    回复
    投诉
    于2023-12-11 19:56:06更新
    查看1条回复
  • 只看TA
    2023-12-17 12:32
    谢谢分享
    0
    0
    打赏
    回复
    投诉
  • 只看TA
    2023-12-08 08:57
    恒信东方和多模态有关系吗?
    0
    0
    打赏
    回复
    投诉
  • 1
前往