登录注册
多模态:产业奇点时刻!
掘金寻牛
全梭哈的老韭菜
2023-12-07 23:33:37

北京时间12月7日凌晨,谷歌突然发布目前规模最大、功能最强大的AI多模态模型Gemini1.0。

Gemini最早公布于2023年5月的谷歌I/O全球开发者大会,由谷歌收购的DeepMind研发。12月2日,外媒报道谷歌原定于下周举行的一系列Gemini发布会取消,模型的发布推迟到2024年1月,此次谷歌官方突然发布Gemini超出预期。

新模型包括能力最强的GeminiUltra、适应多任务的GeminiPro以及针对特定任务和端侧的GeminiNanno三个版本。GeminiUltra在MMLU(大规模多任务语言理解数据集)中得分率高达90%,成为第一个在MMLU上超越人类专家的模型。

目前其他多模态模型是针对不同模态训练单独的组件,然后将它们粗略拼接起来,这会导致模型功能的不完备,而谷歌Gemini是一个真正原生的多模态大模型,从一开始就在不同模态上进行预训练,然后通过额外的多模态数据进行微调,以进一步提高性能。因此Gemini可以无缝理解、编辑和整合不同模态的信息,包括文本、代码、音频、图像和视频。

从谷歌的演示视频结果看,市面上现有的全部多模态大模型与Gemini的性能表现都有代际差,包括Meta的ImageBind以及OpenAI的GPT-4。测评显示,GeminiUltra的得分在MMLU、GSM8K等多项任务中超过GPT-4V,测评得分中仅一项推理的测试集逊于GPT-4V,其余包括数学、通用、代码能力均超越GPT-4V,特别是在对视频和音频的理解上要远胜于GPT-4V。Gemini可以直接输入视频,GPT-4目前只能输入图像。GeminiPro则在基本所有能力上超过GPT3.5。

谷歌后续将在其相关产品中全面集成Gemini,包括搜索、广告、Chrome、DuetAI等。谷歌搜索在Gemini的加持下能力大幅提升,测试显示用户的生成搜索体验速度更快,延迟减少40%,同时质量也得到提升。另外,谷歌还将Gemini引入Pixel,Pixel8Pro是第一款搭载GeminiNano的智能手机。

谷歌Gemini多模态大模型发布标志着AI技术在多模态领域的重大飞跃,为全球范围内的AI研究和应用带来了新的里程碑。AI进入多模态时代,一方面可以拓宽AI下游应用场景,例如在自动驾驶、机器人等应用中的潜在革命性突破,另一方面能够带来上游算力需求的持续升级。据外媒报道,GPT-5多模态模型将在2024年初发布,不仅支持文本、图像,还将支持视频,甚至“具有一定程度的自我意识”。后续GPT-5等大模型的发布将给AI产业带来更多催化。


作者利益披露:转载,不作为证券推荐或投资建议,旨在提供更多信息,作者不保证其内容准确性。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
上海电影
S
易点天下
S
因赛集团
工分
3.10
转发
收藏
投诉
复制链接
分享到微信
有用 2
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
评论(2)
只看楼主
热度排序
最新发布
最新互动
  • 只看TA
    2023-12-07 23:59
    中文在线
    0
    0
    打赏
    回复
    投诉
  • 韭零后
    中途下车的小韭菜
    只看TA
    2023-12-07 23:43
    看好这个,但是相关的票好像一般
    0
    0
    打赏
    回复
    投诉
  • 1
前往