1、Gemini发布信息整理:
Google在6月份的I/O大会上首次提出Gemini后,将在12月13日首次推出,模型将会有3种尺寸的模型,Ultra、Pro和Nano。Gemini 是谷歌从头开始构建的多模态大模型,能够理解、操作和组合不同类型的信息,包括文本、代码、音频、图像和视频。
1)Gemini 1.0有三个版本
Gemini Ultra——用于高度复杂任务,对标GPT-4。
Gemini Pro——用于各种可扩展任务,对标GPT3.5。
Gemini Nano——用于设备端的任务。
2)Gemini性能:Ultra略强于GPT,Pro大幅超过GPT3.5
Ultra在MMLU(大规模多任务语言理解)比GPT4略强(高3%);Pro在MMLU比GPT3.5稍强(高9%);
编程(HumanEval):Ultra比GPT4略强(高7%),Pro大幅超过GPT3.5(高20%)
数学(GSM8k):Ultra比GPT4略强(高2%),Pro大幅超过GPT3.5(高29%)
理解(DROP):Ultra比GPT4略强(高1%),Pro大幅超过GPT3.5(高10%)
2、Gemini具备多模态能力,性能更强,多项基准测试超越GPT-4
多模态能力:归纳并流畅地理解、操作以及组合不同类型的信息,包括文本、代码、音频、图像和视频
性能更强:Gemini ultra 的性能在 32 个广泛使用的学术基准测试中有 30 个都表现出了超越当前时的“先进结果”。其中,以90.0%的得分成为第一个在 MMLU(大规模多任务语言理解)上超越人类专家的模型(该测试结合了数学、物理、历史、法律、医学和伦理等 57 个学科)。Gemini ultra 还在新的 MMMU 基准测试上表现出了59.4% 的领先级性能,该测试涵盖了“需要深思熟虑的”不同领域的多模态任务。
3、在应用方面,硬件、软件同步布局
1)软件方面:Gemini将赋能聊天机器人Bard、搜索、广告、Chrome 和 Duet Al等
Bard聊天机器人:Bard 将使用 Gemini pro 的微调版本进行更高级的推理、计划、理解等。它将在 170 多个国家和地区提供英语版本,我们计划在不久的将来扩展到不同的模式并支持新的语言和地点。。搜索:谷歌已经开始在搜索中试用 Gemini,它使搜索生成体验 (SGE),用户在美国的英语搜索延迟降低了 40%,同时在质量方面也有所提高。
覆盖更多应用:接下来的几个月里,Gemini 将出现在更多产品和服务中,如搜索、广告、Chrome 和 Duet Al。
2)硬件方面,谷歌将 Gemini 引入 Pixel手机。
4、谷歌大模型补齐版图
谷歌的大模型体系已包含:
大语言模型PaLM 2(5400 亿参数)
计算机视觉ViT (220亿参数)
多模态模型PaLM-E(5620亿参数)、以及下一代多模态大模型Gemini,等
5、应用展望: 预计Gemini将在1) C端应用、2) B端云业务、以及3) AI硬件方面赋能
1、C端应用:
1)聊天机器人Bard:我们预计Gemini加持下,用户可以实现多模态的交互,随着语言和看盖地区的拓展,我们预计后续可能通过订阅的形式变现。
2)搜索:我们预计带来更快、更精准的搜索生成体验 (SGE),降低搜索延迟、提升内容质量,并且可以进行多模态的搜索交互.
3)广告:
创新广告形态:我们预计对话式广告将传统搜索广告形式(如文字广告、购物广告、多媒体广告等) 及类别(如酒店广告、旅游广告、邮轮广告、信用卡广告、汽车广告等) 引入聊天,让用户在一问一答中获取对应商品信息。
广告系统有望在大模型的加持下,实现更加精准投放和竟价优化。
为广告主提供对话式广告素材生成。
4)Chrome:预计Bard将以插件的形式存在嵌入Chrome浏览器中,Bard在Gemini多模态能力加持下,或提供网页文字、图片、视频等多模态内容的总结等。
5)Duet Al:Duet Al是谷歌在Workspace中推出的办公助手,对标微软Copilot的Al助手。升级Gemini能力后,将在Google Slide、Google Sheet、Google Meet、Docs 等中发挥比此前更加智能的作用,提升工作效率和用户体验。
2、B端云业务:
预计Gemini有望推动谷歌云业务的增长,包括laaS业务(AI算力)、MaaS业务(大模型AP1调用、二次开发等)的增长。
3、硬件:
Pixel手机:谷歌将 Gemini 引入 Pixel。Pixel 8 Pro 是首款搭 Gemini Nano 的智能手机,可以支持录音应用中的“总结”等新功能,并在 Gboard 中推出“智能回复”功能,从 WhatsApp 开始,明年还将推出更多信息应用。
机器人:多模态大模型可在机器人领域得到较好应用。此前PaLM-E驱动的机器人可以执行长跨度任务、执行规划任务、在给定图像的情况下讲述笑话等,Gemini亦有望被应用在完善机器人任务层的实践当中。