北京时间12月7日凌晨,谷歌突然发布目前规模最大、功能最强大的AI多模态模型 Gemini 1.0。
Gemini最早公布于 2023年5月的谷歌 I/O 全球开发者大会,由谷歌收购的 DeepMind研发。12月2日,外媒报道谷歌原定于下周举行的一系列Gemini发布会取消,模型的发布推迟到2024年1月,此次谷歌官方突然发布Gemini超出预期。新模型包括能力最强的GeminiUltra、适应多任务的GeminiPro以及针对特定任务和端侧的GeminiNanno三个版本。GeminiUltra在MMLU(大规模多任务语言理解数据集)中得分率高达90%,成为第一个在MMLU上超越人类专家的模型。
目前其他多模态模型是针对不同模态训练单独的组件,然后将它们粗略拼接起来,这会导致模型功能的不完备,而谷歌Gemini是一个真正原生的多模态大模型,从一开始就在不同模态上进行预训练,然后通过额外的多模态数据进行微调,以进一步提高性能。因此Gemini可以无缝理解、编辑和整合不同模态的信息,包括文本、代码、音频、图像和视频。
从谷歌的演示视频结果看,市面上现有的全部多模态大模型与Gemini的性能表现都有代际差,包括Meta的ImageBind以及OpenAI的GPT-4。测评显示,GeminiUltra的得分在MMLU、GSM8K等多项任务中超过GPT-4V,测评得分中仅一项推理的测试集逊于GPT-4V,其余包括数学、通用、代码能力均超越GPT-4V,特别是在对视频和音频的理解上要远胜于GPT-4V。Gemini可以直接输入视频,GPT-4目前只能输入图像。GeminiPro则在基本所有能力上超过GPT3.5。
谷歌后续将在其相关产品中全面集成Gemini,包括搜索、广告、Chrome、DuetAI等。谷歌搜索在Gemini的加持下能力大幅提升,测试显示用户的生成搜索体验速度更快,延迟减少40%,同时质量也得到提升。另外,谷歌还将Gemini引入Pixel,Pixel 8 Pro是第一款搭载GeminiNano的智能手机。
谷歌Gemini多模态大模型发布标志着AI技术在多模态领域的重大飞跃,为全球范围内的AI研究和应用带来了新的里程碑。AI进入多模态时代,一方面可以拓宽AI下游应用场景,例如在自动驾驶、机器人等应用中的潜在革命性突破,另一方面能够带来上游算力需求的持续升级。据外媒报道,GPT-5多模态模型将在2024年初发布,不仅支持文本、图像,还将支持视频,甚至“具有一定程度的自我意识”。后续GPT-5等大模型的发布将给AI产业带来更多催化。
重点关注$恒信东方(SZ300081)$ $盛天网络(SZ300494)$ $思特奇(SZ300608)$