多模态：产业奇点时刻！-韭研公社

登录注册

多模态：产业奇点时刻！

掘金寻牛

全梭哈的老韭菜

2023-12-07 23:33:37

北京时间12月7日凌晨，谷歌突然发布目前规模最大、功能最强大的AI多模态模型Gemini1.0。

Gemini最早公布于2023年5月的谷歌I/O全球开发者大会，由谷歌收购的DeepMind研发。12月2日，外媒报道谷歌原定于下周举行的一系列Gemini发布会取消，模型的发布推迟到2024年1月，此次谷歌官方突然发布Gemini超出预期。

新模型包括能力最强的GeminiUltra、适应多任务的GeminiPro以及针对特定任务和端侧的GeminiNanno三个版本。GeminiUltra在MMLU（大规模多任务语言理解数据集）中得分率高达90%，成为第一个在MMLU上超越人类专家的模型。

目前其他多模态模型是针对不同模态训练单独的组件，然后将它们粗略拼接起来，这会导致模型功能的不完备，而谷歌Gemini是一个真正原生的多模态大模型，从一开始就在不同模态上进行预训练，然后通过额外的多模态数据进行微调，以进一步提高性能。因此Gemini可以无缝理解、编辑和整合不同模态的信息，包括文本、代码、音频、图像和视频。

从谷歌的演示视频结果看，市面上现有的全部多模态大模型与Gemini的性能表现都有代际差，包括Meta的ImageBind以及OpenAI的GPT-4。测评显示，GeminiUltra的得分在MMLU、GSM8K等多项任务中超过GPT-4V，测评得分中仅一项推理的测试集逊于GPT-4V，其余包括数学、通用、代码能力均超越GPT-4V，特别是在对视频和音频的理解上要远胜于GPT-4V。Gemini可以直接输入视频，GPT-4目前只能输入图像。GeminiPro则在基本所有能力上超过GPT3.5。

谷歌后续将在其相关产品中全面集成Gemini，包括搜索、广告、Chrome、DuetAI等。谷歌搜索在Gemini的加持下能力大幅提升，测试显示用户的生成搜索体验速度更快，延迟减少40%，同时质量也得到提升。另外，谷歌还将Gemini引入Pixel，Pixel8Pro是第一款搭载GeminiNano的智能手机。

谷歌Gemini多模态大模型发布标志着AI技术在多模态领域的重大飞跃，为全球范围内的AI研究和应用带来了新的里程碑。AI进入多模态时代，一方面可以拓宽AI下游应用场景，例如在自动驾驶、机器人等应用中的潜在革命性突破，另一方面能够带来上游算力需求的持续升级。据外媒报道，GPT-5多模态模型将在2024年初发布，不仅支持文本、图像，还将支持视频，甚至“具有一定程度的自我意识”。后续GPT-5等大模型的发布将给AI产业带来更多催化。

作者利益披露：转载，不作为证券推荐或投资建议，旨在提供更多信息，作者不保证其内容准确性。

声明：文章观点来自网友，仅为作者个人研究意见，不代表韭研公社观点及立场，站内所有文章均不构成投资建议，请投资者注意风险，独立审慎决策。

上海电影

易点天下

因赛集团

工分