谷歌I/O开发者大会：发布最强AI模型-韭研公社

登录注册

谷歌I/O开发者大会：发布最强AI模型

戈壁淘金

只买龙头的老司机

2024-05-15 06:11:35

1、北京时间周三凌晨1点，谷歌举行年度I/O开发者大会；

2、Gemini 1.5 Pro上下文窗口200万token，号称聊天机器人中的全球最长窗口；Gemini新增语音对话功能Live，与OpenAI新模型GPT-4o一较高下；Gemini将可根据用户需求定制；谷歌的多模态AI项目Project Astra可回答手机摄像头所拍的物体相关问题，安卓端侧Gemini增加多模态功能。

从北京时间周三凌晨1点开始，谷歌在山景城总部附近的海岸线圆形剧场，召开了长达两个小时的年度I/O开发者大会Keynote演讲。

与预期一致，谷歌的这场发布会基本都是在谈AI、AI、AI、AI和AI。根据发布会最后的官方统计，整场Keynote的演讲稿里总共提了120次AI。而且这只统计了讲稿，实际上的数量还会更多一些。

在一大堆更新和新发布的功能中，也有许多具有记忆点的产品。例如从本周开始，谷歌搜索引擎将在美国推出“AI概览”（AI Overviews）的功能，搜索引擎会直接归纳总结搜索结果。同时谷歌搜索也将具备多步骤推理能力，可以一次性处理带有多个限制条件的长问题，并支持“拍视频”搜索解决方案的新搜索形式。

另外以上下文窗口“长”闻名的Gemini 1.5 Pro大模型，在今年晚些时候将会把100万Tokens的窗口，进一步扩大至200万Tokens，拓展同步处理多模态信息的边界。而对于一些需要快速响应的场景，谷歌也推出了Gemini 1.5 Flash模型。今年2月刚刚问世的Gemma开源模型，也将在下个月迎来参数量更大的Gemma 2。在多模态领域，谷歌也发布了文生图工具Imagen 3、与Youtube&音乐家合作的“AI音乐沙盒”，以及最新的视频生成模型Veo。而多模态Gemini Nano模型也将在今年晚些时候登陆Pixel手机，这是在本地运行的机载模型。

值得一提的是，谷歌的发布会上也有一些与昨日OpenAI发布会“雷同”的地方——实时AI助手。从今年夏天开始，Gemini也将支持语音实时交互，同时今年晚些时候还将上线实时视频交互。未来几个月内，谷歌也将推出类似于GPTs的自定义AI助手功能，叫做Gems，能够与整套“谷歌全家桶”联动。

硬件方面，谷歌宣布了第六代TPU芯片Trillium，并透露能够在明年初用上英伟达最新的Blackwell架构GPU。另外，液冷、光缆等中国股民可能会感兴趣的题材也在发布会上出现。