登录注册
和Gemeni 1.5 pro在一起的第一周:一次处理80万汉字!强过GPT4?
戈壁淘金
只买龙头的老司机
2024-02-27 16:43:18

摘要:被Sora光芒掩盖的巨大飞跃!

上周,在Sora震飞AI圈之际,谷歌于同日“悄悄”发布了新一代人工智能大语言模型(LLM)Gemeni 1.5pro。
前有Open AI宣布开发新产品并推出GPT记忆功能,后有Sora重磅登场,虽然被Open AI抢了番位,但Gemini 1.5 Pro也不容小觑。

在一众“杀招”之外,Gemini 1.5 Pro最亮眼的,还是在跨模态超长文本理解能力上实现的“巨大飞跃”。据悉,Gemini 1.5 Pro的能够稳定处理的信息量高达100万个tokens,这相当于1小时的视频、11小时的音频、超过3万行代码或70万个单词。

科技网站Every的记者Dan Shipper在上周四测评了Gemini Pro 1.5,与其共处一周后,他给出结论:该新一代大模型要比此前谷歌发布的所有型号要“好得多”,“是一项重大成就”。

大“杀器”:超长上下文窗口

在Shipper看来,Gemeni 1.5 pro的“重大”主要缘于两点:

一是Gemeni 1.5 pro拥有“史上最长”上下文窗口

上下文窗口(context window)是指语言模型在进行预测或生成文本时,所考虑的前一个词元(token)或文本片段的大小范围。

在语言模型中,上下文窗口对于理解和生成与特定上下文相关的文本至关重要。上下文窗口越大,可以提供更丰富的语义信息,帮助模型据此预测或生成更连贯、准确的文本。

正如此前提及,Gemini 1.5 Pro能够单次处理100万个tokens,与之相比,GPT-4 Turbo只能支持单次处理12.8万个tokens。

更直观点,换算成汉字的话,100万个tokens约等于80万个汉字,相当于Gemini 1.5 Pro能一次性处理一部红楼梦的信息量——几乎可以理解为无上限。

华尔街此前援引报道称,在Gemini 1.5 Pro发布前,全球公开可用的LLM中,最大的上下文窗口来自Claude 2.1的20万tokens,Gemini 1.0 Pro是3.2万tokens——此次Gemini 1.5已在窗口长度上成功碾压所有大模型。

二是Gemeni 1.5 pro可以稳定处理整个上下文窗口

通过测评,Shipper发现Gemeni 1.5 pro在处理巨大任务量时仍表现出色,这和此前的型号相比是一个“巨大飞跃”。

Shipper表示,此前的LLM性能存在这样的缺陷:当输入的文本任务量接近其上下文窗口上限时,LLM的性能就会大打折扣——甚至忽略部分内容或遗漏关键信息。

但Gemeni 1.5 pro不会出现这类情形。因其对上下文窗口进行了改进,使其更智能,意味着你无需搭建任何基础架构就能“开封即用”。

首发测评实录

作为第一波上手测评Gemeni 1.5 pro的用户,Shipper撰文详细记录了他对Gemeni 1.5 pro的测评,以及其与GPT-4的“对照实验”。

1.文本理解和推理能力

Shipper分别向Gemeni 1.5 pro和GPT-4提问了一本由Chaim Potok于1967年出版的小说《选民(The Chosen)》中的情节。

GPT-4的第一个答案完全错误,随后Shipper上传了这本小说的纯文本全文,GPT-4在检索到相应位置后给出了正解。

不过,由于上下文窗口过小,GPT-4在后台执行检索代码时,将文本内容分称了若干个“文本块”,再在其中检索用户提问对应内容——这也意味着,在回答这类问题时,GPT-4有多智能无关紧要,重要的是GPT-4能不能检索到对应文本。

而Gemeni 1.5 pro可以一次性读完整本书,并提供了GPT-4无法提供的关键情节。

如果说之前你还对“超长的上下文窗口”这个概念一知半解,那么,这项“对照实验”就直观地呈现了上下文窗口的长度是如何帮助Gemeni 1.5 pro在文本理解和检索上“吊打”GPT-4的。

2.大型项目代码、文本生成能力

Shipper指出,Gemeni 1.5 pro还解锁了数百个新功能,这些功能难以用ChatGPT或自定义的GPTs来完成。

比如,Shipper向Gemeni 1.5 pro询问,如果想要在现有代码库中集成GPT-4,应该在哪里操作。Gemeni 1.5 pro不仅在代码库中找到了正确的位置,还直接编写了集成所需的代码。

Shipper表示:

“这极大地提高了开发人员的生产力,尤其是在大型项目上。”

为了检验Gemeni 1.5 pro的生成能力,Shipper还要求Gemeni 1.5 pro给自己此前的文章增加一段“轶事”作为开头。

结果,Gemeni 1.5 pro给出了一个“近乎完美”的文本段落,既充分理解了文章主旨,而且段落设计甚至颇具个人色彩——Shipper称其内容“来自我自己的浏览记录和文字品味”。

不过,这个测试也暴露了Gemeni 1.5 pro的缺陷——这则“轶事”后来被证实是虚构的。Shipper对此表示:
“Gemeni 1.5 pro并不完美,你需要仔细检查它的工作成果。”

此外,Shipper还指出自己的测评中存在一些限制因素,有两点需要注意:

一是Shipper测评的是Gemeni 1.5 pro私人测试版本,后续版本表现可能因其高昂的成本而有所出入;

二是Gemeni 1.5 pro在实际运行中速度“相当慢”,许多请求需要至少1分钟才能得到反馈。因此Shipper认为,Gemeni 1.5 pro不适合作为目前LLM的直接替代品,更适合用来处理ChatGPT等大模型无法处理的繁重任务。

OpenAI应该感到威胁了

纵览Gemeni 1.5 pro带来的数百项新功能,似乎所有都离不开我们最初提到的核心概念:上下文窗口。

因为只要上下文窗口规模足够大,那么无需再输入检索代码就能获得更准确、强大的结果。

从这个角度来说,Gemeni 1.5 pro无疑是Sora之外对AI圈而言另一个“王炸”级别的存在。Shipper在一年前就曾表示:

“Gemini就是最好的例子。凭借其大型上下文窗口,您收集的所有个人数据都触手可及,可以在您需要的任何任务中在正确的位置、正确的时间部署——个人数据越多越好,即使是杂乱无章的数据。”

作为竞争对手的OpenAI,仍需要迎头赶上。Shipper认为,“检索”将成为LLM的组成部分,该功能在提供数据库/数据存储、分块/搜索信息方面都起着重要的作用。
虽然当上下文窗口足够大时,检索功能的价值可能会有所削弱,因为用户可以输入所有请求。但Shipper仍认为,从长远角度来看,检索功能仍然十分重要。

和手机内存一个道理。就算以后,100万个tokens已成常态,用户依然会觉得“不够用”。届时,检索的价值不外乎从“百里挑一”演变成了“万里挑一”。

本文不构成投资建议,据此投资,责任自负。

作者利益披露:转载,不作为证券推荐或投资建议,旨在提供更多信息,作者不保证其内容准确性。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
天孚通信
S
寒武纪
S
中文在线
工分
6.40
转发
收藏
投诉
复制链接
分享到微信
有用 10
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
评论(5)
只看楼主
热度排序
最新发布
最新互动
  • 1
前往