登录注册
国泰君安计算机行业专题研究:多模态加速燃烧算力
注册制新股
只买龙头的老司机
2023-11-02 09:01:14

(报告出品方/作者:国泰君安证券,李博伦)

1. GPT-V4 发布,ChatGPT 正式进入多模态时代

1.1. 多模态大模型性能全面领先

2023 年 9 月 25 日,OpenAI 正式在 ChatGPT 中推出语音和图像处理功 能。这一更新基于 GPT-4V 模型。与传统的仅处理文本的模型不同,GPT4V具有分析和解读用户提供的图像资料语音的能力,标志着 ChatGPT 正式进入多模态时代。

“模态”指的是数据的不同类型或来源,可以是图像、音频、文本等不 同的数据形式。多模态模型的核心是处理和整合这些不同类型的数据源。 这种模型可以捕获跨模态的复杂关系,使机器能够更全面地理解和分析 信息,从而在各种任务中表现得更好。目前,GPT-4V 支持三种输入模 式。 仅文本输入:GPT-4V 可以像传统的单模态语言模型一样处理文本 输入,执行各种语言和编码任务。 单一图像-文本对:GPT-4V 既可以接受图像+文本的组合输入,也 可以只接受图像输入。能够执行图像识别、物体定位、图像字幕生 成等任务。 交错的图像-文本输入:GPT-4V 可以处理交替出现的图像和文本, 如处理多张收据图像以计算总税款,或从菜单上提取信息并计算费 用等。

GPT-4 在可靠性、创造力和处理复杂任务的能力上都超越了 GPT-3.5。 GPT-4 在众多专业和学术基准上展现出了人类水平的表现。它在模拟的 律师资格考试中的成绩位于前 10%,而 GPT-3.5 的成绩则位于后 10%。 GPT-4 不仅在文本处理上更为出色,还具有接受文本和图像输入的多模 态功能,这使得用户可以为其指定任何视觉或语言任务。在可控制性方 面,与 GPT-3.5 相比,GPT-4 允许开发者和用户更为明确地规定 AI 的风 格和任务。

1.2. 多模态模型主要经历三个时代

根据技术迭代,多模态模型可以分为三个主要发展阶段:

计算时代 (1980- 1999):开始利用一些浅层的模型对多模态问题进 行研究。代表性应用有视觉和语音的联合识别、多模态情感分析等。 尽管这个时期并不真正整合不同的模态,但这些研究为后续的多模 态学习奠定了基础。

交互时代 (2000-2009):这一阶段的研究侧重于从用户交互的角度 来探索多模态识别。自动语音识别(ASR)和自然语言处理(NLP)开始 合并,为语音助手和其他语音应用提供支持。主要的代表作品包括 苹果的语音助手 Siri 等。

深度学习时代 (2010-至今):深度学习为多模态研究带来了巨大的 推动力,多模态模型已经达到了前所未有的准确性和复杂性。特别 是卷积神经网络(CNN)在图像处理方面,和循环神经网络(RNN)在 序列数据如文本和声音方面的成功,使得研究者能够开发出处理多 种模态数据的复杂模型。这一阶段受益于四个关键因素的推动:1) 大规模的多模态数据集;2)更强大的计算能力;3)研究者也开始 掌握更为先进的视觉特征提取技术;4)出现了强大的语言特征抽取 模型,包括 Transformer 架构。

全面多模态是必然趋势。人工智能领域研究一直致力于以技术实现计算 机对于人类认知世界方式的高度效仿。人类具备视觉,听觉,触觉,味 觉和嗅觉五种模态,单模态交互显然是一个局限的、并不完整的模型。 所以“多模态”研究的大势所趋已十分明朗。

2. 多模态技术逐步成熟,下游应用场景逐步打开

2.1. 多模态大模型历经迭代,成功落地

多模态模型和单模态一样都是以 Transformer 架构为基础。2017 年, Transformer 发布,引入了 Self-Attention 机制来处理序列数据。这种机制 允许模型对输入数据的任意部分进行关注,在 NLP 任务中表现卓越。借 助 Transformer 结构,许多知名大模型例如 BERT 和 GPT 被开发出来。 这些模型在大型语料库上进行自监督预训练,然后微调到具体任务上,展现出了出色的泛化能力。但这些初步的成功仍然局限于文本领域。

ViT 改进解决了非文本数据量过大的问题。受到在文本领域 Transformer 模型成功的启发,研究者试图将其应用于计算机视觉任务。但是,直接 迁移存在一个关键问题,即图片的数据量巨大。例如,一个 224x224 的 图片相当于 5 万个像素,这超出了大多数 Transformer 模型的处理能力。 在这个背景下,谷歌提出了 ViT(Vision Transformer)模型,其策略是将图 片分割成多个小块或“patch”,以改成标准的文本形式。假设 224x224 的 图片被分割成 16*16 个 patch,那么其会被分割成 196 个 patch。每个 patch 包含 256 个像素,远小于 5 万个像素。这些像素会根据颜色通道转 换为向量,加入位置编码,最后组合成一个序列,输入到 Transformer 模 型中进行处理。通过将图片分割成小块,压缩信息,这使 ViT 跨越了计 算机视觉和自然语言处理的界限,推动了多模态的研究。

OpenAI推出CLIP 模型,实现多模态学习。有了 ViT 作为基础,研究 者进一步考虑如何结合图像和文本数据,从而推出了多模态模型。 OpenAI 的 CLIP 是代表模型之一。CLIP 不仅仅是将 Transformer 应用于 图像,而是在同一个模型中同时处理图像和文本,让模型学习图像和文 本之间的对应关系。通过大量的图像-文本对进行训练,CLIP 可以理解 图像的内容并将其与文本描述相关联,实现真正意义上的多模态学习。

各大厂模型相继发布,多模态技术发展进入快车道。2023 年,科技巨头 纷纷推出多模态大模型,包括谷歌 PaLM-E、微软 KOSMOS-1、GPT-4 和百度文心一言等,模型路线框架正在被产业验证,全面多模态时代已 然开启。

2.2. 多模态 VS 单模态大模型,差异显著

单模态和多模态模型在数据输入、设计结构和数据相关性方面有明显的 差异。单模态模型主要针对一种数据输入,其结构通常更为简单,专为 特定数据类型的特征提取而优化。因其专一性,它们在处理相应数据时 表现出色,但可能错过多种数据间的交互关系。相反,多模态模型处理 多种数据输入,结构上更复杂,可能涉及使用多个子网络,然后将其输 出合并。它们可以捕获不同数据源之间的交互和相关性,为任务提供更 丰富的信息。

2.3. 微软官方测评,GPT-4V 任务表现出色

GPT-4V 多模态输入扩展 AI 能力范围,多任务测评结果优异。9 月 29 日,微软团队发布《The Dawn of LMMs: Preliminary Explorations with GPT4V(ision)》,详细测评了 GPT-4V 在多类任务上的表现,任务设计的重点 是图像和视频的处理。

2.3.1. 视觉-语言能力:掌握多领域的视觉语言识别和输出

GPT-4V 具备在描述名人、地标、食物和医学图像等不同领域的图像的 能力。1)在名人识别中,GPT-4V 不仅能够识别出各种名人,还能够了 解他们在给定场景中的活动,如美国总统在 2023 年 G7 峰会上发表的演 讲。2)在地标识别中,尽管外观可能因各种因素而变化,GPT-4V 仍然 能够准确地描述各种地标,并提供有关它们历史和重要性的详细信息。 3)食物识别是一个挑战,因为食物的外观可能因为各种因素而有所不同, 但 GPT-4V 仍然展现了出色的识别和描述能力。4)在医学图像理解方面, GPT-4V 成功地识别了牙齿、颌骨和其他重要的医学信息,并提供了有关 潜在健康问题的见解。5)GPT-4V 还可以应用于空间关系、物体计数、 物体定位和密集描述等高级任务中。

GPT-4V 展现出在多个领域的推理能力,并擅长利用视觉提示进行多模 态常识推理。1)笑话和表情包的理解通常涉及特定事件、流行文化或互 联网趋势的引用,这需要对相关背景和文化具有深入的了解。GPT-4V 能 够从视觉和文本两个模态中获取信息,深入理解嵌入在表情包中的幽默。 2)在科学和知识领域,GPT-4V 通过结合文本和图像提示展现了在地理、 物理、生物学等科学领域的推理能力。模型能够准确地根据视觉背景回 答科学问题,并能以教程格式逐步解释各种概念。3)在多模态常识推理 方面,GPT-4V 有效地利用了图像中的视觉提示,例如边界框标识的人 物,来识别场景中的特定情境和活动。

GPT-4V 在多个领域展现了出色的图像和文本理解能力,包括场景文本 识别、视觉数学推理、文档和技术报告深入解析等。1)GPT-4V 在场景 文本识别中表现出色,可以准确识别各种场景下的手写和打印文本。2) 对于视觉数学推理,该模型能够从图像中提取关键信息,例如直角三角 形的边长,并提供逐步的解决方案。3)模型能够准确地回答基于图表的 问题,并理解表格中的细节。4)在文档理解领域,GPT-4V 展示了对各 种类型文档,如平面图、海报和考卷的深入理解。

GPT-4V 在处理多种语言任务时同样表现突出。1)当面对图像并要求描 述时,无论提示是中文、法文、捷克文、英文,GPT-4V 都能精确地生成 对应语言的描述。2)GPT-4V 能够识别并翻译图像中的多语言场景文本, 如加泰罗尼亚语的维基百科截图。3)它还能够洞察文化中的微妙差异, 并为各种情境下的图像生成多语言描述。

GPT-4V 具备将手写、图像表格和图形转化为代码的能力,虽然输出可 能需要微调。1)GPT-4V 可以根据手写输入生成 LaTeX 代码的能力。虽 然它处理复杂的方程式时可能遇到困难,但通过将这些方程式分解成简 单的部分,该模型仍然可以有效地生成代码。2)模型还可以将图像中的 表格转换为MarkDown/LaTeX代码。3)它也能为特定的图形创建Python、 TikZ 和 SVG 代码。尽管生成的代码并不完美,但其布局大致相似,并 且可以根据需要进行调整。

2.3.2. 视觉标记提示:具备视觉和时间维度的理解能力

理解指向输入:GPT-4V 能够准确理解图像上的标记和坐标,提供多种 交互方式。1)GPT-4V 能够理解直接绘制在图像上的视觉标记。2)GPT4V 也可以处理数字格式的区域坐标。尽管它在处理这些坐标时可能不 如直接的视觉标记那么精确,但这种能力为模型提供了更多的交互方式。

视觉参考提示:模型允许用户直接编辑输入的图像以进行人机交互。例 如,模型可以将图像上的箭头与给定的对象关联,或理解图像上的问题 并为基于图像的对话提供详细反馈。 生成指向输出:GPT-4V 可以生成自己的指向输出。虽然这些生成的输 出可能不总是完美的,但这些指向输出不仅帮助用户理解模型的思路, 还允许模型进一步推理和解释其先前的输出。

2.3.3. 时间和视频理解:图像和视频方面的解析推理能力强大

多图像序列:GPT-4V 不仅可以精确解析每一个视频帧,还能够对整体 活动和上下文进行洞察。模型可以识别一系列跑步的图片,理解跑者的 运动方向、速度和他们的身体语言。这意味着,它不仅仅是看到静态的 图片,而是在心中构建了一个动态的、时间敏感的故事线。 视频理解:GPT-4V 够重新排序图像序列,预测视频内容,并进行精确 的时间点定位与因果推理。1)时间排序是一个评估模型如何根据时间进 程重新排序混乱图像的过程。例如,给定一系列关于制作三明治的图像, 模型能够准确地指出哪一步是先,哪一步是后。这种能力证明了模型不 仅能理解单个图像,还能洞察图像间的因果关系。2)时间预测涉及对未 来可能事件的预测。给定一组图像序列,例如一个人正要踢足球,模型 能够预测出下一步可能是球飞向门还是被守门员扑救。这种预测能力展 现了模型对活动规律和结构的深入了解。3)时间定位与推理方面,GPT4V 可以精准地定位一个特定的时间点,如击球的瞬间,并进行相关的因 果推理。例如,模型可以分析守门员是否能够挡住足球,这不仅基于他 们的位置,还基于他们之前的动作和速度。这一能力体现了模型的高级 推理和解析能力。

基于视觉引导的时间理解:通过特定的视觉提示,如一个被圈出的目标, 模型可以提供与此目标相关的时间细节和分析。这种能力强化了模型在 处理和解读复杂时间和社交线索方面的深度。

2.3.4. 抽象视觉推理:善于处理和解读抽象视觉刺激

抽象视觉刺激:从不同的抽象视觉刺激中提取语义是人类的一个独特能 力。对于 GPT-4V,它展示了在理解七巧板这类传统的几何拼图中的表 现。这种拼图由七个平面图形组成,可拼成各种不重叠的图形。例如, 模型能够解读一图并推断它最像一只飞翔的鹅。它还可以从其他格式的 抽象视觉图表中提取信息,如 ASCII 艺术中的卡通人物。 发现和关联部件和物体:GPT-4V 可以识别物体的不同部分,并理解它 们是如何组成一个完整的形象的。例如,它可以被指导去找到和关联由 特定算法分割的物体部件,并成功地将它们组合成一个完整的图像,如 一个男孩的形象。

智商测试:为了进一步挑战 GPT-4V 的抽象视觉理解能力,模型进行了 智商测试。1)模型在韦氏成年人智商量表中显示,它可以通过纯文本、 符号和自然图像来解答各种问题,证明了它在抽象推理方面的潜力。(2) 雷文进阶矩阵是一个知名的非语言智商测试。这个测试试图消除语言、 文化和教育背景的影响。GPT-4V 可以用类似于人类的方式来完成这个 测试,即直接处理整个图像页面,而不是将其转化为文本。

2.3.5. 情商测试:提供情感洞察、审美判断功能

解读面部的情感信息:GPT-4V 在查看面部表情时,不仅能准确地识别 出情感,还能为其提供背后的视觉线索。这证明了 GPT-4V 能够深入理 解并共情于人们的情感。 认知视觉与情感之间的联系:GPT-4V 能够洞察图片中的情感。它可以 识别不同情感,如愤怒、敬畏和恐惧的细致。另外,GPT-4V 还具备一定 的审美观点,能够依据社会常规来评价图像的美观度。此外,GPT-4V 能 够根据情感调整输出内容。当被展示一个恐怖的图像并被要求进行描述 时,模型能够按照给定的指示来增强或减轻其描述中的恐怖元素,确保 其输出与所需的情感相符。

2.4. GPT-4V 新增多样化需求,未来应用前景广阔

多模态大模型新增多种应用场景,对推理阶段算力需求提升。应用场景 多或请求量大会增加对计算资源的需求,导致计算集群规模的扩大,算 力需求增加。根据微软官方论文,GPT-4V 具备多种高价值的应用场景和 新用途,特别是在文本+图像交叉的领域。随着应用场景的丰富,并发需 求的增长,推理端所需的算力将持续提升。 工业领域:GPT-4V 主要用于缺陷、风险检测。GPT-4V 能够识别出各种 产品上的缺陷。此外,考虑到工作场所的安全,GPT-4V 可以有效地检测 和计数未佩戴必要个人防护设备(PPE)的工人,从而帮助确保高风险工 作环境的安全。在零售领域,随着自助结账机的普及,GPT-4V 显示了其 在自动识别购物篮中的商品并为顾客自动结账的能力。 医学领域:GPT-4V 在医学图像理解中的有效性已经得到证实。在放射 学报告生成中,它可以根据各种医学图像生成完整的放射学报告。但由 于评估生成报告的准确性需要领域知识,因此需要医学专家进行评估。

汽车保险领域:GPT-4V 有两个明确的子类别应用:损害评估和保险报 告。前者涉及准确识别和评估车辆受到的损坏的关键任务,而后者不仅 包括损坏识别,还包括识别图像中描述的车辆特定信息,如品牌、型号、 车牌和其他相关细节。 自定义字幕生成器:GPT-4V 可以再视频上自动生成文字注释。GPT-4V 可以为显示在照片中的每个家庭成员生成姓名。这种个性化的方法有助 于更准确和量身定制的照片组织。

图像生成:GPT-4V 为图像编辑生成或重写文本提示,从而优化编辑后 的图像,使其更具视觉吸引力。 具体化智能体:GPT-4V 也被用于模拟一个家庭机器人的角色,它可以 阅读菜单来操作家用电器(例如咖啡机)并在房子里进行任务导向的导 航。 GUI 导航:GPT-4V 不仅可以导航真实的物理世界,还可以与计算机或 智能手机的图形用户界面(GUI)进行互动和导航,实现网络浏览、在线 购物等复杂任务。

3. 多模态大模型算力需求仍在持续增长

3.1. 模型数据量显著增加,训练算力需求激增 445 倍

多模态大模型训练阶段在数据源、模型结构、计算操作方面更加复杂。 1)多模态大模型需要处理多种来源的数据,如文本、图像和声音,其输 入数据的复杂性增加。2)此外,多模态模型的结构自然更复杂,因为它 经常包含为不同数据源优化的多个子模块,如处理文本的 RNN 部分和 处理图像的 CNN 部分。3)为了在模型中有效地结合多种模态的信息, 交互和融合层的引入可能涉及复杂的计算操作,如注意力机制,会进一增加计算负担。4)多模态模型往往需要更大量的训练数据,进一步增 加算力消耗。 随着模型复杂度的提升,算力需求在不断攀升。研究显示,2010 年之前, 训练算力的增长率符合摩尔定律,大约每 20 个月翻一番。随着深度学习 和大模型的训练需求增加,训练算力的增长率大幅度提升,对训练算力 的要求提高了 10 到 100 倍。OpenAI 认为自 2012 年以来,大规模 AI 训 练所需的算力呈指数级增长,每 3.4 个月翻一番。2012-2018 期间已增长 超过 300,000 倍。我们认为当前多模态大模型仍在不断迭代,训练阶段 的算力将保持增长。

GPT-4 对于算力的需求在同等训练时长下相比 GPT-3 增长 445 倍。根 据 semi analysis 推测,GPT-4 在 120 层中总共包含了 1.8 万亿参数,包 含约 13 万亿个 token。而 GPT-3 只有约 1750 亿个参数,包含约 300 亿 个 token。根据上述公式,我们推测 GPT-3 对应计算量 3.15E+23 FLOPs, GPT-4 对应计算量 1.40 E+26 FLOPs。我们假设 GPU 利用率为 35%,共 训练 90 天,考虑到 A100 的峰值性能为 3.12E+14 FLOPs/s,则与训练 GPT-3 需要 371 片 A100,GPT-4 需要 165344 片 A100,增长了大约 445 倍。显然,这个 GPU 的增长数量在当下算力紧缺的环境下难以满足,只 能延长训练时间。

GPT-4 训练成本或达上亿美元。如果选择购买 GPU,按照 Thinkmate 上 16,500 美元/片的单价,GPT-3 购买 GPU 的投资成本约 612.09 万美元, 而 GPT-4 的投资成本高达 27.28 亿美元。如果选择算力租赁,按照 CoreWeave 的定价,一块 A100 80GB NVLINK 的 GPU 收费为 2.23 美元 /小时,那么 GPT-3 的训练成本将达到 177.08 万美元,GPT-4 的训练成 本也将达到 7.89 亿美元。

3.2. 多场景应用持续落地,推理阶段算力需求提升

推理成本受到计算集群的规模、能力、使用效率、批次大小以及集群的 管理策略等因素的影响。集群的规模和计算能力决定了其处理任务的速 度和效率,高性能的计算节点可以更快地完成任务,从而降低单位任务 的推理成本。同时,集群的使用效率高意味着计算资源得到了充分利用, 从而最大化了每单位时间的计算输出,减少了推理成本。此外,大批次 处理可以更好地利用并行处理能力,进一步提高效率。 GPT-4V 计算集群庞大,推理成本远超 GPT-3。根据 semi analysis 推测, GPT-4 推理成本是 Davinchi 模型的 3 倍,主要由于模型的计算集群大且 使用效率低。对于 128 个 A100s 来推理 GPT-4 8000 seqlen,其成本估计 为 0.0049 美元 / 1K tokens。并且,随着 OpenAI 接入更多平台,更多用 户会开始使用服务,这需要更多的计算资源,模型的推理次数会继续增 加。

下游商业模式逐步清晰,大模型终端使用量有望增加。9 月 21 日,微软 宣布 Microsoft 365 Copilot 将于 11 月 1 日面向企业客户全面推出,定价 为每用户每月 30 美元。在 Word 中,Copilot 可以为用户撰写草稿、添加 内容到现有文档、重写文本或生成摘要。在 Excel 中,用户不仅可以通 过 Copilot 快速生成公式,还可以使用提示来高亮关键数据。在 Outlook 和 Teams 中,Copilot 可以为用户提供邮件和会议的快速总结,推荐回复 方式,并自动跟踪无法参加的团队会议。

视频创作平台WondershareFilmora全球上线,接入OpenAI相关服务, 多模态应用前景广泛。该平台不仅推出了用于生成视频脚本、文案及社 交媒体描述的 AI 文案功能,而且还推出了 AI 绘图功能,允许用户简单 快捷地产生所需的图片素材,创造出与众不同的艺术作品。此外,Runway Gen-1 和 Gen-2 也已开放使用,Gen-2 不仅可以像 Gen-1 一样在原视频 的基础上编辑出符合用户要求的视频,还可以从头生成视频。

从应用趋势来看,随着多模态大模型在语音、图像和视频等多种输入输 出方式中的应用,内容创作领域可能会经历前所未有的变革。这种广泛 的数据交互方式和丰富的应用场景为提升用户体验提供了巨大的可能 性,下游应用场景有望从办公进一步拓展至工业、医疗等领域。同时, 大模型持续迭代推动着算力进入高增长时代,服务器、芯片、IDC、光通 信等厂商有望核心受益。

作者利益披露:转载,不作为证券推荐或投资建议,旨在提供更多信息,作者不保证其内容准确性。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
并行科技
工分
3.79
转发
收藏
投诉
复制链接
分享到微信
有用 2
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
暂无数据