登录注册
多摸态对算力影响
结构逻辑
下海干活的老股民
2023-10-08 07:42:26
多模态能力跃迁,GPT-4V开启视觉交互时代。1)9月25日,OpenAI官方宣布,其开始在ChatGPT中推出新的语音和图像功能;同日,OpenAI发布《GPT-4V(ision) system card》,探索并展示此次大模型在视觉上的能力及其边界,类似于GPT-4,GPT-4V的训练在2022年完成,OpenAI从2023年3月开始提供早期访问;9月29日,微软团队发布《The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)》,详细测评GPT-4V在多类任务上的表现。2)具体而言,支持图像输入并理解分析为GPT-4V的主要革新。在输入方式上,GPT-4V支持图像、子图像、文本、场景文本、视觉指针及其混合集;在能力上,GPT-4V在视觉理解和解释、视觉参考提示、时间序列与视频理解、抽象视觉推理与智力测试、情商测试等实验中均表现优秀。3)未来,GPT-4V应用场景广阔,其在理解视觉世界上的卓越能力,可应用于缺陷检测、安全检查、杂货结账、医疗影像、汽车保险相关评估、定制化图像生成、智能机器、GUI导航等多个场景。

CLIP打开图文对齐大门,或为实现多模态的核心基础。1)目前,视觉+语言多模态大模型相对主流的实现方法为:借助预训练好的大语言模型和图像编码器,用一个图文特征对齐模块来连接,从而让语言模型理解图像特征并进行更深层的问答推理。根据OpenAI及微软目前官方发布的GPT-4V相关信息,我们并不能详细了解其实现视觉模型的具体方法,但或许可以从OpenAI发布的CLIP系统,初步了解多模态大模型的实现方式。2)CLIP由OpenAI于2021年1月提出,其通过超大规模模型预训练提取视觉特征,进行图片和文本之间的对比学习,即将一张图片与能较好表达这张图片内容的一段文字联系起来,该模型训练完毕后即使不微调直接进行推理,即可达到良好的效果。为了训练CLIP,OpenAI构建了一个4亿容量的数据集,彼时在2021年,最优的模型大约需要256张V100、训练12天,效果即可显著优于传统视觉分类器。3)我们认为,通过将图像和文本的特征对齐,CLIP充当了图像-文本编码器,在视觉和文本之间架起一座桥梁,将其整合到同一个潜在空间(一种矢量化的数据关系网)中,这种技术或可以让 ChatGPT 跨文本和图像进行上下文推理,CLIP以及后续迭代的BLIP、BLIP2等为实现大模型视觉功能的核心基础。

多模态应用空间广阔,算力需求或呈量级式提升。1)训练阶段:GPT4可能是在10000-25000张A100上训练的;而对于GPT5,其可能需要25000-50000张H100进行训练。相比GPT3.5约数千张H100的需求量,GPT4、GPT5等相对成熟的多模态模型算力需求提升约数倍至十倍级别。2)推理阶段:数据量角度而言,图片、视频、语音均相对于文字交互有数个量级的提升,或对应算力需求的高速扩张。文字:Outlook等主流邮箱已可利用OpenAI技术及GPT自动生成格式化的电子邮件回复,考虑全球每天超3000亿封的电子邮件发送量、Outlook约8%的市占率、每个单词数据量约为5B等因素,我们预计,接入Outlook邮件场景后,Chatgpt每日生成数据量或为261GB,相比ChatGPT官网问答式场景约33GB的数据量有数倍提升。语音:Teams与OpenAI已正式开展合作,可实现生成纪要、划分章节、时间标记、实时翻译等多类功能,官方定价为10美元/月。相比文字,音频数据量明显更大,约为2B/秒;参考Teams每日约60亿分钟的总会议时长,考虑相关功能使用比例,Teams每日新增数据量需求约为336GB。图片:根据文字描述、标签点击等自动生成图片的功能已有商业化落地,万兴科技Filmora也已接入OpenAI,为视频创作者提供更定制化的图片素材。根据我们估算,以Filmora现有场景为基础,OpenAI图片素材输出数据量约为每日586GB。视频:《犬与少年》是 AIGC 技术辅助商业动画片的发行级别作品,由Netflix、小冰公司日本分部(rinna)、WIT STUDIO共同创作。在视频领域,单秒输出数据量或达到1MB,是目前最为复杂的应用场景之一。随着AIGC技术在影视剧集、宣传视频等领域逐步渗透,视频创作效率或迎来显著提升,星辰大海拉开序幕。

相关标的:
1)多模态应用:大华股份、海康威视、中科创达、千方科技、虹软科技、当虹科技等。
2)办公应用:金山办公、万兴科技、福昕软件、科大讯飞等。
3)落地快&估值性价比:大华股份、漫步者、传音控股、海康威视、新国都、赛意信息、紫天科技等。
4)算力侧:英伟达、中科曙光、浪潮信息、中际旭创、工业富联、云赛智联、神州数码、拓维信息、四川长虹、烽火通信、海光信息、恒润股份、新易盛、恒为科技、易华录、阿尔特、润建股份、寒武纪、景嘉微、中贝通信、创业黑马等。
5)机器人:硬件供应商:三花智控、拓普集团、鸣志电器、绿的谐波、峰岹科技等。
作者利益披露:转载,不作为证券推荐或投资建议,旨在提供更多信息,作者不保证其内容准确性。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
鸿博股份
工分
22.52
转发
收藏
投诉
复制链接
分享到微信
有用 24
打赏作者
无用
真知无价,用钱说话
1个人打赏
同时转发
评论(15)
只看楼主
热度排序
最新发布
最新互动
  • 只看TA
    2023-10-26 10:41
    谢谢分享
    0
    0
    打赏
    回复
    投诉
  • 只看TA
    2023-10-26 10:39
    谢谢分享
    0
    0
    打赏
    回复
    投诉
  • 只看TA
    2023-10-09 11:40
    创业黑马啥时候能跑一下
    0
    0
    打赏
    回复
    投诉
  • 只看TA
    2023-10-08 21:28
    感谢分享
    0
    0
    打赏
    回复
    投诉
  • 只看TA
    2023-10-08 20:29
    2222222222222222
    0
    0
    打赏
    回复
    投诉
  • 只看TA
    2023-10-08 16:50
    感谢分享
    0
    0
    打赏
    回复
    投诉
  • 只看TA
    2023-10-08 16:45
    辛苦了,感谢分享
    0
    0
    打赏
    回复
    投诉
  • 只看TA
    2023-10-08 15:15
    不错,谢谢,转发!
    0
    0
    打赏
    回复
    投诉
  • 只看TA
    2023-10-08 13:18
    转发,不错!
    0
    0
    打赏
    回复
    投诉
  • 结构逻辑
    下海干活的老股民
    只看TA
    2023-10-08 12:33
    发酵厉害的就是华为线 安前面套路 高开低走 只能走其他科技线
    0
    0
    打赏
    回复
    投诉
  • 1
  • 2
前往