登录注册
熵基科技:多模态AI
AI量化推送人工智能
明天一定赚的公社达人
2023-12-08 12:59:26

谷歌Gemini模型开启“AI多模态”时代!


1、12月6日,谷歌公司宣布推出其规模最大、功能最强的新大型语言模型Gemini。谷歌针对不同场景发布了三种不同版本:Gemini Ultra(用于处理高度复杂任务的最强、最大的模型)、Gemini Pro(用于扩展各种任务的最佳模型)以及 Gemini Nano(用于手机等设备的最高效模型)。
Gemini 1.0的 Ultra 版本在多项能力上超越GPT-4,并且成为第一个在 MMLU(大规模多任务语言理解)上超越人类专家的模型。Gemini 的多模态能力使其不仅能够理解和生成文本、代码,还能够看懂和生成图像。Gemini 将陆续出现在谷歌体系内更多产品和服务中,如搜索、广告、Chrome 和 Duet AI。
短期来看,Gemini的发布将进一步带来对多模态模型的更多期待,对产业而言,多模态料将带动算力需求的提升;而在中长期来看,预计多模态模型的升级将丰富相关产品的使用场景,叠加硬件升级、算法优化带来的成本优化,2C产品的进展值得期待。持续看好本轮生成式AI浪潮对科技产业的长周期影响和改变,继续关注算力、算法、数据、应用等环节的领先厂商。
多模态大模型能够提升用户交互体验,促进AIGC应用产品形态和功能的创新,提升用户付费意愿。对于整个行业,Gemini问世为业界贡献大模型泛化能力的全新范式,头部大模型公司的多模态道路有望加速推进,AI 生态企业的垂直应用有望受益于语音、图像等多模态能力的完善。同时,伴随GPT-5等模型的推出,预计将看到:1)多模态模型带来的算力需求增长以及 2)越来越多的AI场景与产品的出现。持续看好后续AI产业的前景,后续GPT-5等模型的发布或将带来更多的催化。
AI Agent不同于传统的人工智能,AI Agent具备通过独立思考、调用工具去逐步完成给定目标的能力,是大模型时代重要落地方向之一。多模态大模型的推出有望明显提升AIGC应用的用户使用体验,加速AIGC向AI Agent 的转变。看好AI+办公、AI+教育、AI+政务的落地速度,建议关注AI+金融和AI+医疗应用,行业空间广阔。
2、12月5日,美图创造力大会于厦门召开。会上,Miracle Vision4.0发布(10月9日发布3.0版本),4.0版本将于2024年1月开始逐渐支持美图旗下各产品,主推AI设计与AI视频两大能力。
Miracle Vision 模型目前已经取得良好进展。1)截至23年11月28日,Miracle Vision在电商领域已经服务了 174.5 万用户,成功生成了 1.04 亿张  AI 商品图,与数十家电商品牌客户达成合作,高效生成商品营销物料。2)Miracle Vision 将与Weitu公司研发的大语言模型开展深度融合,共同为影像与设计产品提供底层服务,这将有效提高 Miracle Vision 自认语言理解和多模态能力。
随着AIGC革命不断深化,AI与产业结合成为当前的最重要的发展主题之一。图片-视频-3D 等图像多模态的落地处于循序渐进的过程,AIGC正在对传统创意图像生成领域带来显著变革,推进设计软件从“工具类”应用向“生产力”的角色转变。



作者利益披露:原创,不作为证券推荐或投资建议,截至发文时,作者不持有相关标的。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
苏州科达
S
网达软件
S
熵基科技
工分
2.02
转发
收藏
投诉
复制链接
分享到微信
有用 3
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
暂无数据