登录注册
AIGC系列之十一 腾讯大模型 高效训练与快速应用的典范
侃侃同学
全梭哈的散户
2023-04-06 07:29:29
 腾讯“混元”大模型:低成本可落地的万亿大模型。其完整覆盖了CV、NLP和多模态能力,万亿参数模型HunYuan-NLP-1T在多个权威榜单登顶。腾讯团队在MoE模型结构、热启动和课程学习、注意力权重复用、路由算法等方面研究优化,大幅降低了万亿大模型的训练成本。该模型用千亿模型热启动,最快仅用256卡在一天内即可完成万亿参数大模型的训练,整体训练成本仅为冷启动训练万亿模型的1/8。
  腾讯大模型的四重技术特色,实现大模型低成本快速训练:1)采用MoE结构,节约训练成本。通过提升FFN数量,模型的性能持续提升;通过引入路由,在训练过程中只激活部分FFN的参数参与计算,从而节约训练成本。2)热启动和课程学习,在有限的资源内训练收敛。首先在小规模的模型上训练收敛,然后将小模型的知识迁移到大模型,逐步增加模型的规模。3)注意力权重复用,降低训练复杂度。在模型计算过程中以一定概率复用注意力权重,使得Attention Weights总时间复杂度降低50%,大模型预训练提速约20%。
  4)词向量路由机制,保证路由稳定性。引入词向量路由机制,将路由和SA层进行解耦,保证相同的词分配到相同的FFN提取特征,提高了路由稳定性的同时加速了模型收敛。
  底层太极平台,实现更高效的模型训练、行业落地。腾讯开发了:1)太极AngelPTM预训练加速组件,192张卡就可以训练万亿模型。2)太极-HCF ToolKit压缩和分布式推理组件,使得HunYuan-NLP 1T大模型推理只需96张A100卡。3)星脉高性能网络,实现了AI大模型通信性能的10倍提升,模型训练成本降低30%~60%。
  云智融合,“混元”拓展腾讯AI应用生态。AI在腾讯的定位是加速器,一方面进一步改善现有业务、提高内容生产效率、加速商业化,另一方面拓展新业务、新方向。腾讯将在AI开发、大数据、物联网平台之上进一步构建消费互联网和产业互联网等发展生态。
  腾讯消费互联网生态中,AI主要与自身产品融合,包括腾讯广告、QQ、微信搜索、游戏等泛娱乐和社交业务:1)社交方面:通过AI增强用户的使用体验、或将成为潜在新入口。
  2)广告方面:腾讯已打造以混元AI大模型为技术底座的广告多媒体AI技术矩阵。3)内容创作方面:混元大模型已应用于内容智能创作助手。4)数字人方面:AI技术驱动数字人由形似走向神似,数字人产业发展或将进入新阶段。5)游戏方面,通过“绝艺”+“绝悟”发展通用竞技AI,AIGC技术赋能游戏的开发创作。
  产业互联网生态中,AI将与各大企业的业务结合,为企业赋能。1)金融行业:云智融合加速行业智能化转型。2)工业制造方面:人工智能贯穿工业制造全生命周期,工业AI生态发展前景广阔。3)融合媒体方面:公司推出腾讯云智媒体AI中台。
  建议关注腾讯系持股或与腾讯有重要合作标的:
  互联网传媒领域:核心标的腾讯控股。游戏相关——世纪华通、完美世界、三七互娱、巨人网络、掌趣科技、电魂网络。版权相关——华策影视、新媒股份、博纳影业、中文在线、平治信息;港股及其他相关——阅文集团、哔哩哔哩、快手、创梦天地、祖龙娱乐、腾讯音乐。
  计算机领域:金山办公(与腾讯在文档领域合作)、泛微网络(腾讯持股)、四维图新(腾讯持股)、博思软件(腾讯持股)、长亮科技(腾讯持股)、超图软件(与腾讯地图战略合作)。
  风险提示:大模型技术中美仍存在差异,部分技术尚处于实验室阶段,存在落地风险。
作者利益披露:转载,不作为证券推荐或投资建议,旨在提供更多信息,作者不保证其内容准确性。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
世纪华通
S
华策影视
S
阅文集团
S
金山办公
工分
0.41
转发
收藏
投诉
复制链接
分享到微信
有用 0
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
暂无数据