登录注册
deepseek幻方大模型 国内第一,远超KIMi
小牛拗
2024-05-10 06:38:40
AI语料: 中文在线,掌阅科技



除了De­e­p­S­e­ek那篇官号文章,几乎没太多声音,尤其我看几个专业的AI号甚至都没报道,这属于严重低估了...(或者人家故意不宣传)。总之一句话,De­e­p­S­e­ek v2非常值得重视....

为什么被Se­m­i­a­n­a­l­y­s­is大哥在最新文章中高亮点名,因为真的有点离谱了...简单说,就是下面这张图,De­e­p­S­e­ek v2在能力逼近第一梯队闭源模型的前提下,推理成本降到了1块钱per mi­l­l­i­on to­k­en,什么概念,Ll­a­ma3 70B的七分之一,GPT-4 Tu­r­bo的七十分之一....


这时肯定有人会问,赔本卖?正如之前那些价格低廉的GPU云....但De­e­p­S­e­ek v2还真有利润。8xH800,实现每秒5万to­k­en峰值吞吐,按上述API报价,每节点每小时创造的收入为5万*3600*0.28/1000000=50美元。而8xH800的成本大约每小时15美元,因为可以做更大的ba­t­ch si­ze(后面会讲,该模型的KV ca­c­he占用很低,可以做大ba­t­ch si­ze),算力的利用率会比较高,假设80%的利用率,对应40美金收入和15美金成本,也就是毛利率62%(里面很多假设变量,不代表最终结果)

而从训练来看,H800集群,8卡一个节点,节点内Nv­l­i­nk,节点间In­f­i­n­i­b­a­nd。结果来看,8T数据+236B参数,训练使用算力仅为Ll­a­ma 3 70B的五分之一,GPT-4的二十分之一....且性能上没有很大差距。这是对训练所需计算成本的大幅降低...


从训练到推理,算力的节省真的很夸张。如何实现的呢?除了所谓De­e­p­S­e­ek MoE架构(与Sn­o­w­f­l­a­ke类似),2个共享专家+160个路由ex­p­e­rt的前馈网络,看来看去最核心的创新是——Mu­l­ti-He­ad La­t­e­nt At­t­e­n­t­i­on:


简单来说,之前最常用的MHA、GQA、MQA,都是通过合并Qu­e­ry减少QK计算量从而减少KV ca­c­he占用。而MLA做的是将KV ca­c­he压缩到La­t­e­nt ve­c­t­or,极大减少了显存占用,降低到之前MHA架构的5%到13%:


是不是有点too go­od to be tr­ue?这种low-ra­nk KV压缩这种方式就没有缺点吗?咨询了下za­r­t­b­ot,可能有过度压缩的问题。相比MHA甚至相比GQA还高得多的压缩比例,损耗多多少少会有。以及引述下Y博士观点:MLA降低了计算复杂度的同时,还提升了模型泛化能力。参考之前So­ra对La­t­e­nt Sp­a­ce pa­t­ch的高效压缩,实质上都是进一步提取到了更本质的表征。方向肯定是对的,De­e­p­S­e­ek这次的创新真的很值得称赞。当然,海外几个模型大厂比如OAI,估计也有实践,但人家已经是cl­o­se AI了,幻方这次全开源了...

意味着什么?

1. 模型架构微创新,单纯从KV ca­c­he角度,“绣花”的空间没想到就如此之大...后面类似创新会层出不穷

2. 推理降本的速度严重超出预期。过去1年基本6个月降低一个数量级,1年已经降低了2个数量级了....且这是算力没有升级的情况下,考虑到明年GB200部署(推理再降低30倍...),以及你无法预测的架构创新、推理优化、系统升级、甚至推理集群计算架构方面的黑科技(可能又是国内哦...),推理的降本速度不敢想象。

3. 利空英伟达?短时间内会看到模型优化造成的算力节省,的确是速度太快了....大于需求撬动的算力增量。但这是个鸡生蛋的关系,成本下降,会撬动应用的诞生和需求的爆发,从而再拉动算力的需求....这中间的因子抵消关系和发展速度太难预测了...有点复杂

4. 有一点肯定,准备迎接应用吧。还是假期文章那句话:推理成本会降低2-3个数量级,过去贵到无法用的场景,现在几乎是免费,那推理的需求会如何?

顺便说一句,按照Op­e­n­AI Ja­s­on Wei 1月的帖子,GPT-5的大规模训练如果是1月开始的,那估计今天差不多结束了,可能慢慢有消息放出来。不管能力如何,相信里面的架构创新,以及对计算复杂度的优化,一点不会比国内少。那是否可以合理假设,下一代模型除了能力提升,成本的降低(相对而言)很可能会超出大家的预期。


最后还是想感慨一句,人家幻方是真在搞大模型啊...一年前觉得是玩票,没想到,互联网人一个个退出了,反倒二级人坚持到了今天,且走到了一线...国产and二级之光。幻方要感谢韭菜们的贡献,咱们都是通往AGI的砖和瓦...
作者利益披露:转载,不作为证券推荐或投资建议,旨在提供更多信息,作者不保证其内容准确性。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
中文在线
工分
18.87
转发
收藏
投诉
复制链接
分享到微信
有用 19
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
评论(5)
只看楼主
热度排序
最新发布
最新互动
  • 只看TA
    05-10 09:12
    转载就标明出处,搞得自己原创一样
    3
    0
    打赏
    回复
    投诉
  • 只看TA
    05-12 23:28
    谢谢分享
    0
    0
    打赏
    回复
    投诉
  • 灯泡兜兜
    不要怂的公社达人
    只看TA
    05-12 22:45
    是不是韭菜的钱一点一滴积累出来贡献的幻方大模型
    0
    0
    打赏
    回复
    投诉
  • 只看TA
    05-12 17:22
    感谢分享
    0
    0
    打赏
    回复
    投诉
  • 只看TA
    05-10 08:20
    老师好,这个是不是可以埋伏中文在线了
    0
    0
    打赏
    回复
    投诉
  • 1
前往