登录注册
智算江湖(一)如何分辨“真假”算力
无名小韭吹泡泡
超短低吸
2023-09-03 16:46:38

能起这个题目,必然是经过了行业调研,而且是线下的。不止一位,但一定包括大家关心的公司和人。

但是越调研越觉得复杂,也就是说还得继续增加对行业的理解,而不是对芝麻大小的消息和细节反复分析。可以再回过头看看鸿博(四)、(五)、(二十三),可能就能明白,除了这三篇,其它二十篇都显得有些水,很多时候抓住了核心,细节就微不足道了。

有别于媒体采访和券商研报,有人觉得我写的文章部分内容不明说,其实有些内容无法明说,我也无法严谨的表达清楚,但是可以去参考并理解。(我举个例子,上海某光刻概念的一位公司领导早就关注我了,我根据公开信息写过这家公司,拼凑的很浅,如果公司不想被分析,可以留个言。但是被删除了,这种删贴一般是对公行为,我对网信行业的处理流程很熟悉,以前也见过无数的删帖函,不同企业对待舆情的心态真的有很大不同),所以,写很多内容我都是根据以前的经验,把握措辞的。为什么鸿博可以越写越深入?这是管理层基因决定的,所以请大家理解,有的公司开放,有的公司傲慢,有的公司胆小,有的公司精于算计,我也会考虑其基因来决定说的含蓄还是直白。

说回算力,先要确定你是以投资的心态了解算力租赁,还是单纯参与算力租赁炒作。前者你可以多揣摩宁德时代为什么没一地鸡毛,后者要揣摩英科医疗为什么会一地鸡毛。

时机

为什么要说时机?因为人工智能的探索一直都在,行业里的关注度也几年一个周期潮起潮落,如果不是OpenAI,可能如今很多大厂的人工智能实验室,又要进入了周期性休整阶段了。

历史是最好的证明,研究一家公司是否有前瞻性,你需要看他2022年报、公告里对于人工智能的判断,和相应动作。

无论是前瞻性,还是运气。去年你布局了,今年就有先发优势。不管是算力还是应用端,搜索引擎和语音识别在此之前是相近赛道,所以切入会很快,即便如此也有没提前屯GPU的,如果哪家出现算力严重不足,也别奇怪,可能只是大意了。

如果说去年是早班车,今年上半年应该算是高峰期了,此刻算是末班车吧?能不能赶上,是不是真的想赶上,不得而知。

现状

现状当然要从现象分析,这里就不得不提一下浪潮了,为什么GPU这么缺,HGX也都拿不到货,预想的业绩没有兑现到呢?

那就要说一个数据了,(请忽略数据本身,我不想陷入计算器分析)

行业的人告诉我,今年1-4月,英伟达给中国大陆地区分配的模组A系列只有2000套,H系列只有2000套,说是国内有3-4家代工厂来分这2000+2000套,如果考虑到良品率的问题,2000套估计要变成1820套,单看HGX,浪潮也就分到了500-800套吧?

有人肯定要问了,还有5-8月呢?不好意思,5-8月的货半路上被中东截胡了,价高者得嘛。无独有偶,最近的新闻大家也看到了,美国对中东也开始限售A100和H100了,他们这是提前囤货啊!不知道有没有中东版英博数科。

看到一个个PPT规划算力如雨后春笋般涌现,我也一度以为算力租赁会有了周期性,在深入细致的了解后,我才发现很多规划算力是很难形成有效算力的。

今年分配到中国的模组就这么多,5月后DGX、HGX的销售都要英伟达亚太区领导来审批了,也就是说难上加难。

而A100也不再是曾经所代表的那种稀缺,还得看是不是PCIE卡,有没有NVLINK,40G还是80G版本、有没有调优能力等等,都制约着最终能不能形成有效算力。

可能很多人不知道调优的意义,也就是说好的调优能力,可以让A800跑出A100的效果。这里需要有专业的技术团队,而单卡对于大模型来说,没什么用,即便是单卡拼凑成服务器也是租不出去的,因为专业的大模型公司不会用这类机器的。这个调优还不是简单调优,是根据客户的模型任务调优,用不同的网络和存储,最大能差到40倍的效率。

就像某个系列服务器,据说腾讯、阿里各拿到了256台,美团年初订的300台到现在都没交货,哪些公司有货,业内都清楚,尤其是阿里拿到货后,调试了几个月还没对外出租,这里也侧面说明了调优的重要性。

英伟达的出货数、DGX和HGX的标准到货周期摆在眼前,大厂无论资金实力、技术实力、渠道能力都很强,也都还面临这么多困难,那么雨后春笋般的几千P、上万P从哪来的呢?

如果确实有卡有服务器,也租的出去,是不是应该马上找个现成的机房合作,迅速形成可租算力,并联合客户去调试呢?而不是把能形成有效算力的卡和服务器,再拉长周期去落地吧?

当然这里我没有去否定有规划算力的公司(当初大家说新希望PPT,历史证明他就是在坚持落地当初的PPT),不过我也不知道这些规划怎么拿到的货,多久才能变成实际的可租算力,有哪个大模型公司签约预定算力了(从调优角度,客户得开始下订单锁定这批算力了)。

江湖里还是有很多CPU算力中心的,我想如果有不能用于大模型的算力,是不是可以帮助CPU算力中心变成GPU算力中心呢?起码对于CPU算力中心来说,名字上是好看的,也确实有提升。

趋势

百模大战已经告一段落,以前的团购、搜索引擎、门户网站等,最后都只活下来了为数不多的几家。但现在肯定还没到生死战的时候,未来胜负对决的时候,算力的需求一定是几何级的增长。

不知大家有没有留意到我前面文章里提到的,周总在鸿博股份业绩说明会里说过,要建单一通讯和物理空间过万P。

我想这个道理大家应该都理解的,集群优于单机,算的快,也要存的快,传输也会影响速度。借用最近一些小作文说的,量化公司把机器放在交易所附近,就不难理解了。

如果从现实中举例子,C盘传输到D盘、局域网之间传输、不同城市之间传输,速度都不一样,这个单一通讯和物理空间过万P的意思很简单——在筹备决赛圈选手的训练场地了,当你还在为有没有算力思考的时候,有人已经把目光专注在决赛圈选手身上了,可能将来大模型决赛时,传输速度上,就会差之毫厘,缪以千里。

创新者和模仿者永远就是处于不同的起跑线,当然英伟达在某些方面又何尝不是模仿苹果呢?模仿和创新有时候也是相互成就的。

风险

这里不得不提一下中东的GPU限售,如果会继续升级对国内的限售,对于鸿博股份会是一柄双刃剑,好的方面是限制了后续的竞争者,不好的方面未来的一些合作、共建算力会受到影响,计算器选手又不高兴了。

而对于刚开始规划算力的公司来说,也会是双刃剑,好处是市值上来了,规划算力不继续投入不会有太多损失,而不好的方面是,真想转型算力租赁的公司,就不那么一帆风顺了。不过谁知道未来会怎样呢?鸿博股份转型6次才遇到对的人。

后面再更新这个系列,我还是希望能有机会听到决赛圈大模型公司的专业分析,看机缘吧,我也希望后续能写到越来越多的为大模型服务的算力租赁公司。先简单来提供几个鉴别标准吧:

1、从历史公告和年报来分析,这些规划算力的拿货渠道和到货保障。

2、DGX、HGX,A100的数量分别是多少,有没有NVLINK,是不是PCIE接口。

3、当前在手算力多少,在途算力或每个月能增加的可租算力有多少。

4、有没有大模型客户订单,用于判断进展,毕竟阿里都需要几个月的调优的时间。

最后,脑子里突然闪现一首诗:

北风卷地白草折,

胡天八月即飞雪。

忽如一夜春风来,

千P 万P 梨花开。

作者利益披露:原创,不作为证券推荐或投资建议,截至发文时,作者不持有相关标的。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
鸿博股份
工分
18.51
转发
收藏
投诉
复制链接
分享到微信
有用 12
打赏作者
无用
真知无价,用钱说话
1个人打赏
同时转发
评论(8)
只看楼主
热度排序
最新发布
最新互动
  • 只看TA
    2023-09-04 08:06
    不是说华为的GPU已经不输A100了么?是不是呢
    0
    0
    打赏
    回复
    投诉
    于2023-09-04 16:46:54更新
    查看1条回复
  • 默默无闻一小散
    满仓搞的散户
    只看TA
    2023-09-03 20:26
    感谢分享剖析
    1
    0
    打赏
    回复
    投诉
  • 只看TA
    2023-09-03 19:48
    感谢分享
    1
    0
    打赏
    回复
    投诉
  • 三更
    满仓搞的老司机
    只看TA
    2023-09-04 09:12
    能否来分析一下华为的gpu
    0
    0
    打赏
    回复
    投诉
  • 只看TA
    2023-09-04 05:57
    下一个P茅
    0
    0
    打赏
    回复
    投诉
  • 只看TA
    2023-09-04 00:48
    非常感谢
    0
    0
    打赏
    回复
    投诉
  • 只看TA
    2023-09-03 17:01
    静待算力春风来
    0
    0
    打赏
    回复
    投诉
  • 1
前往