光通讯专家讨论谷歌Gemini:
这两天我还在关注Gemini的构架,也有几位朋友密切和我讨论了Gemini的问题。
越讨论越觉得Google了不起。
首先Google在很多年前就已经意识到人工智能数据中心构架中的“核心浪费”了,
这个核心浪费就是GPU和CPU每做一次运算都要存回结果并且提取新的指令来根据指令做第二次运算,如果我们知道第二次运算是什么,就可以直接将结果给第二个运算器,无需存下来。因此他们早早地根据这个逻辑设计TPU了。今天发布的Gemini是TPU第四代,第五代也出来了,估计下一代Gemini就使用第五代TPU了。
TPU虽然本身能力不如GPU,但架不住TPU可以大量采购。这个好比是狼群战术:一只狼打不过一个狮子,但一群狼可以和一群狮子斗,更何况狼的成本比狮子的成本更低。
谷歌宣称对于规模相当的系统,TPU v4可以提供比英伟达A100强1.7倍的性能,同时在能效上也能提高1.9倍,也就是同等比较下,功耗少一半。
TPU v4主要与Pod相连发挥作用,每一个TPU v4 Pod中有4096个TPU
v4单芯片,互连带宽在规模上是其他任何网络技术的10倍,每一个TPU v4 Pod就能达到1 exaFlOP级的算力,实现每秒10的18次方浮点运算,这相当于1000万台Laptop的算力,太恐怖了。
现在的电交换机都是根据每个数据包的“地址”进行投递的。但如果我都已经知道下面一大堆数据包,比如1万个,要去哪里,我就无需对每个数据包查地址,而是直接将整堆数据包切换过去, 这不仅是效率高、功耗低,而且延时也短。
OCS的核心芯片是MEMS的,这个和我们投影仪里的芯片工作原理一样:芯片上有很多小镜子,入射光打到小镜子上可以被镜子反射到不同的接收端口。
OCS上还会用到光环行器用来把OCS的交换能力翻倍。它通过对光纤的对传来实现扩容的目的。
顺便说一下,光环行器是个很冷门的光通讯器件,但我却熟悉得不得了。
现在Lumentum的光环形器就是我二十年前设计的。想想当时研发最困难的时候,所有的材料都到手就是做不出来样品,我们组里的工程师、隔壁组的工程师轮番上阵,都一一失败,终于在一个下午,我想起我几年前在产线上当操作员学到的一招,两年的辛苦,一下子拨云见日,阳光灿烂,真是欣喜若狂。
那是我人生中记忆最深刻的时刻之一。
不过,人类的技术是进步的,单个人的技术总是会落后的。当年研发环行器的时候,全行业就那么几个人懂设计。现在懂环形器的,全行业至少几千人了。
我总是拿我这个例子警示周围的人,我们都是吃青春饭的,不学习不奔跑就意味着被淘汰。
这么多年一直在冷宫的环形器,没想到现在突然在最热点的人工智能领域有用途了。
现在国内做环行器的独立公司不多了,珠海的三石园是最大的一家。
所以,纵观整个系统,我们也可以理解谷歌就是做了分布式安排,把单个能力很强的GPU换成多个专用能力的TPU,通过增强TPU之间的连接来实现整个集群的威力。打个比方,英伟达发展了大炮来攻击敌人,但现在敌人散开了,面对这种情形,一个大炮不如10个步枪更有效率。
不过,这么一搞,连接点就变多了很多。
Gemini第一版的一个集群最多可以做4096个。每64个TPU组成一个Cube(长宽高各4个),Cube内的通讯肯定是靠电通道,然后64个Cube组成一个Pod,里面有4096个TPU v4。
这比有256个GPU+CPU组合的GH200系统的复杂度高多了,并且连接的线路多多了。但好事情是原先我们要求高能力的处理器、高能力交换机和高速率的光模块,现在可以转化为很多低能力的器件。
比如原来要800G的光模块现在用8个100G了。虽然8个100G还是比1个800G更贵,但至少对芯片工业的要求低了很多,在800G光模块用的芯片供应不上的时候,100G光模块用的芯片就可以发挥作用。
再比如原来我们需要用光模块外加光缆的组合的地方,现在可以不用了,而采用便宜的有源光缆(AOC)进行替代。
同理,Spin交换机里有ASIC芯片,最近也供应不上,但现在转为OCS。
这增加了OCS里面零部件的供应。
虽然OCS里面的零件也不是很容易制造的,并且价值量比较低,但好歹还是克服一下困难造出来的。
比如MEMES芯片,被Lumentum收购的Neo Photonics、硅谷的Dicon做的不错。
而透镜和基板这种玻璃件,像深圳的天阳谷就是老牌的供应商。
OCS用的跳线,深圳爱德泰是云厂的主力供应商。
光纤连接器,江苏宇特亦是业内主力供应商。
光纤光缆的龙头就是长飞了。
上面这些公司都已经上市或者在准上市状态,OCS在云厂的应用,都给他们带来了增长的机会。