登录注册
特斯拉DOJO深度解析
金融民工1990
长线持有
2023-09-21 21:41:53

特斯拉DOJO深度解析20230921

专家介绍

OO主要是特斯拉用于云端训练的一入超级计算机,设计自的是为了能够处理大量的数据

整体架构:分成6入层级,从内核、芯片、瓦片、模组,机柜,超算机群。

1.最底层的架构就是内核,1D1芯片上有354个内核,1入内核包含了4个主要的部分:

标量处理单元,这入是有点像英伟达里面的CUDA口,一个标量处理单元主要包含两入部分:AGU和ALU。AGU主要作用就是去访可内存地址。ALU是一个运算处理器。

●向量处理单元,针对图像卷积运算来设置的一个单元,共有4线程这个部分是整个节点最重要的一个部分,也是占了最大面积的一个电路设计单元。

·SRAM,是CPU的一个内存。因为D1主要是针对AI的并行计算做了优化,所以它省略掉了原来CPU设计重面的一些二级缓存,这些设置直接在CPU的旁边放一个Sram,自的主要就是为了更靠近CPU,从而减少数据传输的延迟和带宽的限制,使得数据量的吞吐能够达到最大化。

·NOCU,可以理解为是一个片上路由器,它主要是为了在不同的节点之间信息数据的交互

2.芯片:以上4个部分就组成了DOJO1个节点的主要结构,可以理解为它是1个完整的1个CPU,具有独立的运算能力。354入节点就是组成了1个D1,

3.Tier:25个D1组成了一个Tier,Tier在25个Dl芯片之外,会有40个IO芯片(它主要是为了进行Tier之间的数据交互),整体的Tier之间的数据交互,单向是4.54Gb/s,双向数据交互全传输速度能够达到9GB/s。

4.模组:6个Tier组成一个模组,模组之间主要是使用把板间通讯,为所以一入dip的接口会把32GB的HBM内存集成在一个卡上,也就是Pcle的一个板权卡上,每1入Tier会外接5入这样的卡,然后所有的他要计算出来的数据都会存储在hbm里面,然后hbm也可以通过GDP的协议,在一个模组的不同Tier之间进行共享。不同的模组需要通过用到交换机,也就是跨以太网的方式来进行数据分析

5.机柜两个模组构成1入机柜

6.超算机群:10个机柜构成1个超算机群。

封装成本高:比较高,主要是因为它用到了合积电的Intosow技术,这个是一个系统级的封装技术,然后它现在的良品率还不是很高,所以会导外进行出售的。Infosow是台积电最好的工装技术,全球唯一客户就是特斯拉

商业模式:特斯拉更有可能采用的方式可能是对外租赁自已的超算集群,Q:从单位的算力成本角度来讲,都有它的是否能够带来算力成本的一个节省

A:比如说以A100这样的一入芯片来对比的话,单个D1芯片比A100高,因为他和A100的整体的架构是完全不一样的,是为了A的并行计算来进行设计的,所以他在处理AI的信息计算方面的效率会提高很多,这个是因为处理不同的任务带来了不同的一些性能,

Q:D1和A100产品对比?

A:D1算力362flops,A100算力312flops,D1在处理图像卷积方面的效率会更高,但是a100通用性会更强一点,这个是要看他们处理不同的任务来定义的。

Q:国内的企业介入的机会?

A:交换机、内存可能有机会。

Q:自动驾驶和人性机器人通用性?

A:机器人场景更复杂,对应的视频数据也更难获得。

Q:国内车企能对标特斯拉的有哪些?

A:华为、小鹏、理想

Q:特斯拉为什么既需要D1又囤货H100

A:D1自前还没有完全搭建成,但是特斯拉的端到端的自动驾驶系统已经快要上线了,所以他为了他必须要去应对这方面的需求

Q:明年1.1亿ops对应D1的比例?

A:完全是D1。目标建91个集群

Q:D1能不能向CUDA一样支持主流人工智能算法框架

A:可以。但是在处理图像之外的任务可能效率不高

Q:台积电INFO和COWOS区别?

A:infosw相当于载体,它消除了对衬底和PCB的使用,在一个紧凑的系统里紧密的包装多个芯片阵列,使解决方案它能够获得晶圆级的优势比如说低延迟的芯片间通信,高带高带宽密度和低阻抗等等,获得更强大的这种计算性能和电源这种效率。现在良品率不高,导致成本高。

Q:D1会超过英伟达么?

A:我觉得不会,因为本身他们的一个芯片的设计的出发点是不一样的。

然后特斯拉的这种芯片它也短期内应该也不会去进行对外销售。

Q:一个DOJO需要多少sram和HMB

A:Sram1320GB,HMB30入*32GB=960GB

Q:DOJO算力提升需求和增幅?

A:一方面是特斯拉实际业务端需求,包括自动驾驶和机器人。另一方面受制于芯片量产速度。今年预估有4-5万片D1芯片,后续有D2芯片。

A:视觉领域其实就是为了从图像里面提取特征,所以我们用到的是那种卷积运算,它在自己的每一个节点里面都内置了4线程的一个上乘法器所以然后它提升了芯片之间的这样一个传输速度,使得卷积运算可以大量的并行计算,而且能够把提取到的特征进行更高速度的共享。这样的话在人工神经网络里面,它能够更快的完成对一图像的特征提取。

Q:D1的互联带宽天概比英伟达的NVLInk的这种方案的话高多少?

A:我只能说他自己本身的带宽,像Tier之间的话就是9GB每秒,然后Tier和DIP之间的话是4.5tb每秒,是通过特斯拉的GDP协议来进行传输

Q:什么特斯拉去选择自产,而不是可能采用英伟达或者是去定制的一款芯片

A:一方面有历史因素,最开始的时候特斯拉在开发自动驾驶的时候它其实也和英伟达进行了一段时间的合作,但是两家本身对于芯片的理念就不太一样。英伟达它主要是为了通用的AI芯片来进行自已产品的布局的,但是特斯拉来说它只需要一个在视觉领域的芯片专用的一个视觉处理芯片,所以这类的英伟达这类芯片对于它视觉图像视觉数据的处理本身就是存在一些特斯拉并不或者说不满意的一些局限性

另一方面,因为英伟达它的供货量本身就会有一些限制,所以突发这样一种算力需求,因为它并不一定能够完全满足它,使使得它发挥很依赖于英伟达的一个供货。

Q:今年明年产能?

A:7月到年底预期产量大概到4万左右,年化下来可能8万左石。但是因为因封装技本身它会有比较高的这种不良品率,能不能达到这样一人产量规模还我还得就是还得看实际的情况了。

Q:D2升级的点在哪里

A:我个人认为的话它主要是增加它的在D1里面的内核的数量,然后它会把卷积计算器的线程数可以增加现在是4层CPU里面对它的大花板是88线层的,所以我觉得可能会再增加。其他的像静态内存sram可能会在125MB的基础上去增加,

 


作者利益披露:转载,不作为证券推荐或投资建议,旨在提供更多信息,作者不保证其内容准确性。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
万丰奥威
S
天通股份
S
拓普集团
工分
0.86
转发
收藏
投诉
复制链接
分享到微信
有用 0
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
暂无数据