热议: Ethernet、InfiniBand 和 NVLink
不知道怎么了,最近几天讨论Ethernet、InfiniBand 和 NVLink突然火了起来。其中陆博士的文章被广泛转发。
这篇文章深入细致地分析了nvidia AI集群系统的方方面面,内容详实,专业且深入,确实值得各位仔细阅读消化吸收。
不过呢,从文字中我可以猜出来,陆玉春博士应该是硬件方面的一名专家,对AI系统、算法、软件了解不够。我从他缺失的几个方面,补充和纠正他文中的一个关键观点。
按照陆博士的理解,Ethernet、InfiniBand发展比NVLink慢,原因在于NVLink是近距离互联,可以利用铜缆互联的成本、功耗、封闭等优势,快速推出解决方案。而前两个受到光模块、交换机等牵制,自然就慢了。
而事实呢? 恰恰相反。
一,Ethernet、InfiniBand 和 NVLink的分工合作
二,Ethernet
AI 集群中,各个CPU互联起来组成一张传统的Ethernet网。如果把GPU集群比喻成一个舞台,GPU在里面唱戏,那么 CPU和以太网就是后台的剧务,他们负责把客人请进来,端茶倒水,协调后台各项工作,让整个演出井然有序。
这张网络需要的流量并不是很大。当然,随着AGI向视频等高带宽应用渗透,以太网也有提速的需求。
所以,以太网的速率没有Nvlink和InfiniBand大,并非陆博士所言技术不Ready,而是从业务实质的需求出发,根本不需要那么快。这也是为啥2023年前整个光模块市场平平淡淡,而AI来后一夜之间火爆的原因。
三、AI集群系统的并行计算和 InfiniBand、NVLink的关系
模型并行(Model Parallelism)和数据并行(Data Parallelism)是在训练大型深度学习模型时常用的两种并行计算策略。它们旨在通过分布式计算,加速训练过程并处理大量数据和复杂模型。
1. 模型并行(Model Parallelism)。 在模型并行中,一个大型的神经网络模型被分割成多个部分,每个部分在不同的设备(如不同的GPU或服务器)上运行。每个设备负责计算模型的一部分,并将其结果传递给其他设备,最终合并得到整体的模型输出。模型并行主要用于处理模型太大而无法完全装入单个设备内存的情况。
2. 数据并行(Data Parallelism)。 在数据并行中,多个设备同时处理不同的数据批次,每个设备上的模型参数保持相同。数据并行适用于处理大量数据集的情况,每个设备在不同的数据批次上进行计算,并通过平均梯度来更新共享的模型参数。这有助于加快训练速度,尤其是在大规模数据集上。 数据并行的挑战在于如何高效地在设备之间传输模型参数和梯度,以及确保参数的同步更新。
所以,在AI集群系统中,scale up(纵向扩展)和scale out(横向扩展)是两种扩展方式,用于提升系统的性能和处理能力。
Scale Up(纵向扩展)-> 数据并行:Scale up是指通过增加单个服务器或节点的资源能力来提高系统性能和处理能力。这通常包括增加CPU核数、内存容量、存储容量等。
Scale Out(横向扩展)->模型并行: Scale out是指通过增加更多的服务器或节点来扩展系统,从而提高系统的整体性能和处理能力。这种方式也称为集群系统,多个节点通过网络相互连接,共同协作完成任务。
英伟达的集群技术,Scale Up由NVLink担当,Nvidia把它叫做Giant GPU,相当于把几十个GPU拼凑在一起形成一个大GPU,各个内存可以直接访问,所以带宽需求巨大。
而完成模型并行的Scale Out由InfiniBand担当,模型切分后,数据交互的数量和频道都少很多,延时的容忍度也大很多,所以,带宽的需求没有那么大。
NVLink : InfiniBand : Ethernet = 18:4:1。
再强调一次,这种带宽配比,源自架构和算法、软件的需求,而绝非陆博士所言的技术不可达。
四、挑战
前文所述,Ethernet的速率比InfiniBand低,InfiniBand的带宽比NVLink低,所以有NVLink在前面铺路,前两个平面基本不存在技术上的瓶颈,由于距离比较远,一直都是光互联的主战场,过去是,未来也会,其它通信技术也抢不走,只是光互联各种技术路径之争。
挑战主要在NVLink,因为带宽太大,延时、成本都极富挑战。所以,NVLink往往决定了AI集群系统的基本架构。 H100才用6U的DGX 8卡板内互联;B200才用NVL这种Rack内铜缆互联。 NVLink到目前为止,都是铜缆互联的天下(PCB走线、Rack走线)。
在AI数据中心,光互联、铜缆互联,各司其职,各有各的作用。
因为铜缆互联的各种瓶颈,未来的趋势是,光通信通过技术突破(硅光、OIO、CPO、LPO…)逐步走向NVLink域。
所以,如果要说竞争性替代,未来光的市场,无人来抢,而铜互联的市场,将受到光的蚕食。
五、总结
1、AI数据中心的Ethernet、InfiniBand、NVLink三套网络,各司其职,不存在谁替代谁的说法;
2、三套网络的速率相差较大,由架构和需求决定,绝非陆博士所言技术不可达;
3、AI算法的模型的并行计算,分模型并行和数据并行。模型并行度需求,推动InfiniBand市场空间;数据并行度需求,推动NVLink市场空间。所以InfiniBand和NVLink在未来都会按照自己的节奏增长。最近多模态、长时间的影像级视频等新应用,显著推动IB网络需求;而推理的快速发展,推动NVLink网络需求。他们的市场空间,均有AI算法和应用来决定。
4、因为数据并行的cost较高,在Sofa这类视频应用中,一些领先的厂家开始尝试将数据并行转化为模型并行,也就是通过scale out来替代成本更高的scale up并行。
5、光互联的空间,无人能撼动;铜互联的空间,未来受到光通信的挑战,并且不可避免。