信而泰CCL仿真:解锁AI算力极限,智算中心网络性能跃升之道

责任编辑:王鹤迦 2025.02.25 15:08 来源:通信世界全媒体

通信世界网消息(CWW)随着AI大模型训练和推理需求的爆发式增长,智算中心网络的高效性与稳定性成为决定AI产业发展的核心要素。信而泰凭借自主研发的CCL(集合通信库)评估工具DarYu-X系列测试仪,为智算中心RoCE网络提供精准评估方案,助力企业突破算力瓶颈,释放AI澎湃动力。

智算中心(AIDC,Artificial Intelligence Data Center)是专门为人工智能应用提供算力支持的高性能数据中心,是人工智能技术与云计算、大数据、物联网等现代信息技术深度融合的产物。它基于最新的人工智能理论,采用前沿的计算架构,为AI模型的训练、推理和应用提供强大的算力服务、数据服务和算法服务。

对智算中心的RoCE网络进行评估测试,是为了确保其能够高效、稳定地支持大规模AI训练任务。具体原因包括:

验证性能:确保网络具备低延迟、高吞吐量,满足智算中心对高性能的需求。

优化可靠性:通过测试发现潜在问题,提升网络的稳定性和容错能力。

成本效益:评估RoCE网络的性价比,选择最优方案。

支持分布式训练:验证网络在大规模分布式AI任务中的表现,优化数据传输效率。

指导运维:提前发现问题,优化运维策略,减少故障风险。

智算中心网络评估工具-CCL

使用集合通信流量来评估智算中心网络的RoCE(RDMA over Converged Ethernet)性能,主要有以下几个原因:集合通信是智算中心的关键特征:智算中心的业务(如AI大模型训练)依赖于高度同步的集合通信操作(如AllReduce、Broadcast),这些操作要求低延迟和高带宽的网络支持。集合通信对网络性能要求极高:集合通信操作(如AllReduce)需要高吞吐量和低延迟,RoCE通过RDMA机制能够显著降低通信延迟并提高带宽利用率。RoCE性能直接影响智算中心效率:RoCE网络的性能直接影响分布式训练任务的通信效率,进而影响整个智算中心的加速比和效率。集合通信流量能够全面评估RoCE性能:集合通信涵盖了多种通信模式(如点对点、广播、多点通信),能够全面测试RoCE网络的带宽、延迟、拥塞控制和负载均衡能力。RoCE在智算中心的广泛应用:RoCE技术因其开放性、互操作性和成本效益,在智算中心中广泛应用。评估其性能有助于优化配置,提升整体性能。如何使用仪表CCL评估智算网络

使用信而泰Renix软件平台提供的CCL Traffic Emulation向导,测试配置实现通过向导配置,生成复杂的训练流量。针对不同AI训练数据包,评估在非拥塞网络、拥塞网络各项指标。对比网络正常和网络故障情况下各项组网指标,比如任务时间、训练时间、算法带宽、总线带宽、收发报文数量、时延、抖动、乱序等关键数据。

9f3fe54d2ca4f06f370d3d31491f162b.png

通过使用仪器仪表模拟GPU通信,可以有效降低测试成本,同时简化AI测试的复杂性和维护难度。这种方法使AI测试从传统的搭建真实服务器和使用价格高昂的GPU来测试RoCE交换机,转变为利用通用仪表仪器进行测试。这一转变不仅大幅节省了测试成本,还统一了验证规范,为国产AI的崛起提供了有力支持。以下以8卡400G GPU模型训练为例,对比Ring Allreduce模型在非拥塞和拥塞网络环境下不同数据量(Data Size)的参数表现。通过实际数据对比,可以直观地体现CCL(Collective Communication Library,集合通信库)在评估网络性能方面的重要意义。

CCL指标

如下图所示,使用Ring Allreduce在不同训练任务在非拥塞网络中体现。

636b1959897643466311395b4afcf17b.png

如下图所示,使用Ring Allreduce不同训练任务在拥塞网络(PFC)中体现。

72d959abb2d33b93244de67fd8f757df.png

如下图所示,使用Ring Allreduce不同训练任务在拥塞网络(ECN+DCQCN)中体现。

faf45ac9371bf2e99decfc4a8b02d869.png

Latency and Jitter by Data Size指标

如下图所示,使用Ring Allreduce在不同训练任务在非拥塞网络中体现。

44f2db6ee970eb4dfe08b4da667cad94.png

如下图所示,使用Ring Allreduce不同训练任务在拥塞网络(PFC)中体现。

8a0c0e392194e4a23b46f723368ca93f.png

如下图所示,使用Ring Allreduce不同训练任务在拥塞网络(ECN+DCQCN)中体现。

0e43db459bb398279342b0bca8320b7c.png

对比不同场景下训练时间(无拥塞/拥塞+PFC/拥塞+ECN/DCQCN)。

image.png

5cae4bb014f674ac61d0464cbd7fc545.png

对比不同场景下算法带宽(无拥塞/拥塞+PFC/拥塞+ECN/DCQCN)。

image.png

75c78ae94abd380835e3a442440af72b.png

对比不同场景下总线带宽(无拥塞/拥塞+PFC/拥塞+ECN/DCQCN)。

image.png

477d974b7afcfb0838d713a3e5dc4f16.png

通过信而泰Renix软件平台的CCL Traffic Emulation功能,能够精确评估RoCE网络的关键指标,为AI网络的评估提供精细化数据支持。对比实验的结果可全面评估RoCE交换机的性能。该方案通过模拟真实AI工作负载,能够在复杂流量和大规模组网场景下,全面测试RoCE交换机的性能表现,并精准识别组网瓶颈,提升评估的精确性和实用性。

高密度智算网络测试解决方案

信而泰推出的X2-100G-12QSFP28、X5-400G高密度智算非拥塞网络(ROCEv2)测试仪是一款专为高端路由器、交换机以及数据中心交换机设计的高密度测试平台。该测试平台充分满足运营商、网络设备制造商和企业用户在高速以太网和智能计算网络测试业务中对增长和未来发展的需求。其高密度设计使得它在有限的空间内提供强大的测试能力,是应对未来网络挑战的理想选择。

客户价值

超高密度:单机支持400G/200G/100G多速率,12端口灵活配置;全协议兼容:支持RoCEv2、标准以太网,适配异构网络环境;智能化测试:一键生成复杂流量模型,3分钟完成网络健康度诊断。

image.png

通信世界网版权及免责声明:
1、凡本网注明“来源:通信世界全媒体”及标有原创的所有作品,版权均属于通信世界网。未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载我方内容的单位,也必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和本站来源。
2、凡本网注明“来源:XXX(非通信世界网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的,请在相关作品刊发之日起30日内进行。
发表评论请先登录
...
热点文章
    暂无内容