試驗(yàn)均采用200G的RDMA網(wǎng)卡和GPU訓(xùn)(xùn )練(liàn )卡,使用All Reduce算子。在不同的智算場景(jǐng )下,將本方案與傳統(tǒng)(tǒng )ECMP方案(àn )進(jìn)行對比。試驗(yàn)結(jié)果顯示(shì ),當(dāng)QP會話數(shù)(shù )固(gù )定時(shí ),從32卡到128卡,隨著算(suàn )力規(guī)模的增(zēng )加,傳統(tǒng)的ECMP方案因哈希不均(jun1 )導(dǎo)致?lián)砣?sāi )概率和(hé )性(xìng )能劣化加劇,而(ér )基于分布式解耦的網(wǎng)絡(luò)能力增強(qiáng)技術(shù)方案因采用信元交換機(jī)制避免(miǎn )了擁塞(sāi )的產(chǎn)生,帶寬利用率相對(duì )穩(wěn)(wěn )定,約為95%,更適用于大規(guī)模的AI訓(xùn)練;當(dāng)算力規(guī)模固定,QP會話較少時,基(jī )于分布式解(jiě )耦的網(wǎng)絡(luò)能力增強(qiáng)技術(shù)方(fāng )案的優(yōu)勢比較明顯,負(fù)載均衡的效果更(gèng )優(yōu),可較(jiào )好(hǎo )地適用于商用場景。
版權(quán)所有 ? 2025 青龍影院 保留所有權(quán)利