試(shì )驗(yàn)均(jun1 )采用200G的RDMA網(wǎng)卡和GPU訓(xùn)(xùn )練卡,使(shǐ )用All Reduce算子(zǐ )。在不同的智算場(chǎng)景下(xià ),將本(běn )方(fāng )案與傳統(tǒng)ECMP方案進(jìn)行對(duì)比(bǐ )。試驗(yàn)結(jié)果顯(xiǎn )示,當(dāng)QP會(huì)話(huà )數(shù)固定時(shí),從32卡到128卡(kǎ ),隨著(zhe )算力規(guī)模的(de )增加,傳統(tǒng)的ECMP方案(àn )因哈希不均導(dǎo)致(zhì )擁塞概率和性能(néng )劣化加劇,而基(jī )于(yú )分布式解耦的網(wǎng)絡(luò)能力增強(qiáng)技術(shù)方案因采用信元交換機(jī)制避(bì )免了擁塞的產(chǎn)生(shēng ),帶寬利用率相(xiàng )對(duì)(duì )穩(wěn)(wěn )定,約為(wéi )95%,更適用于大規(guī)模的(de )AI訓(xùn)練;當(dāng)算力規(guī)模固定,QP會(huì)話較少時(shí),基于分布式解耦的網(wǎng)(wǎng )絡(luò)能力增強(qiáng)技術(shù)方案的優(yōu)勢(shì)比較明顯,負(fù)載均衡的效果更(gèng )優(yōu),可較好(hǎo )地適用于商用場(chǎng)(chǎng )景。
版權(quán)所有 ? 2025 青龍影院 保留所有權(quán)利