d1 訓練方(fāng )案實現(xiàn)了最顯著的性能提升。通過先進行監(jiān)(jiān )督微調(diào)(SFT)、再結(jié)(jié )合(hé ) diffu-GRPO 訓練所(suǒ )形(xíng )成的 d1-LLaDA 模型(xíng ),產(chǎn)生了超越單一方法(fǎ )的(de )疊加增益。這種組合(hé )式方法在 12 個實驗設(shè)置中有 11 項(xiàng )優(yōu)于純 diffu-GRPO 方案,表明兩個訓練階段(duàn )存在(zài )協(xié)同(tóng )效應(yīng)。
版權(quán)所有 ? 2025 青龍影院 保留所有權(quán)利