在實(shí)驗(yàn)部分,研究者使用 LLaDA-8B-Instruct 作為基礎(chǔ)模型實(shí)例化 d1。他們將 d1-LLaDA 的性能與基(jī )礎(chǔ) LLaDA 模型(xíng )以及僅(jǐn )使用 SFT 和僅使用 diffu-GRPO 訓(xùn)練的 LLaDA 模型進(jìn)行比較(jiào )。結(jié)果表明,d1 在(zài )四個(gè)(gè )數(shù)學(xué)和邏輯推(tuī )理基準(zhǔn)測試中始終優(yōu)于基(jī )礎(chǔ)模(mó )型,如下圖 1 所(suǒ )示。d1-LLaDA 同樣優(yōu)于僅使(shǐ )用 SFT 方法和(hé )僅使用 diffu-GRPO 方法的模型。
版權(quán)所有 ? 2025 青龍影院 保留所有權(quán)利