在實(shí )驗部分,研究者使用 LLaDA-8B-Instruct 作為基礎模型實例化 d1。他們將 d1-LLaDA 的(de )性能與基礎 LLaDA 模(mó )型以及僅使用 SFT 和僅使用 diffu-GRPO 訓(xùn )練的(de ) LLaDA 模型進行比(bǐ )較(jiào )。結果(guǒ )表明,d1 在四個數(shù)學(xué )和邏輯推理(lǐ )基(jī )準測試中始終(zhōng )優(yōu)于(yú )基(jī )礎模型,如(rú )下圖 1 所示。d1-LLaDA 同樣優(yōu)于僅使用(yòng ) SFT 方法和僅(jǐn )使用 diffu-GRPO 方法的(de )模型。
版權所有 ? 2025 青龍影院 保留所有權利