在實(shí)(shí )驗(yàn)部分,研究者使用 LLaDA-8B-Instruct 作為基礎(chǔ)(chǔ )模型實(shí)例化 d1。他們(men )將 d1-LLaDA 的性能與基礎(chǔ) LLaDA 模型以及僅(jǐn )使用 SFT 和僅使用 diffu-GRPO 訓(xùn)練的 LLaDA 模型進(jìn)(jìn )行比較(jiào )。結(jié)果表明,d1 在四個(gè)數(shù)學(xué)和邏輯推理基準(zhǔn)測(cè)試中始(shǐ )終優(yōu)于基礎(chǔ)模型(xíng ),如下圖(tú ) 1 所示(shì )。d1-LLaDA 同樣(yàng )優(yōu)于僅使用(yòng ) SFT 方(fāng )法和僅使用 diffu-GRPO 方法(fǎ )的模型。
版權(quán)所有 ? 2025 青龍影院 保留所有權(quán)利