在實(shí)驗(yàn)部分,研究者使(shǐ )用 LLaDA-8B-Instruct 作為基礎(chǔ)(chǔ )模型實(shí)例化 d1。他們將 d1-LLaDA 的性能與(yǔ )基礎(chǔ) LLaDA 模型(xíng )以(yǐ )及僅使(shǐ )用 SFT 和僅使用 diffu-GRPO 訓(xùn)練的 LLaDA 模型進(jìn)(jìn )行(háng )比較。結(jié)果(guǒ )表明,d1 在四個(gè)數(shù)學(xué)和邏輯推理(lǐ )基準(zhǔn)測(cè)(cè )試(shì )中始終優(yōu)于基礎(chǔ)模型,如下圖 1 所示。d1-LLaDA 同(tóng )樣優(yōu)于僅使用(yòng ) SFT 方法和(hé )僅使用(yòng ) diffu-GRPO 方法的模型。
版權(quán)所有 ? 2025 青龍影院 保留所有權(quán)利