在實(shí )驗部(bù )分,研究者使用 LLaDA-8B-Instruct 作為基礎模(mó )型實(shí )例化(huà ) d1。他(tā )們將(jiāng ) d1-LLaDA 的性(xìng )能與(yǔ )基礎 LLaDA 模型以及僅使用 SFT 和僅使用(yòng ) diffu-GRPO 訓練的 LLaDA 模型進行比較。結果表明,d1 在(zài )四個數(shù)學和邏輯推理基(jī )準測試中(zhōng )始終優(yōu)于基礎模型,如下(xià )圖 1 所示。d1-LLaDA 同樣(yàng )優(yōu)于僅使用(yòng ) SFT 方法和僅使用 diffu-GRPO 方法的(de )模型。
版權所有 ? 2025 青龍影院 保留所有權利