在實(shí)驗(yàn)(yàn )部分,研(yán )究(jiū )者使用 LLaDA-8B-Instruct 作為基礎(chǔ)模型實(shí)例化 d1。他們將 d1-LLaDA 的性(xìng )能與基(jī )礎(chǔ) LLaDA 模型以及僅使(shǐ )用 SFT 和僅使(shǐ )用 diffu-GRPO 訓(xùn)練的 LLaDA 模(mó )型進(jìn)(jìn )行比較(jiào )。結(jié)果表明,d1 在四個數(shù)學(xué)(xué )和邏輯推(tuī )理基準(zhǔn)測(cè )試中始終優(yōu)于基礎(chǔ)模型,如下(xià )圖(tú ) 1 所示。d1-LLaDA 同樣優(yōu)于僅使用 SFT 方法和僅使(shǐ )用 diffu-GRPO 方法的模型。
版權(quán)所有 ? 2025 青龍影院 保留所有權(quán)利