在實(shí)(shí )驗(yàn)部分,研究者(zhě )使用(yòng ) LLaDA-8B-Instruct 作為基礎(chǔ)(chǔ )模型(xíng )實(shí)例化(huà ) d1。他們將 d1-LLaDA 的性(xìng )能與(yǔ )基礎(chǔ) LLaDA 模(mó )型以及僅使用 SFT 和僅使用 diffu-GRPO 訓(xùn)練的 LLaDA 模型進(jìn)行比較。結(jié)果表明,d1 在四個(gè)數(shù)學(xué)和邏輯推(tuī )理(lǐ )基準(zhǔn)測(cè)試中始(shǐ )終(zhōng )優(yōu)于基礎(chǔ)模型,如下圖 1 所(suǒ )示。d1-LLaDA 同(tóng )樣優(yōu)于僅(jǐn )使用 SFT 方法和僅使用 diffu-GRPO 方法的模型。
版權(quán)所有 ? 2025 青龍影院 保留所有權(quán)利