diffu-GRPO 在所有 12 種(zhǒng )設(shè)置中都一致優(yōu)于基礎(chǔ)的(de ) LLaDA 和(hé ) SFT(監(jiān)督式微調(diào))。diffu-GRPO 和 SFT 都相較(jiào )于 LLaDA-8B-Instruct 基線有所提升,但 diffu-GRPO 顯示出更持續(xù)(xù )且幅(fú )度更大(dà )的增益。具體(tǐ )來說,diffu-GRPO 在所有(yǒu ) 12 種設(shè)置中都優(yōu)于 LLaDA-8B-Instruct 和 SFT,而 SFT 僅在其中的 7 種(zhǒng )設(shè)置中(zhōng )優(yōu)于(yú ) LLaDA-8B-Instruct,這(zhè )表(biǎo )明diffu-GRPO 相比于(yú )單獨(dú )的 SFT 實現(xiàn)了更強(qiáng)的整體性能提升。
版權(quán)所有 ? 2025 青龍影院 保留所有權(quán)利