diffu-GRPO 在所有 12 種設置中都一致優(yōu)于基礎的(de ) LLaDA 和 SFT(監(jiān)督式微調(diào))。diffu-GRPO 和(hé ) SFT 都相較(jiào )于 LLaDA-8B-Instruct 基線有(yǒu )所(suǒ )提升,但 diffu-GRPO 顯示出(chū )更持續(xù)且幅度(dù )更大的增益。具(jù )體來說(shuō ),diffu-GRPO 在所有 12 種設置(zhì )中都優(yōu)于(yú ) LLaDA-8B-Instruct 和 SFT,而(ér ) SFT 僅在其中的 7 種設(shè )置中優(yōu)于 LLaDA-8B-Instruct,這表明diffu-GRPO 相比于單獨的 SFT 實現(xiàn)了更強的整體性能提升。
版權所有 ? 2025 青龍影院 保留所有權利