diffu-GRPO 在所有 12 種(zhǒng )設(shè)置中都一(yī )致優(yōu)于基(jī )礎(chǔ)(chǔ )的(de ) LLaDA 和 SFT(監(jiān)督式(shì )微調(diào))。diffu-GRPO 和 SFT 都相較于 LLaDA-8B-Instruct 基(jī )線有所提升,但 diffu-GRPO 顯示出更持續(xù)且幅度更大的增(zēng )益。具體來說(shuō ),diffu-GRPO 在所有 12 種設(shè)置中都優(yōu)于 LLaDA-8B-Instruct 和 SFT,而 SFT 僅在其中的 7 種設(shè)置(zhì )中優(yōu)于 LLaDA-8B-Instruct,這表明(míng )diffu-GRPO 相比于單獨(dú)(dú )的(de ) SFT 實(shí)現(xiàn)了更強(qiáng)的整(zhěng )體性能提升。
版權(quán)所有 ? 2025 青龍影院 保留所有權(quán)利