LLaDA+diffu-GRPO 在所有設(shè)(shè )置中都優(yōu)于基礎(chǔ)的(de ) LLaDA-8B-Instruct 模型,而 d1-LLaDA 在每種情況下都超過了(le ) LLaDA+SFT。這表(biǎo )明,無論初始化是來自預(yù)訓(xùn)練模型還是經(jīng)過 SFT 調(diào)整的檢(jiǎn )查點(diǎn)(diǎn ),diffu-GRPO 都能(néng )提供可靠的(de )性能提(tí )升。
版權(quán)所有 ? 2025 青龍影院 保留所有權(quán)利