LLaDA+diffu-GRPO 在所有(yǒu )設(shè)置(zhì )中都優(yōu)于基礎(chǔ)(chǔ )的 LLaDA-8B-Instruct 模型,而 d1-LLaDA 在每種(zhǒng )情況下都超過(guò)了 LLaDA+SFT。這表明(míng ),無(wú)論初始(shǐ )化是來(lái)自預(yù)訓(xùn)練模(mó )型還是經(jīng)過(guò)(guò ) SFT 調(diào)整的檢查點(diǎn),diffu-GRPO 都能提供可靠的性能提(tí )升。
版權(quán)所有 ? 2025 青龍影院 保留所有權(quán)利