RL 算法適應(yīng)掩碼 dLLM 面臨一些獨(dú)特的挑戰(zhàn),原因(yīn )在于自回歸模型(xíng )采用的已有方法(如 PPO、GRPO)通(tōng )過計(jì)算生成序列的對數(shù)概率(lǜ )來估(gū )計(jì)和優(yōu)化策略(luè )分(fèn )布,導(dǎo)致無(wú )法直接應(yīng)用(yòng )于 dLLM。雖然這種計(jì)(jì )算在自回(huí )歸模型中通過序列因式分解很容易(yì )實(shí)(shí )現(xiàn),但 dLLM 由于(yú )它們的迭代、非序列生成過程(chéng )而缺乏這種(zhǒng )自(zì )然分解。
版權(quán)所有 ? 2025 青龍影院 保留所有權(quán)利