RL 算法適應(yīng)掩碼 dLLM 面臨一些獨(dú)(dú )特的挑戰(zhàn),原(yuán )因在于自(zì )回歸模型采用的已有方(fāng )法(如(rú ) PPO、GRPO)通過(guò)計(jì)算生成序列的對(duì)數(shù)概(gài )率來(lái)估計(jì)和(hé )優(yōu)化(huà )策略分布(bù ),導(dǎo)(dǎo )致無(wú)(wú )法直接應(yīng)用于 dLLM。雖然這種計(jì)(jì )算在自回歸模型(xíng )中通過(guò)序列因式分解很容(róng )易實(shí)現(xiàn),但 dLLM 由于它們的迭代、非序列生成過(guò)程而缺乏這種自(zì )然分解(jiě )。
版權(quán)所有 ? 2025 青龍影院 保留所有權(quán)利