RL 算法適應(yīng)掩碼 dLLM 面臨一些獨(dú)特的挑戰(zhàn),原因在于自回歸模型采用的已有(yǒu )方法(fǎ )(如 PPO、GRPO)通過計(jì)(jì )算(suàn )生成(chéng )序列的對數(shù)概率(lǜ )來估計(jì)和(hé )優(yōu)化策略分布(bù ),導(dǎo)致無法(fǎ )直接應(yīng)用于 dLLM。雖然這種(zhǒng )計(jì)算在自回歸模型中通過序列因式分(fèn )解(jiě )很容易(yì )實(shí)現(xiàn),但(dàn ) dLLM 由于它們的(de )迭代(dài )、非序列生(shēng )成過(guò )程而缺乏這種自然分解。
版權(quán)所有 ? 2025 青龍影院 保留所有權(quán)利