RL 算法適應掩碼 dLLM 面臨一些獨特的挑戰(zhàn),原因在于自回歸模型采用的(de )已有方法(如 PPO、GRPO)通過(guò )計(jì )算生成序列(liè )的(de )對數概率來(lái )估計和優(yōu)(yōu )化策(cè )略分布(bù ),導致(zhì )無法直接應用于 dLLM。雖然這種(zhǒng )計算在自回歸模型中通(tōng )過序列因(yīn )式分(fèn )解很容易實現(xiàn ),但 dLLM 由于它們的迭代、非序列生成過程而缺乏這種(zhǒng )自然分解。
版權所有 ? 2025 青龍影院 保留所有權利