RL 算法適(shì )應(yīng)掩碼 dLLM 面臨一些獨特的挑戰(zhàn),原因(yīn )在于自(zì )回歸模型采用的(de )已有(yǒu )方法(如(rú ) PPO、GRPO)通過計算生成序列的對數(shù)概率來估(gū )計和優(yōu)(yōu )化策略分布(bù ),導(dǎo)致無法直接(jiē )應(yīng)用于 dLLM。雖然這(zhè )種計算在自回歸模型中通過(guò )序列因式分(fèn )解(jiě )很容易(yì )實現(xiàn),但 dLLM 由于它們(men )的迭代、非序列(liè )生成過程而缺乏(fá )這種自然分(fèn )解。
版權(quán)所有 ? 2025 青龍影院 保留所有權(quán)利