RL 算法適應(yīng)(yīng )掩碼 dLLM 面(miàn )臨一(yī )些獨(dú)(dú )特(tè )的挑戰(zhàn),原因在于自回歸(guī )模型采(cǎi )用的已有方(fāng )法(如 PPO、GRPO)通(tōng )過計(jì)算生成序列的對(duì)數(shù)概(gài )率(lǜ )來估計(jì)和(hé )優(yōu)化策略分(fèn )布,導(dǎo)致無法直接應(yīng)用于 dLLM。雖(suī )然這種計(jì)(jì )算在自回歸模型中通過序列因式分解很容易實(shí)現(xiàn),但 dLLM 由于(yú )它(tā )們的迭代、非序(xù )列生成過程而缺乏這種自然分解。
版權(quán)所有 ? 2025 青龍影院 保留所有權(quán)利