為了解決這些問(wèn)題,來(lái)自(zì ) UCLA 和 Meta AI 的研究(jiū )者提出了(le )一個(gè)(gè )兩階(jiē )段后訓(xùn)練框(kuàng )架 d1,從而可以在(zài )掩碼 dLLM 中進(jìn)行推理。在第一階(jiē )段,模型在高質(zhì)量推理軌跡中進(jìn)行監(jiān)督(dū )微調(diào);在第二即 RL 階段,研(yán )究者引入了用于掩碼 dLLM 的新穎策略(luè )梯度方法 diffu-GRPO,它(tā )利用提出(chū )的高效(xiào )一步(one-step)對(duì)數(shù)(shù )概率估(gū )計(jì)在 GRPO 的基礎(chǔ)上創(chuàng)(chuàng )建。
版權(quán)所有 ? 2025 青龍影院 保留所有權(quán)利