與此同時(shí),離散擴(kuò)散大語(yǔ)言模型(dLLM)成為有潛(qián )力的語(yǔ)(yǔ )言建(jiàn )模的非自回(huí )歸替代。不像以因果方式逐(zhú ) token 生成文本的(de )自回歸模型那樣,dLLM 通過(guò)(guò )迭代去(qù )噪過(guò)程(chéng )生成文本,在多步驟操作中(zhōng )優(yōu)化序列的同時(shí)并通過(guò)雙向(xiàng )注意力利用過(guò)去和未來(lái)的(de )上(shàng )下文。其中,LLaDA 等開(kāi)放的掩碼 dLLM 實(shí)(shí )現(xiàn)了媲(pì )美同尺寸自(zì )回歸模(mó )型(xíng )的性(xìng )能,而 Mercury 等閉源 dLLM 進(jìn)一步展現(xiàn)了出色的推(tuī )理延遲。
版權(quán)所有 ? 2025 青龍影院 保留所有權(quán)利