與此同時(shí),離散擴(kuò)散大語(yǔ)言模型(dLLM)成為有(yǒu )潛力的語(yǔ)言建模的非自回歸替代。不(bú )像以因果方(fāng )式逐 token 生成文本的自回歸模型那樣,dLLM 通過(guò)迭代去噪過(guò)程生成(chéng )文本,在多步驟操作中優(yōu)化序(xù )列(liè )的(de )同(tóng )時(shí)(shí )并通過(guò)雙向注意力利用過(guò)(guò )去(qù )和未(wèi )來(lái)的上下文。其中,LLaDA 等開(kāi)(kāi )放的掩(yǎn )碼(mǎ ) dLLM 實(shí)現(xiàn)了媲美同尺寸自回歸模(mó )型的性能,而 Mercury 等閉(bì )源 dLLM 進(jìn)(jìn )一步展現(xiàn)了出色的推理(lǐ )延遲。
版權(quán)所有 ? 2025 青龍影院 保留所有權(quán)利