與此(cǐ )同時(shí)(shí ),離散(sàn )擴(kuò)散(sàn )大語(yǔ)言模型(dLLM)成為有(yǒu )潛力(lì )的語(yǔ)言建(jiàn )模的非自回歸替代。不像以因果方式逐 token 生成文(wén )本的自回(huí )歸(guī )模型那(nà )樣,dLLM 通過(guò)迭代去噪過(guò)程(chéng )生成文本,在多步驟(zhòu )操(cāo )作中優(yōu)化序列的同時(shí)并通過(guò)雙向注意力利用過(guò)去和未來(lái)(lái )的上下文。其中,LLaDA 等開(kāi)放的掩碼 dLLM 實(shí)(shí )現(xiàn)了媲美同尺(chǐ )寸自回歸模型的性(xìng )能,而 Mercury 等(děng )閉源 dLLM 進(jìn)一步展現(xiàn)(xiàn )了(le )出(chū )色的推理延遲。
版權(quán)所有 ? 2025 青龍影院 保留所有權(quán)利