與此同時,離散擴散大語言模型(dLLM)成為(wéi )有潛力的語言建模的非自回歸替代。不像以(yǐ )因果(guǒ )方式逐 token 生成文本的自回歸模型那樣,dLLM 通過迭代去噪過程生成(chéng )文本,在多步驟操作中優(yōu)化序列的同時(shí )并通(tōng )過雙向注(zhù )意力利(lì )用過去和(hé )未(wèi )來的上下文。其(qí )中,LLaDA 等開(kāi )放的掩(yǎn )碼 dLLM 實現(xiàn)了媲美同(tóng )尺寸自回歸(guī )模型的(de )性(xìng )能,而 Mercury 等閉源 dLLM 進(jìn)一步展現(xiàn)(xiàn )了出色的推理延遲(chí )。
版權(quán)所有 ? 2025 青龍影院 保留所有權(quán)利