與此同時(shí)(shí ),離散擴(kuò)散大語言模型(dLLM)成為有(yǒu )潛力的語言建模的非自回歸替代。不像(xiàng )以因(yīn )果(guǒ )方式(shì )逐 token 生成文本的自回歸(guī )模(mó )型那(nà )樣,dLLM 通(tōng )過迭代去噪過程生成文本,在多步驟操作中優(yōu)化(huà )序列的同時(shí)并通過雙向注意力利(lì )用過去(qù )和未來的上下文(wén )。其(qí )中,LLaDA 等開(kāi )放的掩碼 dLLM 實(shí)現(xiàn)了(le )媲美同尺寸自(zì )回歸模型的性(xìng )能,而 Mercury 等閉(bì )源 dLLM 進(jìn)一步展現(xiàn)了出色(sè )的推理延遲(chí )。
版權(quán)所有 ? 2025 青龍影院 保留所有權(quán)利