定(dìng )性結(jié)果(guǒ )表(biǎo )明,在 SFT 和(hé ) d1-LLaDA 生成(chéng )中出現(xiàn)了頓悟時刻。盡管與(yǔ ) LLaDA-8B-Instruct 相比,生成序列長度為 128 和 256 的(de )性(xìng )能(néng )隨著 SFT、diffu-GRPO 和(hé ) d1 有所提高,但(dàn )從質(zhì)(zhì )的方面看,在生成的推理軌跡中并未觀(guān )察到顯著差異(yì )。然(rán )而(ér )當(dāng)序列長度達到 512 時(shí ),該研究開始觀察到(dào ) SFT 和 d1-LLaDA 模型展現(xiàn)出兩種關(guān)鍵能力:自我修正機制和回溯行為。
版權(quán)所有 ? 2025 青龍影院 保留所有權(quán)利