定性結(jié)果表(biǎo )明,在(zài ) SFT 和 d1-LLaDA 生成中(zhōng )出(chū )現(xiàn)了頓悟時(shí)(shí )刻。盡管與 LLaDA-8B-Instruct 相比,生成序列長度為 128 和 256 的性能隨著 SFT、diffu-GRPO 和 d1 有所提高,但從質(zhì)(zhì )的方面看,在生成的推理軌跡中并未觀察到顯著差異。然而當(dāng)序列(liè )長度(dù )達(dá)到 512 時(shí),該研究(jiū )開始(shǐ )觀察(chá )到 SFT 和(hé ) d1-LLaDA 模型展(zhǎn )現(xiàn)出兩種關(guān)(guān )鍵能力:自(zì )我修正機(jī)制和(hé )回溯行為。
版權(quán)所有 ? 2025 青龍影院 保留所有權(quán)利