定性結(jié)果表(biǎo )明,在(zài ) SFT 和 d1-LLaDA 生成中(zhōng )出現(xiàn)了頓悟時(shí)刻。盡管與 LLaDA-8B-Instruct 相(xiàng )比,生成序(xù )列長(zhǎng)度(dù )為 128 和 256 的性能隨著 SFT、diffu-GRPO 和 d1 有所提(tí )高,但(dàn )從質(zhì)的方(fāng )面(miàn )看(kàn ),在生成的推理軌跡(jì )中并未觀察到顯著差異。然而當(dāng)序列長(zhǎng)度達(dá)到 512 時(shí),該研究開(kāi)(kāi )始觀察到 SFT 和 d1-LLaDA 模型展現(xiàn)出(chū )兩種關(guān)鍵能力:自我修(xiū )正機(jī)制和回溯行為。
版權(quán)所有 ? 2025 青龍影院 保留所有權(quán)利