定性結(jié)果表明,在(zài ) SFT 和 d1-LLaDA 生成中出現(xiàn)了頓悟(wù )時(shí)刻。盡管(guǎn )與 LLaDA-8B-Instruct 相(xiàng )比,生成序(xù )列長(zhǎng)度為 128 和 256 的性(xìng )能隨著 SFT、diffu-GRPO 和 d1 有所提(tí )高,但從質(zhì)的(de )方面看,在生成的推理軌跡中(zhōng )并未觀察到顯著差(chà )異(yì )。然而當(dāng)序列長(zhǎng)度(dù )達(dá)到 512 時(shí),該研(yán )究(jiū )開(kāi)始觀(guān )察到 SFT 和 d1-LLaDA 模(mó )型展現(xiàn)出兩種關(guān)(guān )鍵能力:自我修正機(jī)制和回溯(sù )行為。
版權(quán)所有 ? 2025 青龍影院 保留所有權(quán)利