這并不意味著 OpenAI 故意撒(sā )謊,該公(gōng )司在(zài ) 12 月份公布的基準(zhǔn)測試(shì )結(jié)果中也包含(hán )了(le )一個與 Epoch 測(cè )試結(jié)果相符的較低分?jǐn)?shù)。Epoch 還指出,其測試設(shè)置可(kě )能與 OpenAI 有所不同,并且其評估使(shǐ )用(yòng )了更新版本的 FrontierMath。Epoch 在報(bào )告中(zhōng )寫(xiě )道:“我們與 OpenAI 的(de )結(jié)(jié )果差異可能是因?yàn)?OpenAI 在內(nèi)部評估時使用了(le )更強(qiáng)大的計(jì )算(suàn )框架、更多的(de )測試時計算資源,或者是因?yàn)檫@些(xiē )結(jié)果(guǒ )是在 FrontierMath 的不同子集(jí )上運(yùn)行的(例如 2024 年 11 月 26 日版本的(de ) 180 個問題(tí )與 2025 年 2 月 28 日私有版本(běn )的 290 個問題(tí ))?!?
版權(quán)所有 ? 2025 青龍影院 保留所有權(quán)利