這并不意(yì )味著 OpenAI 故意撒謊,該公(gōng )司(sī )在 12 月份公布的基準(zhǔn)測(cè)(cè )試結(jié)果中(zhōng )也包含了一個(gè)與 Epoch 測(cè)試結(jié)果相符的較低(dī )分?jǐn)?shù)。Epoch 還指出,其測(cè)試設(shè)置可(kě )能與 OpenAI 有所(suǒ )不同,并且其評(píng)估使(shǐ )用了更新版(bǎn )本的 FrontierMath。Epoch 在報(bào)告中寫道(dào ):“我(wǒ )們與(yǔ ) OpenAI 的結(jié)果(guǒ )差異可能是因?yàn)?OpenAI 在內(nèi)部評(píng)估時(shí)(shí )使用了更強(qiáng)(qiáng )大的計(jì)算框架、更多的測(cè)試時(shí)計(jì)算資源,或者是(shì )因?yàn)檫@些結(jié)果是(shì )在 FrontierMath 的不同子(zǐ )集上運(yùn)行(háng )的(de )(例如 2024 年(nián ) 11 月(yuè ) 26 日版本(běn )的 180 個(gè)(gè )問(wèn)題與 2025 年 2 月 28 日私有版本的 290 個(gè)問(wèn)題)?!?
版權(quán)所有 ? 2025 青龍影院 保留所有權(quán)利