北大AI奧數評測，o1-mini比o1-preview分數還高

天天見聞 2024-10-15 教育閱讀: 19

摘要: Omni-MATH團隊投稿量子位 | 公衆号 QbitAI OpenAI的o1系列一發布，傳統數學評測基準都顯得不夠用了。 MATH-500，滿血版o1模型直接拿下94.8分。更難的奧數邀請賽AIME 2024，o1也獲得83.3%的準确率。随着現有的數學評測集逐漸被攻克，大家不禁開始好奇：大模型能否勝任更具挑戰性的數學競賽，甚至是奧林匹克數學競賽？為此，北京大學與阿裡巴巴的研究團隊聯合打造了一個專門用于數學競賽的奧林匹克評測基準——Omni-MATH。

Omni-MATH團隊投稿

量子位 | 公衆号 QbitAI

OpenAI的o1系列一發布，傳統數學評測基準都顯得不夠用了。

MATH-500，滿血版o1模型直接拿下94.8分。

更難的奧數邀請賽AIME 2024，o1也獲得83.3%的準确率。

随着現有的數學評測集逐漸被攻克，大家不禁開始好奇：大模型能否勝任更具挑戰性的數學競賽，甚至是奧林匹克數學競賽？

為此，北京大學與阿裡巴巴的研究團隊聯合打造了一個專門用于數學競賽的奧林匹克評測基準——Omni-MATH。

Omni-MATH專門用于評估大型語言模型在奧林匹克水平的數學推理能力。評測集共收錄了 4428 道競賽級别的問題。這些問題經過精心分類，涵蓋了 33 個（及更多）子領域，并且分為 10 個不同的難度級别，使得我們能夠對模型在各種數學學科和複雜程度上的表現進行細緻分析。

北大AI奧數評測，o1-mini比o1-preview分數還高

最新排行榜，競争非常激烈：

除去o1滿血版暫時還沒有放出API，作為小模型的o1-mini的表現最好，平均分比o1-preview還要高8%左右。

開源模型最好的是Qwen2-MATH-72b，甚至超過了GPT-4o的表現。

北大AI奧數評測，o1-mini比o1-preview分數還高

總的來說，o1-mini這種隻關注少部分能力、放棄存儲廣泛世界知識路線的優勢，再次得到驗證。

Omni-MATH：難度大、領域廣

Omni-MATH作為一個數學奧林匹克評測基準，它的特點有三個維度：

人工驗證答案的可靠性：4428道評測問題來自不同的數學競賽和論壇數據，人工參與驗證答案準确性；并且考慮到奧賽難度問題答案的多樣性提供了基于GPT4o和評測模型的評價方式，方便一鍵啟動評測。

清晰合理的難度分類：評測集整體比較有挑戰性，并且難度跨越非常大。從奧林匹克預備級别（T4）競賽CEMC到最頂級的奧林匹克數學競賽（T0）如IMO、IMC、普特南等等。這些比賽不僅需要選手具備紮實的數學基礎，還需要超高的邏輯推理能力和創造力。數據顯示，隻有極少數智商接近頂尖的人才能在這些比賽中取得優異成績。

題目類型非常廣：共有多于33個子領域的數學問題。根據數學領域的特性，團隊打造了樹狀的領域分類，每個題目涉及一到多個領域，也就是多條樹的路徑，使得我們能夠對模型在各種數學學科和困難程度上的表現進行細緻的分析。”

北大AI奧數評測，o1-mini比o1-preview分數還高

評測集Omni-MATH的構造數據構造

研究團隊首先對國内國外基本的奧林匹克數學競賽進行了細緻的調研。從中了解到，一個學生從競賽預備到頂級競賽，中間要經過層層選拔的。

比如對于英國體系，要經過JMC → IMC → SMC → BMO 1 → BMO 2 → IMO整個一層鍊路的選拔（這個IMC(Intermediate Mathematical Challenge)和上述IMC(international mathematical competition for university students)并不是一個比賽）；

然而在美國體系中，要經過AMC 8 → AMC 10 → AMC 12 → AIME→ USA(J)MO → IMO整個一層體系的選拔。

這啟發了團隊能否給模型評測同樣也設置一個這種難度層級的體現。因此研究團隊調研了世界範圍内不同難度層級的比賽，使得Omni-MATH在奧林匹克級别的數學測試中，難度上仍然多元化。

另外在奧林匹克級别的數學測試中，實際上涉及的數學領域是非常多的。研究團隊考慮到在模型訓練時，不同領域之間的數據是否有會有化學反應，比如領域A的數據能否讓模型泛化到領域B的提升，這種方向的數據工程是非常有意義的。

為了給這個方向的研究打下基礎，研究人員參考了相關競賽教輔書，在這個評測集中給數據的領域進行了非常細緻的劃分，從數學大類上比如數論、代數、幾何等等開始，一直到領域下面具體的小領域或者知識點。

評測集數據的來源主要有兩個，一個是各種比賽的題目和題解，另外一個是著名數學網站Art of Problem Solving。對于想要的比賽，優先從題解中尋找答案。

如果想要的比賽并未公開題解，團隊從AoPS網站的論壇上爬取回複。考慮到回複都是真實用戶書寫，有一定概率是有問題的，需要進行嚴格的篩選。

研究團隊選取了AoPS網站上候選的并且答案規整的數目大于3的題目，并且選取了3個答案全部一緻的題目作為最終标準。團隊在篩選問題時采用人工篩選，進一步保證了準确性。

數據處理

數據本身的處理：

在爬取到PDF格式的題解後，開發者們使用了Mathpix将其轉換成Latex格式作為題解。在爬取到論壇答案之後，首先用GPT-4o重新format成規整的回複，之後手動檢查是否和原本問題的答案一緻。

對于這兩類來源的數據，團隊人員最後都是用了人工檢查是否和數據源的信息是一緻的。

難度分類：

參考了AoPS網站中關于題目難度分類的情況。

具體而言，不同級别的比賽題目難度有着本質的不同，比如CEMC和IMO之間的題目相差非常大，然而，每個比賽的不同題目也有着不同，比如一次IMO比賽中既有簡單題也有難題。因此評測集的難度分類嚴格按照AoPS網站上給出的不同比賽的每一道題的難度系數（從1到10之間，大多是整數，少數有.5、.25這種難度）。

對于網站上未覆蓋的内容，團隊人員将網頁上的内容整理成了few-shot prompt，并使用了GPT4o給題目難度進行了标注。整體難度的分布和不同比賽題目的分布如下：

北大AI奧數評測，o1-mini比o1-preview分數還高

領域分類：

和傳統的數學測試基準的分類不同，在奧數這個難度上的題目涉及的領域更多，知識面更廣。

為了更好地組織統一起奧數這些題目以及後續的對于數學領域之間數據的關系的探究，團隊構建了一個更為全面的樹狀分類體系。研究團隊參考了相關競賽教輔書，将奧數相關的領域分為了幾何、代數、數論、應用數學等等領域，之後從這些領域出發，繼續細分成各個領域的小領域，細微的知識點。

這種樹狀分類體系更有助于幫助理解不同題目之間的關系，以及模型在不同領域上的表現。團隊将這一樹狀分類體系作為模闆，并結合競賽輔導書中的實例，構建了few-shot的提示（具體的樹狀結構和提示内容可參考文章末尾的代碼倉庫）。

随後，團隊利用GPT-4o給每道題目分類到一到多個類别當中。

開源的答案驗證器

Omni-Judge是微調Llama3-Instruct得到的驗證器，用于驗證待測的答案和給定的答案是否一緻。由于數學奧賽級别的題目回答的種類非常豐富，用規則評測實際上非常困難。在獲得模型的預測之後，需要判斷模型的輸出是否和标準答案是一緻的。在使用GPT-4o評測之外，我們還提供了一種更簡便的評測方法，利用了GPT4o評測模型時産生的COT數據微調Llama3-Instruct得到了一個開源的驗證器，評測一緻率和GPT-4o高達95%。

參考鍊接：

Project Page：/

Github：/

Dataset：/

Omni-Judge：/

—完—

投稿請發郵件到：

ai@qbitai.com

标題注明【投稿】，告訴我們：

你是誰，從哪來，投稿内容‍

附上論文/項目主頁鍊接，以及聯系方式哦

我們會（盡量）及時回複你

點這裡👇關注我，記得标星哦～

科技前沿進展日日相見 ~

你可能想看：

燒錢才開始？OpenAI暗示2026财年虧損140億美元，是今年3倍

OpenAI面臨巨額虧損但對未來充滿信心核心财務狀況盡管OpenAI最近以1500億美元的估值獲得了66億美元的融資，但市場對其盈利能力仍持懷疑态度。根據文章作者的報道，該公司預計2026财年的虧損可...

MPO線纜OM3應用

MPO（Multi-fiber Push On）線纜OM3是一種高性能的多模光纖線纜，主要用于高密度、高速率的數據中心和局域網（LAN）應用中。MPO線纜OM3采用12芯或24芯的多模光纖，通過MPO...

外網公布綠谷七個個性猜測，看起來都是随便想的一樣，有點扯淡

這個個性就好像是作者一拍大腿随便想出來的了，從預測上看，這個個性功能是可以通過接觸他人而看到他人的記憶，對于警察來說是個好技能，這下好了，之後要能抓到敵人直接讓綠谷上，啥秘密都給他挖出來。這就是外網公...

索尼回應PS5 Pro699美元定價，表示合情合理

PS5 Pro高達699美元的定價剛剛公布，就受到了衆多玩家關注。不少粉絲群體，在看到這個定價時就表達出了自己的遺憾之情。可惜，無論是衆多分析專家、遊戲開發界人士，還是索尼官方人員，都表示結合市場情況...

RedmiBook 16 2024：i5-12450H與全金屬機身的完美結合

RedmiBook 16 2024，作為小米旗下的輕薄本力作，自發布以來便以其卓越的性能與精緻的設計赢得了市場的廣泛關注。這款筆記本搭載了Intel Core i5-12450H處理器，結合全金屬機身...

蘋果A18/A18 Pro芯片亮點彙總

2024-09-10 09:23:19作者：姚立偉 9月10日，蘋果正式發布了A18/A18 Pro兩款仿生芯片。接下來，我們将為大家介紹這兩款芯片的亮點。 A18仿生芯片專為iPhone 16設計，...

PUBG吃雞0xea2ceaaf指令引用的0x00000024内存，該内存不能為read

絕地求生PUBG吃雞0xea2ceaaf指令引用的0x00000024内存，該内存不能為read 相信熱愛大逃殺類遊戲的玩家一定聽說過絕地求生PUBG的名字，這款戰術競技遊戲獲得了2017年TGA年度...

TPEE美國杜邦4556-杜邦Hytrel4556

Hytrel®TPEE美國杜邦4556 Hytrel®熱塑性聚酯彈性體的共同特性包括機械和物理性能，如優異的韌性和彈性、高抗蠕變性、抗沖擊和抗疲勞性、低溫柔韌性和在高溫下保持良好性能。此外，它還耐受許...

華碩靈耀XD4 PRO新款發布，橫向測評

可以看出來完全滿足千兆的吞吐，相比上一代XD4推薦為500Mbps寬帶用戶使用，新款更完整的支持千兆。PRO這個版本還是默認“雙頻合一”，新款的其它華碩路由器默認為分開。目前新款的華碩路由器已經默認打...

tags: 數學國際奧林匹克數學競賽

天天見聞

北大AI奧數評測，o1-mini比o1-preview分數還高

五年級下冊知識點數學有哪些？值得收藏

數學中的含義

雨滴下落為何不傷人？張朝陽開啟“數學馬拉松”求解流體力學基本方程

千古奇文｜“官場五經”之《官智經》原文及譯文(道盡朝堂之秘，破

3、踏準節奏，捕捉熱點闆塊輪動

這個燒傷治療法，是别人家的祖傳秘方，現在都公之于衆了 ! 起效快

我來說兩句

最新文章

【理論學習】民革重慶市委會機關召開10月政治理論學習會

年度爆文

你若不離，我定不棄！

人生哲理（2600）

貸款28萬，00後第一次在股市裡沉浮

黃元禦《四聖心源》黃芽湯方應用桉例

何慶勇教授:《傷寒論》與疑難病的治療/失眠(十三)學生醫案:黃連阿

龜背竹怎麼養龜背竹養殖方法大全（圖文）

徐海喬将瘋批病嬌的角色演繹得淋漓盡緻

什麼樣的命局：生來一無所有，去世一無所有？

亞馬遜在愛爾蘭開設首個美國外re:Cycle 數據中心回收站點

讓你看懂站樁

法國酒标詞解（二）

随機文章