國際奧林匹克數學競賽

北大AI奧數評測,o1-mini比o1-preview分數還高

作者: 天天見聞 時間:2024-10-15 閱讀: 19
Omni-MATH團隊 投稿 量子位 | 公衆号 QbitAI OpenAI的o1系列一發布,傳統數學評測基準都顯得不夠用了。 MATH-500,滿血版o1模型直接拿下94.8分。 更難的奧數邀請賽AIME 2024,o1也獲得83.3%的準确率。 随着現有的數學評測集逐漸被攻克,大家不禁開始好奇:大模型能否勝任更具挑戰性的數學競賽,甚至是奧林匹克數學競賽? 為此,北京大學與阿裡巴巴的研究團隊聯合打造了一個專門用于數學競賽的奧林匹克評測基準——Omni-MATH。...

年度爆文