格隆汇3月2日|据DeepTech深科技,近日,由全球近1,000名顶尖学者打造的AI新基准“人类最后一次考试”的相关论文发在Nature。这套新试卷覆盖数学、物理、化学、历史、语言、医学,每一道题都来自专家自己的研究领域,每一道题都有唯一正确的答案,每一道题也都经过AI的经验,如果哪个AI能够答对,这道题就会作废。
结果呢?GPT-4o只拿了 2.7%,Claude 3.5 Sonnet 4.1%,OpenAI最先进的o1模型8%。发布之后,更强的Gemini 2.5 Pro和 GPT-5也来挑战,一个21.6%,一个25.3%。可谓是全军覆没,没有一个能及格。这套题的设计逻辑很残酷。每一道题提交之前,都要让AI先做一遍。如果AI做对了,这道题就不要。如果 AI 做错了,才会进入人工审核环节。审核要过两关,第一关是几个研究生水平的审稿人提意见,第二关是专家拍板。整个过程下来,1,000个专家花费几个月,从几万道题里筛选出了这 2,500道题。
研究团队发现,推理模型在回答这套题的时候,思考时间越长,正确率越高。但当思考时间超过一定长度,正确率反而下降了。这说明不是想得越久就越好,当思考时间超过某个临界点,可能就是AI在瞎绕。这也给AI开发提了个醒,以后不能光拼推理时间,还得拼推理效率。