首页 > 快讯 > 快讯详情

所有AI全军覆没！学者出2500道题，GPT-5得分25.3%，GPT-4o 2.7%

2026-03-02

格隆汇3月2日｜据DeepTech深科技，近日，由全球近1,000名顶尖学者打造的AI新基准“人类最后一次考试”的相关论文发在Nature。这套新试卷覆盖数学、物理、化学、历史、语言、医学，每一道题都来自专家自己的研究领域，每一道题都有唯一正确的答案，每一道题也都经过AI的经验，如果哪个AI能够答对，这道题就会作废。

结果呢？GPT-4o只拿了 2.7%，Claude 3.5 Sonnet 4.1%，OpenAI最先进的o1模型8%。发布之后，更强的Gemini 2.5 Pro和 GPT-5也来挑战，一个21.6%，一个25.3%。可谓是全军覆没，没有一个能及格。这套题的设计逻辑很残酷。每一道题提交之前，都要让AI先做一遍。如果AI做对了，这道题就不要。如果 AI 做错了，才会进入人工审核环节。审核要过两关，第一关是几个研究生水平的审稿人提意见，第二关是专家拍板。整个过程下来，1,000个专家花费几个月，从几万道题里筛选出了这 2,500道题。

研究团队发现，推理模型在回答这套题的时候，思考时间越长，正确率越高。但当思考时间超过一定长度，正确率反而下降了。这说明不是想得越久就越好，当思考时间超过某个临界点，可能就是AI在瞎绕。这也给AI开发提了个醒，以后不能光拼推理时间，还得拼推理效率。

事件播报

美股异动｜英伟达涨超2% 战略加码40亿美元布局光通信赛道

美股异动昨天 23:45

恒瑞医药(01276.HK)截至2月28日回购股份1069.44万股

港股公告摘要昨天 23:02

美股无人机概念板块爆发，Red Cat Holdings大涨超26%

美股异动昨天 23:01

所有AI全军覆没！学者出2500道题，GPT-5得分25.3%，GPT-4o 2.7%

美股异动｜英伟达涨超2% 战略加码40亿美元布局光通信赛道

恒瑞医药(01276.HK)截至2月28日回购股份1069.44万股

美股无人机概念板块爆发，Red Cat Holdings大涨超26%