「为了全人类，提交你最难的问题」

猜您喜欢

2025，谁能成为「机器人第一城」

6 月之前

全网首个爆料 Manus 裁员消息的人，如何看待其彻底撤出中国一事？

3 月之前

跑分都满分则跑分无意义。

从 AI 刚刚面世，人们就执着于用各种各样的题库来测试 AI 到底有多聪明，不管是 ChatGPT、Gemini、Grok，还是 DeepSeek、Kimi、文心一言，它们发布的同时，几乎都会附上一个跑分成绩。

而事到如今，市面上流行的题库都快被 AI 做穿了，每一代新模型都要「霸榜碾压」，「满分横扫」，在 MMLU 这样的热门基准测试上，大部分模型的准确率已经超过 90%——换句话说，AI 的聪明程度，人已经快评估不出来了。

好怀念那些过去的好日子，AI 只要显得像个人就能通过测试（现在图灵测试已经好久没人提了）｜x @PhysInHistory

「人工智能能力的评估基于基准测试，然而基准测试正在迅速饱和，失去了作为衡量工具的效用……」人类最后的考试网站首页写道，「在 MMLU 和 GPQA 这样的测试中表现良好，已不再是取得进步的有力信号，因为前沿模型在这些基准测试中的表现已经达到或超过了人类水平。」

在 MMLU 基准测试上，前沿大模型的得分不相上下。吊诡的是，如果 AI 已经比人类更聪明了，那我们是否有足够的智慧去认知这一点？｜bracai.eu

为了搞清楚高速进化的 AI 到底发展到哪一步了，也为了给它们排个名次，拉开差距，我们需要上点更难的题了。

作为目前人类最高智慧和最先进文明成果的代表，「人类最后的考试」（Humanity's Last Exam，以下简称 HLE）就在这个背景下诞生了。

人类智识最后的堡垒，文科也在里面

「人类最后的考试」是一个基准测试，由 Center for AI Safety 和 Scale AI 联合创建，它的测试内容几经调整，最终在 2025 年 3 月 4 日确定为一套包含了 2500 个前沿学术难题的题库。

这些题分布在 100 多个不同的学科领域，可以粗略分为以下几大类：

数学（Mathematics）：大量高难度数学题，包括高等代数、拓扑、范畴论、概率、图论、数论等，强调推理深度。

自然科学（Natural Sciences）：物理、化学、生物、生态学、医学等。

计算机科学与人工智能（Computer Science & AI）：算法、图论、马尔科夫链、程序推理等。

工程学（Engineering）：复杂系统和应用性技术问题。

人文学科与社会科学（Humanities & Social Sciences）：语言学、历史学、经济学、宗教研究、人类学、心理学、教育学、古典学、文化研究，应有尽有。

其他：冷门知识或小众学科（古文字、特定地方的风俗考证之类）。

具体的题库分布，其中数学题占了 41%，人文领域题占了 18%（可恶啊，输掉了）｜HLE

HLE 最让人印象深刻的是它的多模态，这些问题不只是基于文本，还包括图表、古文字、图像、公式，这意味着 AI 想要回答问题，就得先读懂问题。

HLE 的官网上公开了其中一部分问题。

比如下面这道古典学领域的题，要求 AI 把一段在墓碑上发现的罗马铭文翻译成帕米拉亚兰语（还给了音译，多贴心啊）。

问题由牛津大学墨顿学院博士 Henry Tang 提交｜HLE

还有这道考察 AI 对乱成一团的古希腊男女关系的了解程度的民俗小知识题：在希腊神话中，伊阿宋的曾姥爷是谁？

由墨西哥国立理工学院医学部的 Darling D 提交（我没有找到这个人，不知道为什么医学院的人会出这种题）｜HLE

这道读起来像 GRE 考试题一样，每个词都似是而非，读着后面忘了前面的生物题，大概是问蜂鸟的籽骨支撑着多少对肌腱，明确要求用数字来回答。

由麻省理工大学计算机系的博士 Edward Vendrow 提交，真是一位很博学又很会针对 AI 的学者，至于为什么这道题针对了 AI 我们等下讲｜HLE

还有这道考察图论+马尔可夫链的题：

由伦敦玛丽女王大学计算机系讲师 Dr. Marc Roth 提交｜HLE

如果你还想做更多的题，或者对题库好奇，再或者想凭一人之力和 AI 决一高下，可以上 HLE 官网查看题库。

虽然这些问题已经公开发布，供开发者测试大模型用，但是 HLE 称，「为了应对训练数据污染和基准测试黑客攻击问题」，他们也保留了一个 private set，用于定期测量模型与公共数据集的过拟合情况，不对外公布，而这一部分才是真正用于 AI 模型排行榜和最终评分的核心数据。

题库里的题主要有两种形式，选择题和简答题。

选择题需要从五个以上的选项中进行选择（题库中 24% 的题目是多选题），而简答题需要模型输出和答案完全一致的字符串，不能语义模糊、不能不准确。在题库中，还有约 14% 的题目要求同时理解文字和图像。

可以说是全选 C 战术和谁字多谁得分战术都没用了。

「为了全人类，提交你最难的问题」

不得不说「人类最后的考试」这个名字起得真的很好，要不是这厉害中透着中二气息的名字，我可能永远也不会好奇一个冷冰冰的大模型的基准测试到底在考什么。

但 HLE 的发起人丹·亨德里克斯（Dan Hendrycks）一开始想的名字更厉害，叫 「人类最后一战」（Humanity』s Last Stand），后来大家都觉得这个名字过分抓马，劝他放弃了。

丹·亨德里克斯也是一个神人。

25 岁的时候，他联合编写了现在最热门的 AI 大模型基准测试 MMLU，截至 2024 年 7 月，MMLU 下载量已超过 1 亿次。30 岁的时候，他发现目前 AI 的能力已经溢出了基准测试，MMLU 已经不好使了，于是他决定做个新的测试（他还在一次采访中表示，他做 HLE 是因为马斯克觉得现在的基准测试都太简单了）。

目前，亨德里克斯在马斯克的人工智能公司 xAI 担任安全顾问，他同时也是 Scale AI 的顾问，为避免潜在的利益冲突，他每月只象征性地领一美元薪水，而且不持有任何公司股权。

再说回 HLE。

HLE 计划发起初期，也就是 2024 年 9 月，亨德里克斯公开发布文章，号召全世界的学者「为人类最后的考试交出你最难的问题」（这个说法相当有毒，因为人家并不知道 HLE 就是题库的名字，只看题目仿佛事关人类存亡）。

「未来的人工智能系统最终将超越所有能够创建的静态基准，因此突破基准和评估的界限至关重要。为了追踪人工智能系统距离专家级能力的差距，我们正在组建史上规模最大、范围最广的专家联盟。」在文章中他写道，「如果你觉得某个问题能被 AI 解答会让你印象深刻，欢迎你提交。」

为了全人类，提交你最难的问题｜scale.com

交问题也不是白交的，亨德里克斯宣布，所出题目评分最高的研究者，可以瓜分 50 万美元的奖金——排名前 50 位的问题，每题可获得 5000 美元奖金，之后的 500 个问题，每题可获得 500 美元奖金。

关于问题本身，HLE 则提出了更加严格的要求。

首先，问题的答案需要在网上搜不出来。其次，问题需要是原创的新问题，不能在以前的考试里出现过。再次，问题需要有明确的答案，而且答案应被相关领域的其他专家广泛接受，且不包含个人偏好、歧义或主观性。最后，问题应该有硕士级别以上难度，因为「根据经验，如果随机选择的本科生能够理解题目内容，那么对大模型来说这个问题可能过于简单」。

每道题提交时都必须包含题目本身、题目答案（精确的回答，或者选择题的正确选项）、详细的解题推理、所属学科，以及贡献者的姓名和机构信息。

对所有提交的问题，HLE 会进行两步筛选：先把问题喂给最先进的 AI 去解答，如果 AI 无法回答，或者在多选题里的得分比随机猜的还差，那问题就会被交给人工审阅者，由他们审阅和验证答案。

在 The New York Times 的一次采访中，加州大学伯克利分校理论粒子物理学博士后研究员 Kevin Zhou 表示，他提交了一些题目，其中三道题目被选中，而这些题目「都达到了研究生考试的上限」。

最终 HLE 收到了来自 50 多个国家、500 多家研究机构和企业的 1000 多位学者的回复，从中诞生了目前最难的 AI 基准测试 HLE。

对 AI 来说，HLE 难在哪？

费了这么大功夫，HLE 真的难住 AI 了吗？

单看结果而言，是难住了。

目前为止，主流前沿模型纯文本模式下在 HLE 上的得分都还比较低，OpenAI 最新的 o3-mini（high）模型，准确率只有 13%，而前阵子震撼美国的 DeepSeek-R1 的准确率也才 9.4%。目前得分最高的是 Grok4，正确率 26.9%。

截止到今年一月论文发表时的数据，黑色柱形是 HLE 的准确率｜HLE 官网

这些题为什么这么难？

有一个原因是它们需要一定的推理深度，而且没法在网上找到答案，还有一个原因是问题已经经过了筛选，留下的全部是现有的前沿模型表现差的问题。

还有一个原因是在问题上给 AI 挖了坑。

比如上文提过的蜂鸟籽骨问题，看似简单，但是有人测试了 ChatGPT5 和 Gemini，它们都给出了一篇论文似的长篇大论，而忽略了问题的最后一句话，「Answer with a number」，请直接用数字回答。

因此，所有不是「2」的答案都被算作是错的（尽管有些模型在长篇大论之后给出了正确答案），这可能是一个产品设计问题，而不是 AI 表现问题。

Threads@raystormfang

另外，有些问题连人类自己都还没达成一致呢。

最后的考试，可能也撑不了多久

最后的考试赏金很诱人，概念很科幻，目的很崇高，但是它带来的争议已经开始浮现。

今年 7 月，专注人工智能应用的非营利组织 FutureHouse 发布了一篇调查报告，称 HLE 里「化学生物领域的 30% 的答案可能是错的」。

他们组建了一个化学生物领域的专家评审团，并且详细研究了 HLE 题库，最终得出结论，「29±3.7%（95% 置信区间）的纯文本化学和生物问题的答案与同行评审文献中的证据直接冲突」。

比如这个问题：截至 2002 年，在地球物质总量中所占比例最少的稀有气体是哪一种（What was the rarest noble gas on Earth as a percentage of all terrestrial matter in 2002）？

你不知道，我不知道，AI 也不知道，答案是 Oganesson。

Oganesson，或者叫鿫，化学符号 Og，原子序数 118，是一种人工合成的放射性超重元素，位于元素周期表第七周期、稀有气体族（0 族）的末端。2002 年，鿫在俄罗斯的一座核反应堆中首次被合成并存在了几毫秒，迄今为止，只有五个 Oganesson 原子被合成。而且它更可能是固体或液体，而不是气体，还有一些学者认为它不是惰性气体，因为它的化学性质并不稳定。

此外，还有多篇论文（包括 2002 年的论文）列出了地球上稀有气体的比例，而鿫没被算进去——总而言之，鿫可能不是气体，也可能不是惰性气体，而且大多数同行评议的论文觉得它也不是地球物质。

而 AI 答不答得出脑筋急转弯问题又能证明什么？

还有另外一个迷思，对大多数前沿模型来说，HLE 都太难了。大家得分都很低，和大家得分都很高的状况是一样的，还是没拉开区分度，也没想明白得分高的模型好在哪。而且 HLE 覆盖的是学术考试可测内容——它专注于已知的学术题目和闭合答案，对开放式创造力、生成类问题或非常新颖的研究课题的思考仍然难以评估。

虽然千辛万苦花大价钱出了这么一套题，看来也要很快被打穿了。

HLE 自己预测，虽然目前的 AI 在 HLE 上的准确率非常低，但到 2025 年底，模型在 HLE 上的准确率就有望超过 50%。事实上，还没到年底，Grok4 在使用工具的情况下（比如代码解释器）正确率已经升到了 41.0%。