• 最新
  • 热门
  • 所有
  • 期货市场
  • 外汇动态
  • 股票行情
2025年了,AI还看不懂时钟?

2025 年了,AI 还看不懂时钟?

2025 年 9 月 9 日
高债务负担触发政治风暴!欧洲第二大经济体深陷危机

高债务负担触发政治风暴!欧洲第二大经济体深陷危机

2025 年 9 月 9 日
半导体设备年会将至,新凯来将参加,科创半导体ETF(588170)获资金逆势加仓

贝森特迎来高危豪赌:这一步踏错,财长宝座恐易主?

2025 年 9 月 9 日
今日水贝金条回收价格查询(2025年09月01日)

入境游热力攀升 离境退税优化政策持续显效

2025 年 9 月 9 日
游戏ETF(516010)涨超3%,游戏行业景气度与估值空间引关注

公募 REITs 二级市场震荡上涨,首单外资消费 REIT 网下询价超 254 倍引关注

2025 年 9 月 9 日
影视股回暖,估值逻辑悄悄变了

影视股回暖,估值逻辑悄悄变了

2025 年 9 月 9 日
金价涨涨涨!这些企业在「闷声发财」

金价涨涨涨!这些企业在 「闷声发财」

2025 年 9 月 9 日
绍兴出台15项重磅政策,全力激活消费新动能,聚焦港股消费ETF(513230)布局机遇

动辄破万、累计超 5000 万,汽车公司小订有多水?

2025 年 9 月 9 日
20cm速递|上能电气20CM涨停,创业板新能源ETF华夏(159368)上涨3.58%

六类券商监管处分案例曝光!有投顾以欺诈手段上岗,有券商文化建设流于形式

2025 年 9 月 9 日
扶了王健林一把的男人,千万股权被冻结

小米王腾因严重违纪遭辞退,Redmi 谁来补位

2025 年 9 月 9 日
大股东所持29% 股权流拍 二股东宣布减持 *ST万方二拍压力与退市风险叠加

玻璃期货交割品种是什么

2025 年 9 月 9 日
24K金回收价格多少钱一克(2025年09月01日)

贵金属期货全线飘绿 沪银下跌 0.60%

2025 年 9 月 9 日
债市日报:9月3日

今晚 10 点,美国非农 「真相」 揭晓!降息空间或被强行打开?| 市场罗盘

2025 年 9 月 9 日
禾湖财经
  • 登录
  • 首页
  • 24 小时
  • 行业新闻
  • 股票行情
  • 基金快讯
  • 期货市场
  • 禾湖观察
  • 期货研报
  • 国际金融
  • 外汇动态
  • 贵金属
2025 年 9 月 9 日 星期二
没有结果
查看所有结果
  • 首页
  • 24 小时
  • 行业新闻
  • 股票行情
  • 基金快讯
  • 期货市场
  • 禾湖观察
  • 期货研报
  • 国际金融
  • 外汇动态
  • 贵金属
没有结果
查看所有结果
禾湖财经
没有结果
查看所有结果
首页 行业新闻

2025 年了,AI 还看不懂时钟?

7 小时 之前
在 行业新闻
阅读时间: 5 mins read
0 0
A A
2025年了,AI还看不懂时钟?

猜您喜欢

没有跨店满减的618,真能让你更省钱了吗?

没有跨店满减的 618,真能让你更省钱了吗?

4 月 之前
0
逮住OpenAI「猛薅」!Meta据悉又挖走四位知名研究人员

外卖商战再不停,我就要喝出糖尿病了

2 月 之前
0


90% 人都会的读钟题,顶尖 AI 全军覆没!

AI 基准创建者、连续创业者 Alek Safar 推出了视觉基准测试 ClockBench,专注于测试 AI 的 「看懂」 模拟时钟的能力。

结果让人吃惊:

人类平均准确率 89.1%,而参与测试的 11 个主流大模型最好的成绩仅 13.3%。

就难度而言,这与 「AGI 终极测试」ARC-AGI-2 相当,比 「人类终极考试」 更难。

ClockBench 共包含 180 个时钟、720 道问题,展示了当前前沿大语言模型 (LLM)的局限性。

论文链接:https://clockbench.ai/ClockBench.pdf

虽然这些模型在多项基准上展现出惊人的推理、数学与视觉理解能力,但这些能力尚未有效迁移到 「读表」。可能原因:

训练数据未覆盖足够可记忆的时钟特征与时间组合,模型不得不通过推理去建立指针、刻度与读数之间的映射。

时钟的视觉结构难以完整映射到文本空间,导致基于文本的推理受限。

也有好消息:表现最好的模型已展现出一定的视觉推理 (虽有限)。其读时准确率与中位误差均显著优于随机水平。

接下来需要更多研究,以判定这些能力能否通过扩大现有范式 (数据、模型规模、计算/推理预算)来获得,还是必须采用全新的方法。

一、ClockBench 如何拷打 AI?

在过去的几年里,大语言模型 (LLM)在多个领域都取得了显著进展,前沿模型很快在许多流行基准上达到了 「饱和」。

甚至是那些专门设计来同时考察 「专业知识与强推理能力」 的最新基准,也出现了快速突破。

一个典型例子是 Humanity』s Last Exam:

在该基准上,OpenAI GPT-4o 的得分仅 2.7%  ,而 xAI Grok 4 却提升到 25.4%;

结合工具使用等优化手段后,结果甚至能进入 40%~50% 区间。

然而,我们仍然发现一些对人类而言轻而易举的任务,AI 表现不佳。

因此,出现了 SimpleBench 以及 ARC-AGI 这类基准,它们被专门设计为:对普通人来说很简单,但对 LLM 却很难。

ClockBench 正是受这种 「人类容易,AI 困难」 的思路启发而设计。

研究团队基于一个关键观察:对推理型和非推理型模型来说,读懂模拟时钟同样很难。

因此,ClockBench 构建了一个需要高度视觉精度和推理能力的稳健数据集。

ClockBench 究竟包含什么?

  • 36 个全新设计的定制表盘,每个表盘生成 5 个样本时钟;

  • 总计 180 个时钟,每个时钟设置 4 个问题,共 720 道测试题;

  • 测试了来自 6 家实验室的 11 个具备视觉理解能力的模型,并招募 5 名人类参与者对比。

问题分为 4 大类:

1. 判断时间是否有效

有一个时钟️,大模型需要判断这个时钟显示的时间是不是有效的。

如果时间是合法的,大模型需要把它分解成几个部分,并以 JSON 格式输出:

小时 (Hours)、分钟 (Minutes)、秒 (Seconds)、日期 (Date)、月份 (Month)、 星期几 (Day of the week)

只要表盘包含上述信息,就要求 LLM 一并输出。

2. 时间的加减

该任务要求 LLM 对给定时间进行加减,得到新时间。

3. 旋转时钟指针

这个任务是关于操作时钟的指针。该任务要求模型选择时/分/秒针,并按指定角度顺时针或逆时针旋转。

4. 时区转换

这个任务是关于不同地方的时间。比如,给定纽约的夏令时,模型需推算不同地点的当地时间。

二、结果出乎意料


结果有哪些出乎意料的发现?

模型与人类不仅正确率差距巨大,错误模式也截然不同:

  • 人类误差中位数仅 3 分钟,最佳模型却高达 1 小时;

  • 较弱模型的误差约 3 小时,结合 12 小时制表盘循环特性,相当于随机噪声。

另一个有趣发现是,某些钟表特征的读取难度存在显著差异:

  • 在读取非常见的复杂钟表及高精度要求场景时,模型表现最差;

  • 罗马数字与环形数字的朝向最难识别,其次是秒针、杂乱背景和镜像时钟。

除了读时,其他问题对模型而言反而更简单:

  • 表现最佳的模型能高精度回答时间加减、指针旋转角度或时区转换问题,部分场景准确率可达 100%。

在不同模型的表现对比中,总体趋势是:规模更大的推理型模型普遍优于规模较小或非推理型模型。

不过,也出现了一些值得注意的现象:

  • 谷歌的 Gemini 2.5 系列模型在各自类别中往往领先于其他模型;

  • Anthropic 系列模型则普遍落后于同类模型;

  • Grok 4 的表现远低于预期,与其规模和通用能力并不相称。

GPT-5 排名第三,且推理预算对结果影响不大 (中等与高预算得分高度接近),值得思考的是:何种因素制约了 GPT-5 在此类视觉推理任务的表现?

在原始数据集中,180 个时钟里有 37 个属于无效 (不可能存在)的时间。无论是人类还是模型,在识别 「无效时间」 时的成功率都更高:

  • 人类差异不大:在无效时钟上的准确率为 96.2%,而在有效时钟上为 89.1%;

  • 模型差异明显:在无效时钟上的准确率平均高出 349%,并且所有模型在这类任务中的表现都更好;

  • Gemini 2.5 Pro 依旧是总体最佳模型,准确率达到 40.5%;

  • Grok 4 则是一个异常值:它在识别无效时钟上的准确率最高,达到 64.9%,但问题在于,它把整个数据集里 63.3% 的时钟都标记为无效,这意味着结果很可能是 「随机撞对」。

在模型能够正确读时的钟面上,存在明显的重叠现象:

  • 61.7% 的时钟没有被任何模型正确读出;

  • 38.3% 的时钟至少被 1 个模型读对;

  • 22.8% 的时钟至少被 2 个模型读对;

  • 13.9% 的时钟至少被 3 个模型读对;

  • 8.9% 的时钟至少被 4 个或以上的模型读对。

整体来看,分布情况和有效性数据表明:模型的正确答案集中在某一小部分时钟上,而不是均匀分布。

参考资料:

https://x.com/alek_safar/status/1964383077792141390

https://clockbench.ai/

本文来自微信公众号:新智元,作者:新智元,编辑:KingHZ

相关 文章

高债务负担触发政治风暴!欧洲第二大经济体深陷危机
禾湖观察

高债务负担触发政治风暴!欧洲第二大经济体深陷危机

2 分 之前

【文章来源:金十数据】

半导体设备年会将至,新凯来将参加,科创半导体ETF(588170)获资金逆势加仓
禾湖观察

贝森特迎来高危豪赌:这一步踏错,财长宝座恐易主?

5 分 之前

【文章来源:金十数据】AI 播客:换个方式听新闻 下载 mp3 音频由扣子空间生成 贝森特正刻意地试图避免其前任姆努钦的命运,后者曾是特朗普第一任期内的财长,并努...

  • 热门
  • 评论
  • 最新
老凤祥回收黄金多少钱一克(2025年6月27日)

国海证券策略首席分析师胡国鹏:下半年 A 股牛途在望,配置核心在科技成长

2025 年 8 月 1 日
铑多少钱一克(2025年06月27日)

人工智能+行动重磅发布!资金借道软件 ETF(515230) 布局,连续两日吸金近 2 亿元

2025 年 8 月 1 日
郑州宝泉钱币周五(6月27日)银条价格8.79元/克

老凤祥黄金价格今天多少一克 (2025 年 07 月 30 日)

2025 年 8 月 1 日
Lesson 1: Basics Of Photography With Natural Lighting

The Single Most Important Thing You Need To Know About Success

Lesson 1: Basics Of Photography With Natural Lighting

Lesson 1: Basics Of Photography With Natural Lighting

Lesson 1: Basics Of Photography With Natural Lighting

5 Ways Animals Will Help You Get More Business

高债务负担触发政治风暴!欧洲第二大经济体深陷危机

高债务负担触发政治风暴!欧洲第二大经济体深陷危机

2025 年 9 月 9 日
半导体设备年会将至,新凯来将参加,科创半导体ETF(588170)获资金逆势加仓

贝森特迎来高危豪赌:这一步踏错,财长宝座恐易主?

2025 年 9 月 9 日
今日水贝金条回收价格查询(2025年09月01日)

入境游热力攀升 离境退税优化政策持续显效

2025 年 9 月 9 日
  • 隐私政策
  • 联系我们
  • 关于禾湖
联系我们:+86 15388934451

Copyright © 2025 长沙禾湖信息科技有限公司. 湘 ICP 备 2023006560 号-2

没有结果
查看所有结果
  • Home
  • Tech

Copyright © 2025 长沙禾湖信息科技有限公司. 湘 ICP 备 2023006560 号-2

欢迎回来!

在下面登录您的帐户

忘记密码?

重置您的密码

请输入您的用户名或电子邮件地址以重置密码。

登录