• 最新
  • 热门
  • 所有
  • 期货市场
  • 外汇动态
  • 股票行情
Google DeepMind 最新研究:搞定这三个任务?人类不行,AI 也不行

Google DeepMind 最新研究:搞定这三个任务?人类不行,AI 也不行

2024 年 7 月 23 日
证监会同意公募基金行业机构投资者直销服务平台正式启动运行

新一轮国内成品油调价搁浅

2025 年 9 月 10 日
无惧政治风暴,欧美利差走阔或力挺欧元剑指1.20大关!

无惧政治风暴,欧美利差走阔或力挺欧元剑指 1.20 大关!

2025 年 9 月 10 日
锇回收价格多少钱一克(2025年09月01日)

铑多少钱一克 (2025 年 09 月 05 日)

2025 年 9 月 10 日
恒生科技ETF易方达(513010)近一周「吸金」超10亿元,机构称港股在估值上具备充分吸引力

https://www.huxiu.com/article/4764814.html

2025 年 9 月 10 日
「万机之母」工业母机ETF(159667)连续3日净流入超1.6亿元,政策助力,工业母机板块利好频传

债市日报:9 月 9 日

2025 年 9 月 10 日
摇身一变成「衰退指标」?华尔街惶惶:美债收益率是不是跌太快了

摇身一变成 「衰退指标」?华尔街惶惶:美债收益率是不是跌太快了

2025 年 9 月 10 日
固态电池生产设备企业上半年订单激增

「AI+能源」 政策赋能新能源板块,新能源车 ETF(515030) 涨超 2.92%,多股涨停

2025 年 9 月 10 日
24K金价格多少钱一克(2025年09月01日)

《2025 年世界人才排名》 香港跃至亚洲第一

2025 年 9 月 10 日
科创板晚报|成都华微发布4通道12位40G射频直采ADC芯片 苑东生物盐酸纳呋拉啡口崩片获药品注册证书

苹果发布会就在今夜!iPhone 17 系列携十款新品亮相

2025 年 9 月 10 日
通信ETF(515880)盘中翻红大涨超4%,「光模块ETF」哪里找?布局光模块占比50% 通信ETF

铱多少钱一克 (2025 年 09 月 05 日)

2025 年 9 月 10 日
今日水贝金条回收价格查询(2025年09月01日)

以需求为牵引 多维推进期权深度应用

2025 年 9 月 10 日
工作后才意识到,我是「社会化」程度低的人

工作后才意识到,我是 「社会化」 程度低的人

2025 年 9 月 10 日
禾湖财经
  • 登录
  • 首页
  • 24 小时
  • 行业新闻
  • 股票行情
  • 基金快讯
  • 期货市场
  • 禾湖观察
  • 期货研报
  • 国际金融
  • 外汇动态
  • 贵金属
2025 年 9 月 10 日 星期三
没有结果
查看所有结果
  • 首页
  • 24 小时
  • 行业新闻
  • 股票行情
  • 基金快讯
  • 期货市场
  • 禾湖观察
  • 期货研报
  • 国际金融
  • 外汇动态
  • 贵金属
没有结果
查看所有结果
禾湖财经
没有结果
查看所有结果
首页 24 小时

Google DeepMind 最新研究:搞定这三个任务?人类不行,AI 也不行

1 年 之前
在 24 小时
阅读时间: 2 mins read
0 0
A A
Google DeepMind 最新研究:搞定这三个任务?人类不行,AI 也不行


文 | 学术头条

人工智能 (AI) 并非完美的推理者,即使是当前大热的语言模型 (LMs),也同样会表现出与人类类似的错误倾向,尤其是出现显著的 「内容效应」(Content effects)——

人们在处理与已有知识或信念相符的信息时,推理更加准确和自信,而在处理与这些知识或信念相悖的信息时,推理可能会出现偏差或错误。

这一结论来自 Google DeepMind 团队近期发表的一篇研究论文。

人类存在两种推理系统,「直觉系统」 和 「理性系统」,且在推理过程中容易受到已有知识和经验的影响。例如,当面对合乎逻辑但不合常理的命题时,人们往往会错误地判定其无效。

有趣的是,该研究显示,大型 Transformer 语言模型也可以表现出类似人类的这种行为,既可以展示出直觉性偏见,也可以在提示下表现出一致的逻辑推理。这意味着,语言模型也能模拟人类的双系统行为,也会表现出 「经验主义」 错误。

在这项工作中,研究团队对比了 LMs 和人类分别在自然语言推断 (NLI)、判断三段论 (Syllogisms) 的逻辑有效性和 Wason 选择任务三种推理任务上的表现。

图 | 三种推理任务操作内容

结果发现,在三种推理任务中,LMs 和人类的表现均受语义内容合理性和可信度的影响。

这一发现揭示了当前 AI 系统在推理能力上的局限性。尽管这些模型在处理自然语言方面表现出色,但在涉及复杂逻辑推理时,仍需谨慎使用。   

任务一:自然语言推理 

自然语言推断 (NLI) 是指模型需要判断两个句子之间的逻辑关系 (如蕴涵、矛盾或中性)。研究表明,语言模型在这类任务中容易受到内容效应的影响,即当句子的语义内容合理且可信时,模型更容易将无效的论证误判为有效。这一现象在 AI 领域被称为 「语义偏见」,也是人类在推理过程中常见的错误。

研究团队设计了一系列 NLI 任务,测试人类和 LMs 在处理这些任务时的表现。结果显示,无论是人类还是 LMs ,当面对语义合理的句子时,都更容易出现错误判断。例如,下面这个例子:

  • 输入:水坑比海大。

  • 提问:如果水坑比海大,那么......

  • 选择:A 「海比水坑大」 和  B 「海比水坑小」

虽然前提和结论之间的逻辑关系是错误的,但由于前提句子的合理性,LMs 和人类都容易认为 B 这个结论是正确的。通过对比,人类和语言模型在自然语言推断任务上的错误率相近,表明语言模型在某些方面的推理能力已经接近人类水平,而 AI 在理解和处理日常对话时,可能会与人类一样容易受到内容的误导。 

图|NLI 任务的详细结果。人类 (左) 和所有模型都表现出了相对较高的性能,而且在符合信念的推断和违背信念的推断,甚至是无意义推断之间,准确率的差异相对较小。

任务二:三段论的逻辑有效性判断 

三段论是一种经典的逻辑推理形式,通常由两个前提和一个结论组成。例如:「所有人都是会死的,苏格拉底是人,所以苏格拉底会死。」 研究发现,语言模型在判断三段论的逻辑有效性时,常常会受到语义内容的影响。尽管语言模型在处理自然语言方面表现优异,但在严格的逻辑推理任务中,仍然容易犯与人类相似的错误。

为了验证这一点,研究人员设计了多个三段论推理任务,并对比了人类和 LMs 的表现。例如,以下是一个典型的三段论任务:

  • 前提 1:所有枪都是武器。

  • 前提 2:所有武器都是危险的物品。

  • 结论:所有枪都是危险的物品。

在这种情况下,前提和结论的语义内容非常合理,因此 LMs 和人类都很容易判断这个结论是正确的。然而,当语义内容不再合理时,例如:

  • 前提 1:所有危险的物品都是武器。

  • 前提 2:所有武器都是枪。

  • 结论:所有危险的物品都是枪。

尽管逻辑上是错误的,但由于前提句子的合理性,LMs 和人类有时仍会错误地认为结论是正确的。

图|三段论逻辑任务详细结果。人类和模型都表现出明显的内容效应 ,如果结论与预期一致 (青色),会有很强的偏向性认为论证有效;如果结论违背预期 (紫色),则有一定的偏向性认为论证无效 。

任务三:Wason 选择 

Wason 选择任务是一个经典的逻辑推理任务,旨在测试个体对条件语句的理解和验证能力。在实验中,参与者会看到四张卡片,每张卡片上有一个字母或数字,例如 「D」、「F」、「3」 和 「7」。任务是确定哪些卡片需要翻面,从而验证 「如果一张卡片正面是 D,那么背面是 3」 这一规则。

研究发现,语言模型和人类在这一任务和前面两个任务一样,错误率相近,且都容易选择没有信息价值的卡片,例如,选择 「3」,而不是 「7」。出现这种错误是因为人类和 LMs 都倾向于选择与前提条件直接相关的卡片,而不是那些能真正验证规则的卡片。

然而,当任务的规则涉及到社会相关的内容 (如饮酒年龄和饮料类型) 时,模型和人类的表现都会有所改善。例如:

  • 规则:如果一个人喝酒,他必须超过 18 岁。

  • 卡片内容:喝啤酒、喝可乐、16 岁、20 岁。

图|Wason 选择任务详细结果。每个语言模型都在现实规则上显示出一定的优势。

在这种情况下,人类和 LMs 更容易选择正确的卡片,即 「喝啤酒」 和 「16 岁」。这表明,在日常生活中,AI 与人类一样,会在熟悉的情境中表现得更好。

不足与展望

总的来说,研究团队认为,当下的语言模型在推理任务方面与人类表现相差不多,甚至犯错的方式也如出一辙,特别是在涉及语义内容的推理任务中。虽然显露出了语言模型的局限性,但同时也为未来改进 AI 推理能力提供了方向。

然而,这项研究也存在一定的局限性。

首先,研究团队仅考虑了少数几个任务,这限制了对人类和语言模型在不同任务中的内容效应的全面理解。要完全理解它们的相似性和差异性,还需要在更广泛的任务范围内进行进一步验证。

另外,语言模型接受的语言数据训练量远远超过任何人类,这使得难以确定这些效应是否会在更接近人类语言数据规模的情况下出现。

研究人员建议,未来的研究可以探索如何通过因果操纵模型训练来减少内容偏见,并评估这些偏见是否在更类似人类数据规模的训练中仍会出现。

此外,研究教育因素对模型推理能力的影响,以及不同训练特征如何影响内容效应的出现,也将有助于进一步理解语言模型和人类在推理过程中的相似性和差异,使其在更广泛的应用场景中发挥更大的作用。

论文链接:



猜您喜欢

近红外光谱结合AI算法,榴莲成熟度检测准确率达91% | 创新场景

近红外光谱结合 AI 算法,榴莲成熟度检测准确率达 91% | 创新场景

1 年 之前
0
原油期货收盘下跌1.10% 持仓较上日减持1891手

商务部:希望欧方重视中国企业关切,克制使用限制性经贸工具

1 月 之前
0

相关 文章

证监会同意公募基金行业机构投资者直销服务平台正式启动运行
24 小时

新一轮国内成品油调价搁浅

6 分 之前

【文章来源:期货日报】 本报讯 (记者 杨美)9 月 9 日 24 时,新一轮成品油调价窗口开启。据国家发展改革委价格监测中心监测,本轮成品油调价周期内 (8 月 26 日—9 月 8...

无惧政治风暴,欧美利差走阔或力挺欧元剑指1.20大关!
禾湖观察

无惧政治风暴,欧美利差走阔或力挺欧元剑指 1.20 大关!

14 分 之前

【文章来源:金十数据】AI 播客:换个方式听新闻 下载 mp3 音频由扣子空间生成 欧元兑美元正重新向 1.20 美元关口逼近,因投资者押注随着美联储与欧洲央行的利率...

  • 热门
  • 评论
  • 最新
老凤祥回收黄金多少钱一克(2025年6月27日)

国海证券策略首席分析师胡国鹏:下半年 A 股牛途在望,配置核心在科技成长

2025 年 8 月 1 日
铑多少钱一克(2025年06月27日)

人工智能+行动重磅发布!资金借道软件 ETF(515230) 布局,连续两日吸金近 2 亿元

2025 年 8 月 1 日
郑州宝泉钱币周五(6月27日)银条价格8.79元/克

老凤祥黄金价格今天多少一克 (2025 年 07 月 30 日)

2025 年 8 月 1 日
Lesson 1: Basics Of Photography With Natural Lighting

The Single Most Important Thing You Need To Know About Success

Lesson 1: Basics Of Photography With Natural Lighting

Lesson 1: Basics Of Photography With Natural Lighting

Lesson 1: Basics Of Photography With Natural Lighting

5 Ways Animals Will Help You Get More Business

证监会同意公募基金行业机构投资者直销服务平台正式启动运行

新一轮国内成品油调价搁浅

2025 年 9 月 10 日
无惧政治风暴,欧美利差走阔或力挺欧元剑指1.20大关!

无惧政治风暴,欧美利差走阔或力挺欧元剑指 1.20 大关!

2025 年 9 月 10 日
锇回收价格多少钱一克(2025年09月01日)

铑多少钱一克 (2025 年 09 月 05 日)

2025 年 9 月 10 日
  • 隐私政策
  • 联系我们
  • 关于禾湖
联系我们:+86 15388934451

Copyright © 2025 长沙禾湖信息科技有限公司. 湘 ICP 备 2023006560 号-2

没有结果
查看所有结果
  • Home
  • Tech

Copyright © 2025 长沙禾湖信息科技有限公司. 湘 ICP 备 2023006560 号-2

欢迎回来!

在下面登录您的帐户

忘记密码?

重置您的密码

请输入您的用户名或电子邮件地址以重置密码。

登录