• 最新
  • 热门
  • 所有
  • 期货市场
  • 外汇动态
  • 股票行情
Google DeepMind 最新研究:搞定这三个任务?人类不行,AI 也不行

Google DeepMind 最新研究:搞定这三个任务?人类不行,AI 也不行

2024 年 7 月 23 日
大众点评「重启」品质外卖,今日发放2500万张消费券

大众点评 「重启」 品质外卖,今日发放 2500 万张消费券

2025 年 9 月 10 日
市场情绪偏空 氧化铝短期或延续承压震荡走势

9 月 5 日谢瑞麟黄金 1060 元/克 金条 994 元/克

2025 年 9 月 10 日
小红书电商的第三次「变奏」

小红书电商的第三次 「变奏」

2025 年 9 月 10 日
宇树值不值 500 亿?

宇树值不值 500 亿?

2025 年 9 月 10 日
微信搜一搜,彻底AI化

微信搜一搜,彻底 AI 化

2025 年 9 月 10 日
科创板晚报|成都华微发布4通道12位40G射频直采ADC芯片 苑东生物盐酸纳呋拉啡口崩片获药品注册证书

美元基金又可以了?

2025 年 9 月 10 日
pt900铂金回收价格今日多少钱一克(2025年09月01日)

机构称固态电池领域迎政策产业 「双轮驱动」,储能电池 ETF(159566) 全天获 5700 万份净申购

2025 年 9 月 10 日
【商务部新闻发言人就对原产于美国的进口相关光纤产品反规避调查裁决答记者问】2025年3月4日,应中国国内企业申请,商务部对原产于美国的进口相关截止波长位移单模光纤产品发起反规避调查。该案是中国首起反规避调查。立案后,商务部依法依规开展了调查,调查程序公开透明,充分保障了各利害关系方的权利。经过调查,证据显示,美国出口商通过对华出口相关截止波长位移单模光纤,规避了中国对美非色散位移单模光纤产品的反倾销措施。根据调查结果,商务部发布公告,决定自2025年9月4日起实施反规避措施。

抛美债、买黄金,印度在特朗普加税前已行动!

2025 年 9 月 10 日
9月1日金市早评:现货黄金现上下拉锯 市场继续押注美联储9月降息

黄金主题基金总规模较年初增长近 112%

2025 年 9 月 10 日
新消费日报 | 安普瑞斯销售未认证电芯被罚没374万元;国内多家品牌足金首饰价格上破1050元

市场热点百花齐放,固态电池概念强者恒强,机器人、卫星互联网获持续关注

2025 年 9 月 10 日
通信ETF(515880)午后反弹超3%,算力核心环节占比超77%,规模大幅攀升超115亿元

米兰考虑保留白宫职务 金价面临利好压力

2025 年 9 月 10 日
iPhone 17发布后 苹果已从官网下架iPhone 15和iPhone 16 Pro

iPhone 17 发布后 苹果已从官网下架 iPhone 15 和 iPhone 16 Pro

2025 年 9 月 10 日
禾湖财经
  • 登录
  • 首页
  • 24 小时
  • 行业新闻
  • 股票行情
  • 基金快讯
  • 期货市场
  • 禾湖观察
  • 期货研报
  • 国际金融
  • 外汇动态
  • 贵金属
2025 年 9 月 10 日 星期三
没有结果
查看所有结果
  • 首页
  • 24 小时
  • 行业新闻
  • 股票行情
  • 基金快讯
  • 期货市场
  • 禾湖观察
  • 期货研报
  • 国际金融
  • 外汇动态
  • 贵金属
没有结果
查看所有结果
禾湖财经
没有结果
查看所有结果
首页 24 小时

Google DeepMind 最新研究:搞定这三个任务?人类不行,AI 也不行

1 年 之前
在 24 小时
阅读时间: 2 mins read
0 0
A A
Google DeepMind 最新研究:搞定这三个任务?人类不行,AI 也不行


文 | 学术头条

人工智能 (AI) 并非完美的推理者,即使是当前大热的语言模型 (LMs),也同样会表现出与人类类似的错误倾向,尤其是出现显著的 「内容效应」(Content effects)——

人们在处理与已有知识或信念相符的信息时,推理更加准确和自信,而在处理与这些知识或信念相悖的信息时,推理可能会出现偏差或错误。

这一结论来自 Google DeepMind 团队近期发表的一篇研究论文。

人类存在两种推理系统,「直觉系统」 和 「理性系统」,且在推理过程中容易受到已有知识和经验的影响。例如,当面对合乎逻辑但不合常理的命题时,人们往往会错误地判定其无效。

有趣的是,该研究显示,大型 Transformer 语言模型也可以表现出类似人类的这种行为,既可以展示出直觉性偏见,也可以在提示下表现出一致的逻辑推理。这意味着,语言模型也能模拟人类的双系统行为,也会表现出 「经验主义」 错误。

在这项工作中,研究团队对比了 LMs 和人类分别在自然语言推断 (NLI)、判断三段论 (Syllogisms) 的逻辑有效性和 Wason 选择任务三种推理任务上的表现。

图 | 三种推理任务操作内容

结果发现,在三种推理任务中,LMs 和人类的表现均受语义内容合理性和可信度的影响。

这一发现揭示了当前 AI 系统在推理能力上的局限性。尽管这些模型在处理自然语言方面表现出色,但在涉及复杂逻辑推理时,仍需谨慎使用。   

任务一:自然语言推理 

自然语言推断 (NLI) 是指模型需要判断两个句子之间的逻辑关系 (如蕴涵、矛盾或中性)。研究表明,语言模型在这类任务中容易受到内容效应的影响,即当句子的语义内容合理且可信时,模型更容易将无效的论证误判为有效。这一现象在 AI 领域被称为 「语义偏见」,也是人类在推理过程中常见的错误。

研究团队设计了一系列 NLI 任务,测试人类和 LMs 在处理这些任务时的表现。结果显示,无论是人类还是 LMs ,当面对语义合理的句子时,都更容易出现错误判断。例如,下面这个例子:

  • 输入:水坑比海大。

  • 提问:如果水坑比海大,那么......

  • 选择:A 「海比水坑大」 和  B 「海比水坑小」

虽然前提和结论之间的逻辑关系是错误的,但由于前提句子的合理性,LMs 和人类都容易认为 B 这个结论是正确的。通过对比,人类和语言模型在自然语言推断任务上的错误率相近,表明语言模型在某些方面的推理能力已经接近人类水平,而 AI 在理解和处理日常对话时,可能会与人类一样容易受到内容的误导。 

图|NLI 任务的详细结果。人类 (左) 和所有模型都表现出了相对较高的性能,而且在符合信念的推断和违背信念的推断,甚至是无意义推断之间,准确率的差异相对较小。

任务二:三段论的逻辑有效性判断 

三段论是一种经典的逻辑推理形式,通常由两个前提和一个结论组成。例如:「所有人都是会死的,苏格拉底是人,所以苏格拉底会死。」 研究发现,语言模型在判断三段论的逻辑有效性时,常常会受到语义内容的影响。尽管语言模型在处理自然语言方面表现优异,但在严格的逻辑推理任务中,仍然容易犯与人类相似的错误。

为了验证这一点,研究人员设计了多个三段论推理任务,并对比了人类和 LMs 的表现。例如,以下是一个典型的三段论任务:

  • 前提 1:所有枪都是武器。

  • 前提 2:所有武器都是危险的物品。

  • 结论:所有枪都是危险的物品。

在这种情况下,前提和结论的语义内容非常合理,因此 LMs 和人类都很容易判断这个结论是正确的。然而,当语义内容不再合理时,例如:

  • 前提 1:所有危险的物品都是武器。

  • 前提 2:所有武器都是枪。

  • 结论:所有危险的物品都是枪。

尽管逻辑上是错误的,但由于前提句子的合理性,LMs 和人类有时仍会错误地认为结论是正确的。

图|三段论逻辑任务详细结果。人类和模型都表现出明显的内容效应 ,如果结论与预期一致 (青色),会有很强的偏向性认为论证有效;如果结论违背预期 (紫色),则有一定的偏向性认为论证无效 。

任务三:Wason 选择 

Wason 选择任务是一个经典的逻辑推理任务,旨在测试个体对条件语句的理解和验证能力。在实验中,参与者会看到四张卡片,每张卡片上有一个字母或数字,例如 「D」、「F」、「3」 和 「7」。任务是确定哪些卡片需要翻面,从而验证 「如果一张卡片正面是 D,那么背面是 3」 这一规则。

研究发现,语言模型和人类在这一任务和前面两个任务一样,错误率相近,且都容易选择没有信息价值的卡片,例如,选择 「3」,而不是 「7」。出现这种错误是因为人类和 LMs 都倾向于选择与前提条件直接相关的卡片,而不是那些能真正验证规则的卡片。

然而,当任务的规则涉及到社会相关的内容 (如饮酒年龄和饮料类型) 时,模型和人类的表现都会有所改善。例如:

  • 规则:如果一个人喝酒,他必须超过 18 岁。

  • 卡片内容:喝啤酒、喝可乐、16 岁、20 岁。

图|Wason 选择任务详细结果。每个语言模型都在现实规则上显示出一定的优势。

在这种情况下,人类和 LMs 更容易选择正确的卡片,即 「喝啤酒」 和 「16 岁」。这表明,在日常生活中,AI 与人类一样,会在熟悉的情境中表现得更好。

不足与展望

总的来说,研究团队认为,当下的语言模型在推理任务方面与人类表现相差不多,甚至犯错的方式也如出一辙,特别是在涉及语义内容的推理任务中。虽然显露出了语言模型的局限性,但同时也为未来改进 AI 推理能力提供了方向。

然而,这项研究也存在一定的局限性。

首先,研究团队仅考虑了少数几个任务,这限制了对人类和语言模型在不同任务中的内容效应的全面理解。要完全理解它们的相似性和差异性,还需要在更广泛的任务范围内进行进一步验证。

另外,语言模型接受的语言数据训练量远远超过任何人类,这使得难以确定这些效应是否会在更接近人类语言数据规模的情况下出现。

研究人员建议,未来的研究可以探索如何通过因果操纵模型训练来减少内容偏见,并评估这些偏见是否在更类似人类数据规模的训练中仍会出现。

此外,研究教育因素对模型推理能力的影响,以及不同训练特征如何影响内容效应的出现,也将有助于进一步理解语言模型和人类在推理过程中的相似性和差异,使其在更广泛的应用场景中发挥更大的作用。

论文链接:



猜您喜欢

龙头企业宣布加入停产检修行列,这一小金属价格在大厂挺价下高位止跌企稳

财联社债市早参 7 月 2 日|央行国债买卖公告 「缺席」;香港地产巨头新世界发展 882 亿港元再融资落地 「化债」

2 月 之前
0

财联社汽车早报 【6 月 17 日】

3 月 之前
0

相关 文章

大众点评「重启」品质外卖,今日发放2500万张消费券
贵金属

大众点评 「重启」 品质外卖,今日发放 2500 万张消费券

8 秒 之前

【TechWeb】9 月 10 日消息,据美团官微 「美团 Meituan」 消息,大众点评宣布 「重启」 品质外卖服务,首批已集合超百万家高分堂食优质商家。今天,大众点评 「品...

市场情绪偏空 氧化铝短期或延续承压震荡走势
贵金属

9 月 5 日谢瑞麟黄金 1060 元/克 金条 994 元/克

5 分 之前

2025 年 9 月 5 日,实物黄金谢瑞麟黄金报价 1060 元/克,相比上一个交易日保持不不变。金条价格今日价格 994 元/克,相比上一个交易日保持不变。 附表: 谢瑞麟 ...

  • 热门
  • 评论
  • 最新
老凤祥回收黄金多少钱一克(2025年6月27日)

国海证券策略首席分析师胡国鹏:下半年 A 股牛途在望,配置核心在科技成长

2025 年 8 月 1 日
铑多少钱一克(2025年06月27日)

人工智能+行动重磅发布!资金借道软件 ETF(515230) 布局,连续两日吸金近 2 亿元

2025 年 8 月 1 日
郑州宝泉钱币周五(6月27日)银条价格8.79元/克

老凤祥黄金价格今天多少一克 (2025 年 07 月 30 日)

2025 年 8 月 1 日
Lesson 1: Basics Of Photography With Natural Lighting

The Single Most Important Thing You Need To Know About Success

Lesson 1: Basics Of Photography With Natural Lighting

Lesson 1: Basics Of Photography With Natural Lighting

Lesson 1: Basics Of Photography With Natural Lighting

5 Ways Animals Will Help You Get More Business

大众点评「重启」品质外卖,今日发放2500万张消费券

大众点评 「重启」 品质外卖,今日发放 2500 万张消费券

2025 年 9 月 10 日
市场情绪偏空 氧化铝短期或延续承压震荡走势

9 月 5 日谢瑞麟黄金 1060 元/克 金条 994 元/克

2025 年 9 月 10 日
小红书电商的第三次「变奏」

小红书电商的第三次 「变奏」

2025 年 9 月 10 日
  • 隐私政策
  • 联系我们
  • 关于禾湖
联系我们:+86 15388934451

Copyright © 2025 长沙禾湖信息科技有限公司. 湘 ICP 备 2023006560 号-2

没有结果
查看所有结果
  • Home
  • Tech

Copyright © 2025 长沙禾湖信息科技有限公司. 湘 ICP 备 2023006560 号-2

欢迎回来!

在下面登录您的帐户

忘记密码?

重置您的密码

请输入您的用户名或电子邮件地址以重置密码。

登录