• 最新
  • 热门
  • 所有
  • 期货市场
  • 外汇动态
  • 股票行情
如何教AI学会反思?

如何教 AI 学会反思?

2025 年 7 月 9 日
18K金回收价格多少钱一克(2025年09月01日)

马克龙两年换五相 谁可能接下法国总理这一 「烫手山芋」?

2025 年 9 月 10 日
小红书,不妨学学苹果

小红书,不妨学学苹果

2025 年 9 月 10 日
第19届杭州亚运会纪念币金银套多少钱(2025年9月4日)

钌多少钱一克 (2025 年 09 月 05 日)

2025 年 9 月 10 日
生成式AI应用破解跨境电商本地化翻译难题:1个月上线,翻译成本减少40% | 创新场景

守好 「中国饭碗」 筑牢 「三农」 根基

2025 年 9 月 10 日
河北孟村,一个「完美妻子」之死

河北孟村,一个 「完美妻子」 之死

2025 年 9 月 10 日
特朗普称将对未在美建厂芯片企业加征关税

医疗器械产业链爆发!医疗器械 ETF(562600) 收涨 3.9%

2025 年 9 月 10 日
Apple Grapples With AI Talent Exodus as Tech Giants Compete for Top Researchers

黑胶唱片卷土重来

2025 年 9 月 10 日
9月3日沪铝期货仓单较上日增持903吨

我国新能源汽车产销量连续 10 年保持全球第一

2025 年 9 月 10 日
黄金9995价格多少钱一克(2025年09月01日)

特朗普希望落空?关税大棒下美国农业贸易逆差再创新高

2025 年 9 月 10 日
pt900铂金回收价格今日多少钱一克(2025年09月01日)

华尔街和白宫密切关注!今夜美国就业数据修正会掀起何种波澜?

2025 年 9 月 10 日
白酒中报「急刹车」,谁能「漂移过弯」?

白酒中报 「急刹车」,谁能 「漂移过弯」?

2025 年 9 月 10 日
【商务部新闻发言人就对原产于美国的进口相关光纤产品反规避调查裁决答记者问】2025年3月4日,应中国国内企业申请,商务部对原产于美国的进口相关截止波长位移单模光纤产品发起反规避调查。该案是中国首起反规避调查。立案后,商务部依法依规开展了调查,调查程序公开透明,充分保障了各利害关系方的权利。经过调查,证据显示,美国出口商通过对华出口相关截止波长位移单模光纤,规避了中国对美非色散位移单模光纤产品的反倾销措施。根据调查结果,商务部发布公告,决定自2025年9月4日起实施反规避措施。

锇多少钱一克 (2025 年 09 月 05 日)

2025 年 9 月 10 日
禾湖财经
  • 登录
  • 首页
  • 24 小时
  • 行业新闻
  • 股票行情
  • 基金快讯
  • 期货市场
  • 禾湖观察
  • 期货研报
  • 国际金融
  • 外汇动态
  • 贵金属
2025 年 9 月 10 日 星期三
没有结果
查看所有结果
  • 首页
  • 24 小时
  • 行业新闻
  • 股票行情
  • 基金快讯
  • 期货市场
  • 禾湖观察
  • 期货研报
  • 国际金融
  • 外汇动态
  • 贵金属
没有结果
查看所有结果
禾湖财经
没有结果
查看所有结果
首页 行业新闻

如何教 AI 学会反思?

2 月 之前
在 行业新闻
阅读时间: 2 mins read
0 0
A A
如何教AI学会反思?

猜您喜欢

周六福铂金多少钱一克(2025年06月27日)参考价格

对话 《刻板印象宇宙》 作者:51 万 B 站点赞背后,AI 成了动画追梦人的救命稻草

3 周 之前
0
减肥药进入卸妆元年

减肥药进入卸妆元年

2 周 之前
0


今天想跟大家分享一篇有意思的 AI 论文,标题有点长,叫 《反思,重试,奖励:通过强化学习实现自我改进的大语言模型》。

说内容前,我先说说自己是怎么发现这篇论文的。熟悉 AI 的同学大多知道一个网站叫 Hugging Face,这个平台不仅有各种大模型的训练场和技术讨论区,还开设了一个 「每日论文」 栏目。由于 AI 领域如今太过火热,每天都有大量新论文发布,这个栏目就像是一个论文版的 「知乎热榜」——作者提交论文,读者点赞排名。

今天要介绍的这篇论文,是这个栏目 6 月排行榜的第三位。论文作者并不是一个典型的高校研究学者,而是一家名叫 Writer 的人工智能创业公司的研究团队,联合作者一共有八个人。

也许正因为是创业企业的研究团队,所以没有那么在乎学术层面的论文惯例,整个论文加上引用也只有 16 页,读起来也没有故作高深,非常简单明了。

3 个步骤,教会 AI 从错误中学习

这篇论文——《反思、重试、奖励:通过强化学习实现自我改进的大语言模型》——光是题目,你就能知道这项研究的核心结论是什么。

对我们人类来说,「从错误中学习」 是非常重要并且有效的学习方式之一。不信你去网上搜搜看,文具有一个专门的品类就叫 「错题本」。我们在求学时,当一道题没做对的时候,好的老师肯定不会直接说答案,而是会引导我们反思:「你觉得问题出在什么地方?下次可以怎么改进?」

而这篇论文的核心研究,就提出了一种巧妙的方法,能让 AI 像人一样,从错误中不断成长。

研究团队发现,即便是再强大的模型,也存在自己的 「盲区」——它在某一个任务上表现得非常好,但并不代表它就一定能顺利搞定类似的另一个任务。

面对这个问题,传统的解决办法是收集更多数据,对模型进行重新训练或微调。

但这样的做法往往存在几个现实难题:一是很多时候你并没有更高质量的新数据可用;二是即便训练了,也常常出现 「打地鼠」 式的问题——那就是优化了一个点,另一个原本表现不错的地方反而出了问题。

后来,研究团队就换了一个思路:与其一遍遍喂 AI 数据、调优模型,不如教会它怎么反思。只要让 AI 掌握 「怎么从错误中总结经验、改进自己」 的方法,它在面对不同任务时,就能逐步自行进化。用通俗的话说,就是不再一味 「灌知识」,而是教它 「怎么学」。

这个方法一共包含三个步骤,就像论文标题里写的那样:反思、重试和奖励。

第一步,反思。当模型在某个任务上第一次失败时,系统不会直接结束,而是让它先生成一段自我反思的内容,分析自己到底哪里出了问题。就像学生考试答错题后,会问自己:「我哪一步想错了?是不是公式用错了?」 这一环节的核心目的,是让 AI 开始自我觉察,并意识到错误的原因。

第二步,重试。这时候,AI 模型会带着刚才的反思内容,再去尝试完成同一个任务。就像学生在弄明白上次哪里出错后,再去解同一类题目,就更容易成功。

第三步,奖励。如果模型在第二次尝试中成功完成了任务,系统就会对它在 「反思阶段」 所生成的内容进行奖励。这里的 「奖励」 并不是我们理解中的发红包,而是一种强化学习技术。简单来说,就是通过调整模型参数,让它更偏向于那些曾经带来正面结果的反思方式。

你可以把这个过程想象成一个老师在表扬学生:当学生通过反思改正了错误,终于做对了一道难题,老师会说:「你的反思很有帮助,继续保持下去,你的数学会越来越好。」 注意,老师夸奖的不是解题方法本身,而是 「反思」 这一学习策略。所以学生就会知道,反思是有效果的,遇到问题的时候,就应该用这种方式来解决。

所以,这个机制的创新点在于:研究人员奖励的并不是模型最后给出的正确答案,而是它中间生成的 「反思过程」。

这样的训练方式,让模型不再依赖死记硬背某个问题的答案,而是逐渐学会了一种通用的、自我纠错和自我提升的能力。

AI 学会反思,效果如何?

研究团队不是光讲概念,他们还做了两个实验,来实际验证这个机制的有效性。

这两个实验对于 AI 来说都不算简单,一个是函数调用,一个是数学方程求解,都属于具有挑战性、但又能够清晰判断对错的任务类型。

先说函数调用。传统技术开发需要对接各种 API 接口,要填入各种参数。这个任务就是看 AI 能不能正确地调用,这不同于那种没有标准答案的写作任务,调用 API,成功与否,判断标准非常明确。

实验团队在多种规模大小的模型上都做了实验,测试了这种机制,例如从 15 亿参数的小模型到 72 亿参数的模型不等。效果令人惊叹。

一个只有 15 亿参数的阿里千问小模型,在这个任务上,一次就答对的概率只有大约 32.6%。

但是经过今天介绍的这个反思训练后,第一次尝试的准确率就跃升到了 48.6%,提升了 16 个百分点。如果允许它利用自己的反思再尝试一次,第二次的成功率就达到了 52.9%,这相比原始能力提高了 20 多个百分点。

再说第二个任务——数学方程求解,它比函数调用更困难得多。

实验中,15 亿参数的模型在第一次尝试时,正确率只有 6%,几乎等于纯靠蒙的水平,就好比初中数学 100 分满分只考了个 6 分。

但当模型引入 「反思机制」 训练后,第一次尝试的正确率跃升到了 34.9%,已经是一个质的飞跃。如果再让它根据第一次的反思重试一遍,第二次的成功率更是提升到 45%。

正确率从最初的 6% 到最后的 45%,这个跨度就像从不及格一路提升到接近及格线。

还有一个更惊人的发现是,经过这种学习方法训练的小模型,在能力上超过了参数量比自己大十倍的更高级模型。

研究团队同样使用了千问的 70 亿参数模型进行训练,结果发现,在这两个任务上,学会 「反思」 的 70 亿模型,表现都超过了不会反思的 720 亿模型。要知道,这两个模型都属于阿里千问系列。

这就像一个经过良好学习方法训练的高中生,在某些难题上,反而能打败知识储备多出十倍、但缺乏方法的博士生。

这个发现的现实意义在于,对于某些任务来说,并不一定非得依赖超大规模模型,如果能优化训练方式,小模型不仅节省成本,也能具备很强的能力。

我训练 AI 干活的方法

我之所以要介绍这篇论文,是因为它的核心结论,对我们普通人是有借鉴价值的。

我观察到身边有一些同事在使用 AI 工具时,往往只进行一轮对话:给 AI 发一个任务,等它完成后就结束了。有时即便 AI 明显给出了错误答案,回应也只是简单一句 「错了,再试一次」。

但按照这篇论文的启发,我们其实可以稍微调整一下话术,比如说:「你的答案可能有问题,请分析一下哪里出错了,然后再重新回答一遍。」

其次,在一些具体场景下,我们可以给 AI 提供更明确的反思方向。

比如在做商业决策分析时,读完 AI 的第一轮回答后,你可以补充说:「你的分析似乎忽略了市场风险因素,请重新考虑并补充完整。」 当然,这种方式的前提是你自己能敏锐地识别出回答中的问题。

类似的反思提示词还有很多,例如:

  • 「请检查一下你的推理过程,找出可能的逻辑漏洞。」

  • 「分析一下你刚才的回答哪些地方可能不够准确。」

  • 「如果让你重新回答这个问题,你会怎么改进?」

  • 「你觉得你的答案已经完全满足问题要求了吗?请详细说明。」

最后,我想分享一个我偶尔会用的小技巧,它和本文介绍的 「反思机制」 有异曲同工之妙。我给它起了个名字,叫做 「PUA 大法」。

这个方法尤其适用于那些重要且复杂的任务,比如撰写竞品分析报告或者调研文档。我的做法是,先准备好三到四个表现稳定的大模型,比如从 ChatGPT、Claude、DeepSeek、豆包、Kimi 中挑选几个。

我个人的习惯是:先把任务描述清楚,然后分别让豆包、Kimi 和 DeepSeek 先各自完成一次回答。

接下来,我会打开 ChatGPT,对它说:「我正在完成一个任务,任务内容是……我已经请三个 AI 助手分别作答。现在你是评审官,请你根据任务的特点,制定一套 100 分制的评卷规则,然后分别对这三个助手的答案打分,并详细说明你的评分理由。」

接下来,我就会把其他几个 AI 的回答一个个发给 ChatGPT。这时它会先搭建一套评分标准,再对其他 AI 的回答进行打分和点评,比如给出 85 分、87 分之类的分数,并详细解释打分理由。

然后,我就会开始 「PUA」 它,对它说:「你既然这么懂,那你自己来答一遍这个问题看看?」

它会乖乖照做,答完后,我继续追问:「那你就按你刚才的评分规则,对你自己的回答也打个分,并说明理由。」

它通常会开始进行所谓的 「公正打分」 和自我评价——但你会发现,它几乎每次都比给其他 AI 打的分数高,一般会打个 90 到 95 分之间。哪怕这样,我也不会放过它,还要继续追问:「那你这剩下的几分是扣在哪里了?好好想想,再改一遍。」

当然,它最后输出的结果是不是满分作品,其实并不重要。但在这个过程中,往往会冒出很多新思路和新角度,对我们人类来说是很有启发的。

这个方法其实很简单,说到底,可能还是被我初中数学老师 「深刻启发」 过。当年他那种高压反思式教学,让我一度对数学敬而远之。

不过还好,现在的 AI 没有情绪,不会反抗,我们可以尽情用 「PUA 语气」 去激发它的智力潜力。

本文来自微信公众号:快刀青衣,作者:快刀青衣

相关 文章

18K金回收价格多少钱一克(2025年09月01日)
禾湖观察

马克龙两年换五相 谁可能接下法国总理这一 「烫手山芋」?

5 分 之前

【文章来源:金十数据】 马克龙两年换五相 谁可能接下法国总理这一 「烫手山芋」? 马克龙正面临一次艰难抉择。在议会动荡与民意分裂的双重压力下,五种截然不同的总理人...

小红书,不妨学学苹果
期货市场

小红书,不妨学学苹果

8 分 之前

文 | 略大参考,作者 | 杨知潮电动车的能量在发电厂就有一轮损耗,充电再有一轮损耗,电动机再有一轮损耗,但就这样三轮损耗下来,它综合效率可能还是比燃油车更高。...

  • 热门
  • 评论
  • 最新
老凤祥回收黄金多少钱一克(2025年6月27日)

国海证券策略首席分析师胡国鹏:下半年 A 股牛途在望,配置核心在科技成长

2025 年 8 月 1 日
铑多少钱一克(2025年06月27日)

人工智能+行动重磅发布!资金借道软件 ETF(515230) 布局,连续两日吸金近 2 亿元

2025 年 8 月 1 日
郑州宝泉钱币周五(6月27日)银条价格8.79元/克

老凤祥黄金价格今天多少一克 (2025 年 07 月 30 日)

2025 年 8 月 1 日
Lesson 1: Basics Of Photography With Natural Lighting

The Single Most Important Thing You Need To Know About Success

Lesson 1: Basics Of Photography With Natural Lighting

Lesson 1: Basics Of Photography With Natural Lighting

Lesson 1: Basics Of Photography With Natural Lighting

5 Ways Animals Will Help You Get More Business

18K金回收价格多少钱一克(2025年09月01日)

马克龙两年换五相 谁可能接下法国总理这一 「烫手山芋」?

2025 年 9 月 10 日
小红书,不妨学学苹果

小红书,不妨学学苹果

2025 年 9 月 10 日
第19届杭州亚运会纪念币金银套多少钱(2025年9月4日)

钌多少钱一克 (2025 年 09 月 05 日)

2025 年 9 月 10 日
  • 隐私政策
  • 联系我们
  • 关于禾湖
联系我们:+86 15388934451

Copyright © 2025 长沙禾湖信息科技有限公司. 湘 ICP 备 2023006560 号-2

没有结果
查看所有结果
  • Home
  • Tech

Copyright © 2025 长沙禾湖信息科技有限公司. 湘 ICP 备 2023006560 号-2

欢迎回来!

在下面登录您的帐户

忘记密码?

重置您的密码

请输入您的用户名或电子邮件地址以重置密码。

登录