• 最新
  • 热门
  • 所有
  • 期货市场
  • 外汇动态
  • 股票行情
好险,差点被DeepSeek幻觉害死

好险,差点被 DeepSeek 幻觉害死

2025 年 7 月 10 日
「万机之母」工业母机ETF(159667)连续3日净流入超1.6亿元,政策助力,工业母机板块利好频传

债市日报:9 月 9 日

2025 年 9 月 10 日
摇身一变成「衰退指标」?华尔街惶惶:美债收益率是不是跌太快了

摇身一变成 「衰退指标」?华尔街惶惶:美债收益率是不是跌太快了

2025 年 9 月 10 日
固态电池生产设备企业上半年订单激增

「AI+能源」 政策赋能新能源板块,新能源车 ETF(515030) 涨超 2.92%,多股涨停

2025 年 9 月 10 日
24K金价格多少钱一克(2025年09月01日)

《2025 年世界人才排名》 香港跃至亚洲第一

2025 年 9 月 10 日
科创板晚报|成都华微发布4通道12位40G射频直采ADC芯片 苑东生物盐酸纳呋拉啡口崩片获药品注册证书

苹果发布会就在今夜!iPhone 17 系列携十款新品亮相

2025 年 9 月 10 日
通信ETF(515880)盘中翻红大涨超4%,「光模块ETF」哪里找?布局光模块占比50% 通信ETF

铱多少钱一克 (2025 年 09 月 05 日)

2025 年 9 月 10 日
今日水贝金条回收价格查询(2025年09月01日)

以需求为牵引 多维推进期权深度应用

2025 年 9 月 10 日
工作后才意识到,我是「社会化」程度低的人

工作后才意识到,我是 「社会化」 程度低的人

2025 年 9 月 10 日
电动自行车新规喜忧参半

港股科技股领涨,恒生科技指数涨超 1%,恒生科技 ETF 易方达 (513010) 近期 「吸金」 势头强劲

2025 年 9 月 10 日
科创板收盘播报:科创50指数跌1.64% 电气设备股表现活跃

券商晨会精华:未来中期看,全球流动性对金价有一定支撑

2025 年 9 月 10 日
新华财经晚报:8月全国乘用车新能源市场零售107.9万辆

新华财经晚报:市场监管总局已约谈主要外卖平台 抵制恶性补贴

2025 年 9 月 10 日
18K金回收价格多少钱一克(2025年09月01日)

马克龙两年换五相 谁可能接下法国总理这一 「烫手山芋」?

2025 年 9 月 10 日
禾湖财经
  • 登录
  • 首页
  • 24 小时
  • 行业新闻
  • 股票行情
  • 基金快讯
  • 期货市场
  • 禾湖观察
  • 期货研报
  • 国际金融
  • 外汇动态
  • 贵金属
2025 年 9 月 10 日 星期三
没有结果
查看所有结果
  • 首页
  • 24 小时
  • 行业新闻
  • 股票行情
  • 基金快讯
  • 期货市场
  • 禾湖观察
  • 期货研报
  • 国际金融
  • 外汇动态
  • 贵金属
没有结果
查看所有结果
禾湖财经
没有结果
查看所有结果
首页 行业新闻

好险,差点被 DeepSeek 幻觉害死

2 月 之前
在 行业新闻
阅读时间: 4 mins read
0 0
A A
好险,差点被DeepSeek幻觉害死

猜您喜欢

我在义乌卖顶流Labubu,等待下一个爆品

我在义乌卖顶流 Labubu,等待下一个爆品

3 月 之前
0
7月起,一批新规将施行

AI 人才军备赛:投不投 00 后,是信仰问题

1 周 之前
0



我尼玛,这次差点被 DeepSeek 坑死!

原因是最近疑似华为离职员工自曝盘古事件,我想到网上找一些类似事件,同时使用的 GPT 和 DeepSeek,结果看着 DeepSeek 的更吸引人就采用了两条。

关键提示词是:国外还有类似这种技术人员爆料事件吗?从结果来看:时间地点人物事件,一应俱全啊!

这些信息可可大可小啊,结果全部是胡编乱造的。我尼玛,服气,真的不知道文章发出去火了会有什么后果,真的不能相信 AI……

前几个月 《高层论坛:实现汽车产业高质量发展》 才刚召开,因为汽车行业卷得不行,现在大家都想在智能驾驶上发力,其中有句话令我印象深刻:

对智能驾驶来说,安全是最大的奢侈。

而这一回旋镖马上就击中了小米,从现在来看疑是由于智能驾驶导致的车祸而导致重大车祸:

怎么说呢?对于 AI 产品来说:安全是 1,有效是 0,不安全什么都没有!

对于智能驾驶,不出事是 1,跑得快是 0。

智能驾驶是,模型开发也是如此,比如基于模型做出来的产品更是如此!

无独有偶,国外其实也有一产品 Character.AI 涉及过 「AI 杀人案例」:

2024 年 2 月 28 日,美国佛罗里达州的 14 岁男孩塞维尔·塞泽三世 (Sewell Setzer Ⅲ)在与 Character AI 上的 AI 角色进行长时间聊天后开枪自杀身亡。

后来,她的母亲对 Character AI 提起诉讼,认为 Character AI 以 「拟人化、过度性化和令人恐惧的逼真体验」 导致她儿子对 AI 角色上瘾,并深陷其中。

模型是通过海量语料进行训练的,基于模型的 AI 产品背后拥有成百上千的 SOP。

无论是对模型投喂的数据,还是用于 「取悦」 用户的 SOP,背后会涉及大量行为学、心理学等知识,意思是:如果我们想,用户与 AI 聊天甚至可以达到游戏的体验!

事实上,模型本身就具备这种能力,比如大模型的 「谄媚」 特性就尤其突出!

所谓 「谄媚」,就是模型很容易被引导,从而给到赞同、符合你心理预期的回答,而这对于心智缺乏的用户可能导致巨大问题!

举个例子:用户曾经可能只是比较消极,而且他懵懵懂懂,但由于更大模型的对话过程中,消极的情绪会被进一步扩大,并且大模型会有理有据证明用户的消极,这种高端思维来源于先哲的思辨,对心智缺失的用户会造成降维打击,从而引发巨大的心理冲击,而过程中一个引导不利就可能导致错误行为……

所以,现在很多政策正在要求互联网产品主动披露其在产品设计方面的 「暗黑模式」,或立法对 「暗黑模式」 进行限制。

抛开应用层的包装与引导,这里我们回归模型本身,模型本身其实也挺不安全的。

据 Vectara HHEM 人工智能幻觉测试,DeepSeek-R1 显示出 14.3% 的幻觉率,是 V3 的近 3 倍:

一、模型幻觉

模型是各 AI 产品的底座,但是他好像天生残疾,是个阴阳人,没有什么坚定立场,很容易被影响不说还非常自信,并且总是一本正经地胡说八道。

还是之前的经典案例,我在使用最先进的模型 GPT 的 Deep Research,让他解决的问题是:梳理所有的医疗信息发布渠道,并且按权威性排序。

首先,这个问题本身的复杂度是极高的,我并不期待模型能够给出完整的回答,但是他给我的回答是:

这里马上出了巨大问题,我虽然不期待模型给我完善的回答,但是他不能有关键的错漏,比如:连最基础的医疗教科书都没有,这我是不能忍的。

而其他模型在这种复杂问题上,表现也是不佳的。

稍微上升下问题:如果模型在治病的时候发生了漏诊、如果模型在给予治疗方案的时候采用了过期的方案,给到了错误的药物,那怎么办?

而实验显示,在医疗问答任务中,模型对错误答案的置信度 (softmax 概率)常高于正确答案。

这种错误自信现象源于训练数据中伪科学内容的高频出现,如 「维生素 C 抗癌」 在健康论坛中的重复强化。

而从模型实现原理来说,这就是它的原罪,并且靠模型自身是难以自己解决的。

幻觉根由

模型是根据训练数据中的概率分布来预测输出,因此,它并不具备真正的理解力,而是生成在语义上高度符合统计规律的文本,从这个逻辑来说,模型应该归属于统计学领域。

因为统计学逻辑,模型的预测目标是基于最小化预测误差,而不是内容真实性,那么在逻辑上模型幻觉永远不能完全消除。

另一方面,幻觉通常源于模型训练数据中的噪声、过拟合、或生成策略的不可控性:

  1. 数据偏差:训练数据包含错误或矛盾信息;

  2. 模型过拟合:对训练数据中的噪声过于敏感;

  3. 生成策略自由度过高:解码时缺乏事实一致性约束;

除此之外,当前稍微复杂点的疑难杂症往往都是 「危险的」,而他们病历的厚度可能像一本书!

当前的模型上下文虽然越来越长,但依旧会有两个问题:

  1. 输入越长,模型理解越差;

  2. 模型经常难以覆盖完整上下文,会存在知识遗忘现象;

最后,模型的第一要务是回答问题,模型在追求流畅性时,可能牺牲真实性。

以上是模型幻觉的根由,也就是 100 次问题,模型总会骗你 1 次,你要赌那一次 「枪里有没有子弹」!

二、安全 > 幻觉

模型幻觉会导致 AI 产品的不安全,但 AI 产品的边界远大于幻觉,以医疗 AI 为例。

1. 过度自信

医生在临床实践中往往对自己的判断过于自信,忽视了病人症状的多样性。

例如,医生可能会因为过度依赖 「最常见」 诊断而漏诊罕见病,如误诊为普通流感的莱姆病,导致治疗延误,严重时可致死。

而模型依赖于训练数据,IBM Watson 号称数据全部由专家标注很是严格,但就是他们,也被曝训练数据包含大量假设性案例。

那么,现在的模型得回答由不得医疗体系不注意啊!

2. 锚定效应

医生在患者就诊时,过度依赖患者最初描述的症状,未能根据后续检查调整判断。

比如,患者在急诊时报告了典型的胃痛症状,医生根据首个描述忽视了其他可能的急性心脏病症状,导致误诊。

这个案例的医生可能还会有些委屈,因为心脏病与一般的胃痛压根不是一个科室,消化科医生看不懂心内科的病,他可能会直接忽视。

在类似的案例里面就算医生做进一步检查排除了胃痛,但因为他不知道到底是什么,也可能没引起重视而会 「对症下药」,开一点止痛片最终耽搁病情。

以上问题在模型中会同样存在,AI 在进行诊断时,过度依赖患者输入的首个症状信息 (如 「头痛」),忽略后续症状的变化或患者的具体情况,从而影响了后续的诊断准确性。

3. 确认偏误

另一个问题,如果模型中罕见病的记录太少,也可能被直接忽略,这里的逻辑是:常见病容易诊断、罕见病容易误诊。

比如:医生在诊断某种疾病时,过度依赖自己之前的经验,选择性地关注那些支持自己诊断的症状,忽视了与之不符的其他症状,导致错误诊断。

例如,医生可能因为曾经治疗过类似症状的患者而过早得出诊断,忽视了其他潜在疾病。

这种就是典型的拿着锤子找钉子,因为历史上碰到的都是钉子,一旦看到类似物品,就习惯了用锤子而忽视其他了。

模型训练时,过度依赖特定症状的组合,忽视了其他罕见但可能的重要症状,导致诊断错误。

从先验概率来说,模型在做诊断的时候,一定会优先考虑常见病而忽视罕见病,概率统计如此,而这在某种层面是正确的,但正确并不等于安全!

4. 归因偏差

医生可能错误地将病人的症状归因于生活方式问题 (如缺乏锻炼或饮食不当),忽视了可能存在的医学问题 (如癌症或心脏病),导致诊断延误。

模型也是一样,因为不是所有患者都能很清晰地描述自己的症状,模型在被 「无效症状描述」 干扰的情况下,很可能将病人的症状归因于与之相关的显著特征而忽视其他潜在的混淆因素。

比如,AI 可能会将病人的体重归因于糖尿病,而忽略了其他导致肥胖的健康问题。

......

虽然模型幻觉是 AI 安全性问题的一个显著方面,但它远不是唯一的风险。

在 AI 应用中,除了技术问题,伦理问题也是不可忽视的方面。比如,如何在医疗、法律 AI 应用中处理用户隐私,都是安全领域必须关注的部分。

三、AI 产品的安全规则

综上,AI 产品的 「天马行空」 一定要被约束到安全的边界以内,这也是为什么我一直在强调:严肃领域的 Agent,是没有模型自由发挥的空间的!

当前 AI 产品有两条技术路线:

第一,模型仅仅是基础能力,我们做应用开发并不依赖模型,甚至会选择尽量对模型减少依赖,只用不得不用的部分:

另一条路线也就是大模型 (比如上述 L1-L5)所追求的了:用户只有一个大模型工具,而我将完成一切,以 Deep Research、Manus 为例,他其实可以归属到这个领域,因为此图:

当时有人问了一个问题是:Manus 团队你们自己写了多少个 workflow?

大家可以猜一下答案是多少?答案是 0。也就是他们的 SOP 直接由模型生成!再看其技术架构 (网上的图):

举个例子,如果现在你看一个病:

  1. 如果是路径一,他将会由一家医疗公司遵循严格的 SOP,为你做治疗,而且他们为这套 SOP 负责;

  2. 如果是路径二,虽然可能也是一家医疗公司提供,但这家医疗公司没有 SOP,所有的 SOP 全部由模型生成;

这个路径二,就问各位慌不慌?对于曾经从事医疗大模型的人,我绝不会在严肃场景使用 Manus 这种模式,因为安全性是 1,其他都是 0!

最后,以医疗 AI 为例,简单聊聊如何防治模型,增强安全性。

PS:要特别注意,这里仅仅是以医疗为例,方案是通用的

四、安全性策略

所有的严肃领域,都应该将焦点从技术突破转向安全体系建设。

比如,AI 在医疗领域最突出的便是模型幻觉和临床安全性问题。

为了弥补这些不足,会有很多策略会被提出来,我这里挑两个常用的做介绍:

 1. 提示词工程

最简单的方式其实还是直接上提示词,比如 ChatGPT 的回答可以用 DeepSeek 去校准,以下是一个医疗场景的案例:

因为我原来是医疗行业的,真实场景的方式比较敏感不能放出来,在网上找了一篇不错的文章做说明:(《医疗 CoT 全面分析》)

五、结语

在 AI 快速发展的今天,各行各业都在被颠覆、被赋能,但它所带来的安全隐患同样不容忽视。

我们在做 AI 产品开发的时候,一定要谨记:安全是 1,有效是 0,不安全什么都没有!

这不仅是对智能驾驶的警示,更是对所有 AI 应用领域的深刻反思。尤其是在医疗等严肃领域,任何细微的错误都可能对生命产生不可逆的影响。

因此,尽管 AI 模型在技术层面取得了突破,但其背后的安全性、可控性和伦理性问题依然需要我们持续关注和解决。

只有在确保 AI 的安全性和可靠性的基础上,才能真正实现它为人类社会带来的价值。

未来的 AI 发展,必须始终以 「安全为先」,在技术创新的同时,构建更为完善的安全体系,才能在实践中赢得人们的信任与支持,避免技术的失控带来无法挽回的后果。

本文来自微信公众号:叶小钗,作者:叶小钗

相关 文章

「万机之母」工业母机ETF(159667)连续3日净流入超1.6亿元,政策助力,工业母机板块利好频传
24 小时

债市日报:9 月 9 日

3 分 之前

新华财经北京 9 月 9 日电 (王菁) 债市周二 (9 月 9 日) 延续走弱,国债期货全线收跌,银行间现券收益率多数上行 1-2BPs,公开市场单日净回笼 87 亿元,资金面紧势未消,...

摇身一变成「衰退指标」?华尔街惶惶:美债收益率是不是跌太快了
24 小时

摇身一变成 「衰退指标」?华尔街惶惶:美债收益率是不是跌太快了

7 分 之前

财联社 9 月 9 日讯 (编辑 潇湘) 犹记得上周初,全球市场还在为 30 年期美债收益率可能升破 5% 而惶惶不安。然而,才过去了短短一周,债市的焦点却似乎迅速从一个极端转向了...

  • 热门
  • 评论
  • 最新
老凤祥回收黄金多少钱一克(2025年6月27日)

国海证券策略首席分析师胡国鹏:下半年 A 股牛途在望,配置核心在科技成长

2025 年 8 月 1 日
铑多少钱一克(2025年06月27日)

人工智能+行动重磅发布!资金借道软件 ETF(515230) 布局,连续两日吸金近 2 亿元

2025 年 8 月 1 日
郑州宝泉钱币周五(6月27日)银条价格8.79元/克

老凤祥黄金价格今天多少一克 (2025 年 07 月 30 日)

2025 年 8 月 1 日
Lesson 1: Basics Of Photography With Natural Lighting

The Single Most Important Thing You Need To Know About Success

Lesson 1: Basics Of Photography With Natural Lighting

Lesson 1: Basics Of Photography With Natural Lighting

Lesson 1: Basics Of Photography With Natural Lighting

5 Ways Animals Will Help You Get More Business

「万机之母」工业母机ETF(159667)连续3日净流入超1.6亿元,政策助力,工业母机板块利好频传

债市日报:9 月 9 日

2025 年 9 月 10 日
摇身一变成「衰退指标」?华尔街惶惶:美债收益率是不是跌太快了

摇身一变成 「衰退指标」?华尔街惶惶:美债收益率是不是跌太快了

2025 年 9 月 10 日
固态电池生产设备企业上半年订单激增

「AI+能源」 政策赋能新能源板块,新能源车 ETF(515030) 涨超 2.92%,多股涨停

2025 年 9 月 10 日
  • 隐私政策
  • 联系我们
  • 关于禾湖
联系我们:+86 15388934451

Copyright © 2025 长沙禾湖信息科技有限公司. 湘 ICP 备 2023006560 号-2

没有结果
查看所有结果
  • Home
  • Tech

Copyright © 2025 长沙禾湖信息科技有限公司. 湘 ICP 备 2023006560 号-2

欢迎回来!

在下面登录您的帐户

忘记密码?

重置您的密码

请输入您的用户名或电子邮件地址以重置密码。

登录