• 最新
  • 热门
  • 所有
  • 期货市场
  • 外汇动态
  • 股票行情
AI完败于人类医生,研究发现:大模型临床决策草率且不安全,最低正确率仅13%

AI 完败于人类医生,研究发现:大模型临床决策草率且不安全,最低正确率仅 13%

2024 年 7 月 30 日
苹果秋季新品发布会有望推出M5芯片iPad Pro 以纪念iPad Pro诞生十周年

苹果秋季新品发布会有望推出 M5 芯片 iPad Pro 以纪念 iPad Pro 诞生十周年

2025 年 9 月 9 日
通信ETF(515880)午后反弹超3%,算力核心环节占比超77%,规模大幅攀升超115亿元

末日通牒!以军警告 「加沙飓风」 将至

2025 年 9 月 9 日
A股盈利周期迎来重要拐点,A500ETF基金(512050)跌超2%,机构称短期震荡不改成长风格主线

【「十四五」 以来工信部系统谋划未来制造等六大重点方向】 在 9 月 9 日举行的国新办新闻发布会上,工业和信息化部部长李乐成在回应新华财经记者提问时表示,「十四五」 以来,工信部系统谋划未来制造、未来信息、未来材料、未来能源、未来空间、未来健康等六大重点方向,累计部署 「揭榜挂帅」 攻关任务 110 项,指导地方因地制宜建设 63 家省级未来产业先导区。超导量子计算机、光量子计算机实现量子优越性验证,激光制造技术整体水平进入国际第一梯队,人形机器人具备从关键芯片、部组件到整机的全产业链制造能力,脑机接口应用从医疗领域向教育、工业等领域拓展。

2025 年 9 月 9 日
山东烟台市苹果「新农提升计划」项目启动仪式暨培训会顺利举办

山东烟台市苹果 「新农提升计划」 项目启动仪式暨培训会顺利举办

2025 年 9 月 9 日
2025年了,AI还看不懂时钟?

2025 年了,AI 还看不懂时钟?

2025 年 9 月 9 日
光通信技术重大突破!微软团队顶刊发文:新型空芯光纤打破物理极限

光通信技术重大突破!微软团队顶刊发文:新型空芯光纤打破物理极限

2025 年 9 月 9 日
美国FCC撤销许可,将禁止信通院等10家中国实验室测试美国电子产品

美国 FCC 撤销许可,将禁止信通院等 10 家中国实验室测试美国电子产品

2025 年 9 月 9 日
扶了王健林一把的男人,千万股权被冻结

万亿芯片巨头收购预案出炉!明日复牌;「大而美法案」 下,A 股钴化学巨头拟 1.21 亿美元出售 BCM 公司 25% 股权;【并购一线】

2025 年 9 月 9 日
锇回收价格多少钱一克(2025年09月01日)

港股医药板块探底回升,恒生创新药 ETF(159316) 今日获超 1 亿份净申购

2025 年 9 月 9 日
产业链整体缺乏利好驱动 纸浆短期或延续低位震荡

产业链整体缺乏利好驱动 纸浆短期或延续低位震荡

2025 年 9 月 9 日
游戏ETF(516010)涨超3%,游戏行业景气度与估值空间引关注

武汉今日黄金价格多少钱一克 (2025 年 9 月 5 日)

2025 年 9 月 9 日
人形机器人商业化提速 机构高频调研忙不停

人形机器人商业化提速 机构高频调研忙不停

2025 年 9 月 9 日
禾湖财经
  • 登录
  • 首页
  • 24 小时
  • 行业新闻
  • 股票行情
  • 基金快讯
  • 期货市场
  • 禾湖观察
  • 期货研报
  • 国际金融
  • 外汇动态
  • 贵金属
2025 年 9 月 9 日 星期二
没有结果
查看所有结果
  • 首页
  • 24 小时
  • 行业新闻
  • 股票行情
  • 基金快讯
  • 期货市场
  • 禾湖观察
  • 期货研报
  • 国际金融
  • 外汇动态
  • 贵金属
没有结果
查看所有结果
禾湖财经
没有结果
查看所有结果
首页 24 小时

AI 完败于人类医生,研究发现:大模型临床决策草率且不安全,最低正确率仅 13%

1 年 之前
在 24 小时
阅读时间: 2 mins read
0 0
A A
AI完败于人类医生,研究发现:大模型临床决策草率且不安全,最低正确率仅13%


文 | 学术头条

人类医生,会因为 ChatGPT 等大模型纷纷下岗吗?

这种担心,并非空穴来风。毕竟,谷歌的大模型 (Med-PaLM 2) 已经轻松拿下了美国医学执照考试,达到了医学专家的水平。

然而,一项最新研究表明:在临床方面,人类医生完胜目前的人工智能 (AI) 模型,无需过于担心个人 「失业问题」。

相关研究论文以 「Evaluation and mitigation of the limitations of large language models in clinical decision-making」 为题,已于近日发表在科学期刊 Nature Medicine 上。

该研究发现,即使是目前最先进的大语言模型 (LLM) 也无法为所有患者做出准确诊断,且表现明显差于人类医生——

医生的诊断正确率为 89%,而 LLM 的诊断正确率仅为 73%。在一个极端情况 (胆囊炎诊断) 下,LLM 正确率仅为 13%。

更令人惊讶的是,随着对病例信息的了解增多,LLM 的诊断准确度反而会降低,有时甚至会要求进行一些可能对患者有严重健康风险的检查。

化身急诊科医生,LLM 表现如何?

尽管 LLM 可以轻松拿下美国医学执照考试,但医学执照考试和临床案例挑战适合只测试考生的一般医学知识,难度远不如日常复杂的临床决策任务。

临床决策是一个多步骤的过程,需要从不同来源收集和整合数据,并不断评估事实以达成基于证据的患者诊断和治疗决策。

为了进一步研究 LLM 在临床诊断中的潜力,来自慕尼黑工业大学的研究团队及其合作者基于医疗信息市场重症监护数据库 (MIMIC-IV) 制作了一个涵盖 2400 个真实患者案例和 4 种常见腹部疾病 (阑尾炎、胰腺炎、胆囊炎和憩室炎) 的数据集,模拟现实的临床环境,重现从急诊到治疗的过程,从而评估其作为临床决策者的适用性。

图|数据集来源及评估框架。该数据集来源于 MIMIC-IV 数据库中的真实病例,包含住院期间记录的全面电子健康记录数据。评估框架反映了一个现实的临床环境,从多个标准对 LLM 进行全面评估,包括诊断准确性、遵循诊断和治疗指南的情况、遵循指令的一致性、解释实验室结果的能力,以及对指令变化、信息量和信息顺序变化的鲁棒性。ICD,国际疾病分类;CT,计算机断层扫描;US,超声波;MRCP,磁共振胰胆管成像。

研究团队测试了 Llama 2 及其衍生版本,包括通用版本 (如 Llama 2 Chat、Open Assistant、WizardLM) 和医学领域对齐的模型 (如 Clinical Camel 和 Meditron)。

测试对照组为四位来自两个国家且有不同年限 (分别是 2 年、3 年、4 年和 29 年) 急诊经验的内科医生。结果显示,LLM 在临床诊断中的表现远不如人类医生。

1.LLM 的诊断性能显著低于临床

医生结果显示,当前 LLM 在所有疾病的整体表现上显著逊色于医生 (P < 0.001),诊断准确性差距在 16%-25% 之间。虽然模型在简单的阑尾炎诊断中表现较好,但在胆囊炎等其他病理的诊断中表现不佳,特别是 Meditron 模型在胆囊炎诊断中失败,常将患者诊断为 「胆结石」。

专业医学 LLM 在整体表现上未显著优于其他模型,而当 LLM 需要自行收集所有信息时,其表现会进一步下降。

图|全信息提供条件下的诊断准确率。数据基于 MIMIC-CDM-FI 的一个子集 (n=80),每个条形图上方显示了平均诊断准确率,垂直线表示标准偏差。LLM 的平均表现显著较差 (P < 0.001),尤其是在胆囊炎 (P < 0.001) 和憩室炎 (P < 0.001) 方面。

图|自主临床决策场景下的诊断准确率。对比全信息提供场景下,模型判断正确率整体都有明显下降。LLM 在诊断阑尾炎时表现最好,但在胆囊炎、憩室炎和胰腺炎这三种病理上表现较差。

2.LLM 的临床决策草率且不安全

研究团队发现,LLM 遵循诊断指南方面表现不佳,容易遗漏患者的重要身体信息。此外在安排患者必要实验室检查方面缺乏一致性。LLM 在解读实验室结果方面也有明显不足。这表明它们在没有充分了解患者病例的情况下草率诊断,对患者健康构成严重风险。

图|LLM 推荐治疗方式评估。期望的治疗方案是根据临床指南和数据集中患者实际接受的治疗确定的。在 808 名患者中,Llama 2 Chat 正确诊断了 603 人。在这 603 名患者中,Llama 2 Chat 在 97.5% 的情况下正确推荐了阑尾切除术。

3.LLM 仍需要大量的医生临床监督

另外,当前所有的 LLM 在遵循基础医学指导方面表现不佳,在每 2-4 个病例中出现错误,且每 2-5 个病例中就会虚构不存在的指导。

图|LLM 在不同数据量下的表现。该研究比较了每个模型在使用所有诊断信息与仅使用单一诊断检查和现病史的表现。对于几乎所有疾病,在 MIMIC-CDM-FI 数据集中,提供所有信息并未导致最佳表现。这表明,LLM 无法集中于关键事实,当提供过多信息时,表现会下降。

该研究还表明,为每个模型提供最佳性能的信息顺序对于每种病理都是不同的,这无疑进一步增大了后续优化模型的难度。在没有广泛的医生监督和事先评估的情况下,无法可靠地完成任务。总的来说,它们在遵循指令、处理信息的顺序以及对相关信息的处理上存在明细缺陷,因此需要大量临床监督以确保其正确运行。

虽然该研究发现了 LLM 在临床诊断下的各种问题,但 LLM 在医学方面的前景依然巨大,很可能更适合根据病史和测试结果做出诊断。研究团队认为,该研究工作在以下两个方面具有进一步拓展的空间:

  • 模型验证和测试:进一步的研究应集中在对 LLM 进行更全面的验证和测试,以确保其在真实临床环境中的有效性。

  • 多学科合作:建议将 AI 专家与临床医生密切合作,以共同开发和优化适用于临床实践的 LLM,并解决实际应用中的问题。

AI 在如何颠覆医疗?

不只是上述研究,来自美国国立卫生研究院 (NIH) 的团队及其合作者,也发现了类似的问题——在回答 207 个图像挑战问题时,GPT-4V 虽然在选择正确诊断方面得分很高,但在描述医学图像和解释诊断背后的原因方面经常会犯错。

尽管 AI 目前还远不如人类专业医生,但其在医疗行业的研究与应用,一直是国内外科技公司和科研高校竞相角逐的重要 「战场」。

例如,谷歌发布的医疗 AI 大模型 Med-PaLM2,具备了强大的诊断和治疗能力,同时也是第一个在 MedQA 测试集中达到 「专家」 水平的大模型。

清华大学研究团队提出的 「智能体医院」(Agent Hospital),可以模拟治疗疾病的整个过程,其核心目标是让医生智能体学会如何在模拟环境中治疗疾病,甚至可以不断从成功和失败的病例中积累经验实现自我进化。

哈佛医学院领衔开发了一个用于人类病理学的视觉语言通用 AI 助手——PathChat,其能够在近 90% 的情况下从活检切片中正确识别疾病,其表现优于 GPT-4V 等目前市面上的通用 AI 模型和专业医疗模型。

图|指令微调数据集和 PathChat 构建

日前,OpenAI CEO Sam Altman 参与成立了一家新公司 Thrive AI Health,旨在借助 AI 技术帮助人们改善日常习惯,降低慢性病死亡率。

他们称,超个性化的 AI 技术可以有效地改善人们的生活习惯,从而预防和管理慢性疾病,减轻医疗经济负担,并提高人们的整体健康水平。

如今,AI 在医疗行业的应用已经从最初的实验阶段逐渐过渡到实际应用阶段,但距离帮助临床医生增强他们的能力、改善临床决策,甚至直接取代,或许依旧有很长的一段路要走。



猜您喜欢

美光:「过热」 的 HBM,会从缺货走向过剩吗?

美光:「过热」 的 HBM,会从缺货走向过剩吗?

1 年 之前
0
【环球财经】墨总统:反对美方加征关税

【环球财经】 德国商业景气指数环比上升

2 月 之前
0

相关 文章

苹果秋季新品发布会有望推出M5芯片iPad Pro 以纪念iPad Pro诞生十周年
国际金融

苹果秋季新品发布会有望推出 M5 芯片 iPad Pro 以纪念 iPad Pro 诞生十周年

2 分 之前

【文章来源:techweb】【财点通】9 月 9 日消息,据外媒报道,苹果公司上上周就已在官网发布邀请函,宣布他们今年秋季的新品发布会,将在太平洋时间 9 月 9 日上午 1...

通信ETF(515880)午后反弹超3%,算力核心环节占比超77%,规模大幅攀升超115亿元
禾湖观察

末日通牒!以军警告 「加沙飓风」 将至

3 分 之前

【文章来源:金十数据】 以色列周一警告称,若哈马斯不释放最后一批人质并投降,将升级对加沙地带的空袭和地面行动,并告知加沙城居民立即撤离。 以军向该巴勒斯坦武装组...

  • 热门
  • 评论
  • 最新
老凤祥回收黄金多少钱一克(2025年6月27日)

国海证券策略首席分析师胡国鹏:下半年 A 股牛途在望,配置核心在科技成长

2025 年 8 月 1 日
铑多少钱一克(2025年06月27日)

人工智能+行动重磅发布!资金借道软件 ETF(515230) 布局,连续两日吸金近 2 亿元

2025 年 8 月 1 日
郑州宝泉钱币周五(6月27日)银条价格8.79元/克

老凤祥黄金价格今天多少一克 (2025 年 07 月 30 日)

2025 年 8 月 1 日
Lesson 1: Basics Of Photography With Natural Lighting

The Single Most Important Thing You Need To Know About Success

Lesson 1: Basics Of Photography With Natural Lighting

Lesson 1: Basics Of Photography With Natural Lighting

Lesson 1: Basics Of Photography With Natural Lighting

5 Ways Animals Will Help You Get More Business

苹果秋季新品发布会有望推出M5芯片iPad Pro 以纪念iPad Pro诞生十周年

苹果秋季新品发布会有望推出 M5 芯片 iPad Pro 以纪念 iPad Pro 诞生十周年

2025 年 9 月 9 日
通信ETF(515880)午后反弹超3%,算力核心环节占比超77%,规模大幅攀升超115亿元

末日通牒!以军警告 「加沙飓风」 将至

2025 年 9 月 9 日
A股盈利周期迎来重要拐点,A500ETF基金(512050)跌超2%,机构称短期震荡不改成长风格主线

【「十四五」 以来工信部系统谋划未来制造等六大重点方向】 在 9 月 9 日举行的国新办新闻发布会上,工业和信息化部部长李乐成在回应新华财经记者提问时表示,「十四五」 以来,工信部系统谋划未来制造、未来信息、未来材料、未来能源、未来空间、未来健康等六大重点方向,累计部署 「揭榜挂帅」 攻关任务 110 项,指导地方因地制宜建设 63 家省级未来产业先导区。超导量子计算机、光量子计算机实现量子优越性验证,激光制造技术整体水平进入国际第一梯队,人形机器人具备从关键芯片、部组件到整机的全产业链制造能力,脑机接口应用从医疗领域向教育、工业等领域拓展。

2025 年 9 月 9 日
  • 隐私政策
  • 联系我们
  • 关于禾湖
联系我们:+86 15388934451

Copyright © 2025 长沙禾湖信息科技有限公司. 湘 ICP 备 2023006560 号-2

没有结果
查看所有结果
  • Home
  • Tech

Copyright © 2025 长沙禾湖信息科技有限公司. 湘 ICP 备 2023006560 号-2

欢迎回来!

在下面登录您的帐户

忘记密码?

重置您的密码

请输入您的用户名或电子邮件地址以重置密码。

登录