图片由 AI 生成
AI 正在与医生正面交锋,让医生是绝对权威的时代成为过去式。现在,患者在看病之前,会先用 AI 大模型问一遍,再到医院与医生讨论病情。
「不管医生喜欢不喜欢,我们都要面临这样的问题,很多病人是问了 DeepSeek 或者 ChatGPT 之后,再来医院看病。」 北京大学医学部皮肤与性病学系主任,北京大学人民医院皮肤科副主任、主任医师、博士生导师李厚敏对作者表示。
尤其是她发现,在一线城市,甚至有生活在国外而回国看病的患者,他们还了解各国的诊疗指南,并以此与医生探讨问题。
而随着垂类大模型正在医学领域展现巨大潜力,医疗大模型临床辅助实用性得到进一步的提高。
今年 5 月,OpenAI 发布了全新的开源模型 HealthBench。这是一项衡量 AI 模型在医疗领域新的基准测试,由来自 60 个国家的 262 位医生合作打造。HealthBench 内置了 5000 段真实的健康对话,每段对话都配有医生创建的自定义评分标准。而 GPT-4.1 在评分模型的 7 个主题中,有 5 个主题的表现超过了医生平均水平。
7 月,微软最新发布的突破性医疗 AI 系统 MAI-DxO。研究人员收集了 《新英格兰医学杂志》 发布的真实疑难病例,在 304 例病例测试中,MAI-DxO 诊断系统的 AI 诊断准确率达 85.5%,远超人类医生 20% 左右的准确率,而 MAI-DxO 成本更低、效率更高。
国产大模型在这一领域也有相关进展披露。7 月 23 日,夸克方面宣布,夸克健康大模型成功通过中国 12 门核心学科的主任医师笔试评测。目前,「主任级 AI 医生」 能力已全面集成至夸克的 AI 搜索中,用户在查询健康问题时,选择深度搜索即可调用。
夸克健康大模型以通义千问为基础,面向垂直场景的做了深度工程化的工作。夸克健康算法负责人徐健向作者介绍,夸克健康大模型的核心突破之一,是构建出 「慢思考」 能力。
该能力融合了链式推理与多阶段临床演绎路径建模,驱动模型在面对复杂医疗问题时,能够分阶段、层层深入地推导出最终回答。
这背后是基于夸克构建的 「双数据产线+双奖励机制」 的工程体系。一方面,模型将医学数据划分为 「可验证」 和 「不可验证」 两类,分别对应诊断类任务和健康建议类任务;另一方面,在训练方法上引入 「过程奖励模型」 和 「结果奖励模型」,分别评估模型推理链的合理性与最终结论的准确性,提升模型的临床可解释性和推理一致性。
据徐健介绍,健康大模型在诊疗上的效果,门诊常见病场景下,模型诊断准确率达 90.78%,与人类医生书写的病历准确率水平相当。
事实上,在健康领域,模型可靠性至关重要,一个错误的答案的破坏性,可以抵消掉数个正确答案为 AI 带来的优势。
医疗垂直模型需要专业医师团队的深度参与。OpenAI 联动了多国医生联合打造医疗模型,而夸克健康大模型背后也有千人规模的专业医师标注团队,其中,超过 400 名为副主任医师及以上的高资历医疗专家。
不过,很多医生对于医疗大模型秉持的是审慎接受的态度。
李厚敏认为,诊疗指南或者 AI 给出的答案通常都很泛,针对个体具体的病症的诊疗,还是需要专业人士给出建议。而且,面对同一个 AI 解答,学医与没有学医的人,是无法达到同等级水平来理解具体的病症,这是为什么当前 AI 还不能替代医生底层逻辑之一。
「患者可以通过 AI 收获对疾病基础知识的认知,比如说,皮肤的问题可能与作息、睡眠有关,也可能是压力与焦虑导致。AI 可以让他们更好地理解病情,这二者之间不矛盾。」 李厚敏说。
事实上,不只是患者使用 AI 问诊,医生群体的成长路径,正或多或少由 AI 来辅助塑造。
据夸克健康运营负责人赵存忠透露,当前使用夸克健康的医学生群体月活跃用户已经超过了 200 万,占总体医学生 50% 以上。他们分析后发现,周内学习、期末考试时间的上半周,医学生使用 AI 的频率最高。医学生的三大核心诉求是解题、查解析、术语解释和教材知识点。
后续,专业搜索也将逐步延伸到低年资医生等垂直人群,AI 可以满足临床的知识查询和处理决策、用药需求,也包括高年资医生的科研、学术搜索的工作。
AI 的另一个重要作用体现在辅助精神疾病的治疗上,因为这类疾病具有一定的隐蔽性。
武汉大学精神卫生中心主任、教授、主任医师、博士生导师王惠玲认为,抑郁症看不见、摸不着,但确实会影响人们的生活。现在大家对精神疾病和心理问题,往往有一种 「病耻感」。
王惠玲分享了一个病例。她有一位严重抑郁症患者,该患者为了迎合外界期望 (其老师曾建议他不要一脸 「苦相」),通过刻意练习展现出标准化、极具迷惑性的 「阳光笑容」,甚至骗过了专业医生。但他内心痛苦始终真实存在,伴随失眠等症状,影响日常生活。
在这个病例中,AI 则可以通过分析面部表情 (如瞳孔变化)、语音语调和动作姿态等细微生物标记,客观识别 「假笑」,辅助诊断抑郁症,避免被表象误导。
实际上,当 AI 朝着 「高情商」 进化的时候,它能解决的不仅是专业知识的问题,还能在日常生活中,给予人类情感支持。
万事不决问 AI,生活中的烦恼事,AI 也会提供解决方案。而当 AI 产品越来越模糊年龄边界,借助 AI 玩具拓展至幼儿等更低龄阶段的时候,这又会对人类的认知和行为模式产生什么影响?
王惠玲对作者表示,这正是目前国内专家正在思考和研究的问题。现在的确有很多年轻人通过与 AI 沟通的方式倾诉烦恼。至于到底会产生什么影响,还有待足够的样本数据观察。
她认为,有渠道总比没有渠道要好。这类陪伴式 AI,解决当前一个现实问题是,在心理临床诊疗中,人力资源不足的问题。现在的医疗机构会采用辅助心理治疗的机器人,虽然这类工具还不太完善,但至少可以减少专业医生的部分工作量,以节省医疗资源。
现阶段,一个较好的场景是学生群体心理问题治疗。她的同事正在做的事情是,在学生喜欢的 「AI 树洞」 里发现那些有潜在自杀倾向的高危人群,提前做好相关干预工作,减少不良事件的发生。
不过,她也提醒,与 AI 沟通的前提是,要关注 AI 的质量,以及,构建它背后的数据库,因为不排除有的社区本身是充满负能量的,则会造成更坏的影响。AI 心理治疗效果,取决于用户选择用什么 AI。
心智成熟的人可以选择自认为合适的方式缓解压力。而对更低龄的儿童来说,依赖电子产品已经是一种趋势。而这种情况究竟会对人类产生什么影响,还需要更系统的观察。
王惠玲举例说,这类问题有点像是早教,家长们往往倾向于让小朋友更早的识字、写字,但最近有学者研究后发现,过早学习写字并不利于左右脑的发育,早教可以让小朋友听、学语言,唱歌,但学习写字可能会对大脑发育产生一定的负面影响。
「过早地使用电子产品,或者使用 AI 治疗工具,是研究过程中一个有关伦理方面的考量,专业医学上需要更多的数据和资料才能有答案。」 王惠玲说。(本文首发于钛媒体 APP,作者|李程程,编辑|李玉鹏)