在医疗系统超负荷运转导致候诊名单冗长、费用攀升的现状下,越来越多人开始借助ChatGPT等人工智能聊天机器人进行自我诊断。最新调查显示,约六分之一的美国成年人每月至少使用一次聊天机器人获取健康建议。

Cover Image

但牛津大学主导的最新研究表明,过度依赖聊天机器人的诊断结果存在风险,部分原因在于人们难以把握该向聊天机器人提供哪些信息才能获得最佳医疗建议。“研究揭示了双向沟通障碍,”牛津互联网研究院研究生部主任、该研究合著者亚当·马赫迪(Adam Mahdi)向TechCrunch表示,“使用聊天机器人的群体并未比依赖网络搜索或个人判断等传统方式的参与者做出更优决策。”

这项研究招募了约1300名英国参与者,让他们分析由医生团队编写的医疗情境案例。参与者需要识别案例中的潜在健康问题,并通过聊天机器人及自主方式确定应对方案(如就医或住院)。测试使用的AI模型包括ChatGPT默认的GPT-4o、Cohere公司的Command R+,以及曾支撑Meta AI助手的Llama 3模型。

研究显示,聊天机器人不仅降低了参与者识别相关健康问题的准确率,还导致他们更容易低估已识别病情的严重程度。马赫迪指出,参与者在咨询时常遗漏关键细节,或收到难以解读的答复。“(聊天机器人)返回的答案往往混杂着优质与劣质建议,”他补充道,“现行评估体系无法反映人机交互的复杂性。”

该结论发布之际,科技公司正大力推广AI医疗应用。据报道,苹果(Apple)正在开发能提供运动、饮食及睡眠建议的AI工具;亚马逊(Amazon)探索基于AI的医疗数据库分析方法以识别“健康社会决定因素”;微软(Microsoft)则协助构建AI系统来分流患者发送给医护人员的消息。

但正如TechCrunch此前报道,对于AI是否适用于高风险医疗场景,专业人士与患者仍存分歧。美国医学会明确反对医生使用ChatGPT等聊天机器人辅助临床决策,包括OpenAI在内的主要AI公司也警告勿以其聊天机器人的输出作为诊断依据。

“我们建议医疗决策应依托可靠信源,”马赫迪强调,“现有聊天机器人评估标准未能体现人机交互的复杂性。如同新药临床试验,这类系统在部署前需经过真实场景检验。”


文章标签: #医疗AI #健康咨询 #牛津研究 #诊断风险 #科技公司

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。