事情闹大了Ai在疾病诊断中打败了人类医生

俊人随心世界 2024-11-27 16:10:45

在科技日新月异的今天,一则消息如重磅炸弹般在医疗界乃至整个社会炸开了锅——ChatGPT 4在疾病诊断中打败了人类医生,即便人类医生使用ChatGPT的情况下亦是如此,而且这一消息还登上了《纽约时报》,引发了各界的广泛关注与深刻思考。

来自斯坦福大学等机构精心组织了一场随机临床试验,50名来自不同机构、有着不同职称和工作年限的医生参与其中,他们涵盖了内科、急诊、家庭医生等多个领域,有着各异的大模型使用经验。在病例选取方面更是严谨至极,从上世纪90年代以来的105个真实病人的经典病例中精心选择和改编,经过多名专业医生层层筛选、讨论,最终确定6个病例,且将其改写成现代化实验室数据报告格式,替换专业术语,只为确保测试的科学性和有效性。

在评估方法上,研究团队设计了细致入微的“结构化反思”评估工具,从鉴别诊断、支持和反对诊断的因素、最终诊断到后续步骤等多方面进行考量,还提前招募医生进行试点、邀请专家盲评来优化评分量表。而最终得出的结果令人咋舌,ChatGPT 4单独诊断时准确率高达90%,中位数更是达到92%,而人类医生单独诊断准确率仅为74%,即便使用ChatGPT辅助,也只是提升到了76%,且实验组和对照组的差异从统计学角度看,很可能只是随机误差所致。这无疑显示出在经过人工处理的理想病例信息输入下,ChatGPT 4有着超强的诊断能力,它基于海量文本数据训练后所展现出的分析能力,在此次测试中超越了人类医生凭借专业知识积累和临床经验所达到的水平,极大地挑战了人们对于传统医疗诊断模式的认知。

然而,ChatGPT 4在医疗领域的应用绝非一片坦途,而是面临诸多严峻挑战。

在数据准确性与可靠性方面,医疗数据因其专业性和严肃性要求极高,而ChatGPT 4依靠的训练数据可能存在更新不及时的问题,一旦依据过时知识诊断,后果不堪设想,并且网络中繁杂且未经证实的医疗信息若混入训练数据,也会让其诊断结果大打折扣。伦理与法律问题同样棘手,诊断责任界定模糊不清,出现错误诊断很难分清是开发者、使用者还是模型本身的责任;患者隐私在输入模型时面临泄露风险,而且医疗诊断中涉及的患者价值观、文化背景等非医学因素,ChatGPT 4往往难以周全考虑,这也与医疗伦理产生了冲突。

从临床应用的局限性来看,临床实践中医生与患者面对面交流获取的表情、肢体语言等额外信息,ChatGPT 4无法获得,它只能依赖文本数据。面对复杂罕见疾病以及需要综合多方面因素的诊断场景,它可能就力不从心了,更何况在争分夺秒的紧急医疗情况下,其响应速度和可靠性都还需进一步验证。此外,对于患者和部分医疗工作者来说,要建立起对ChatGPT 4的信任也是困难重重,患者更信赖经验丰富的人类医生,医疗工作者也习惯了传统诊断方式,对其结果抱有怀疑态度,而这需要更多临床验证、透明算法和性能解释来逐步攻克。

其实,这一现象也让我们联想到AI在未来对工作领域的冲击。就像曾经很多人分析的那样,一些原本想象中需要大量知识沉淀的工种,反而容易被AI取代,而那些看似没什么技术含量的劳动,工业机器人却还需进一步提升能力才能胜任。甚至有人预言未来30年95%的工作将被AI取代,虽然这或许有些危言耸听,但ChatGPT 4在医疗诊断领域的突出表现,确实让我们看到了AI强大的一面以及它带来的巨大变革力量。

我们不能因噎废食,面对ChatGPT 4在医疗诊断领域展现出的能力以及存在的问题,我们应当积极探索。一方面,要进一步完善其数据质量,加强伦理和法律方面的规范建设;另一方面,要深入研究人类与人工智能在医疗诊断中的协作模式,最大程度发挥它的优势,弥补其不足,让其能更好地服务于医疗事业,推动医疗诊断朝着更高效、更准确的方向发展,毕竟未来已来,如何在这股科技浪潮中顺势而为,是我们亟待解决的重要课题。

0 阅读:7