看来“嘿,聪明人”的时代可能很快就会以数字形式出现。当我们还在争论人工智能撰写电子邮件的准确性时,哈佛大学却在测试一项意义更为深远的技术:它拯救生命的能力。在最近一项颇具争议的研究中,OpenAI 的人工智能模型在急诊室诊断复杂疾病方面展现出了惊人的、甚至令人惊讶的优越性——在急诊室这种容不得丝毫差错或延误的地方。

实验详情:机器与人类专业知识的对比
这项发表在著名期刊《科学》上的研究由哈佛医学院和迪肯尼斯医疗中心的医生和计算机科学家团队领导完成。研究人员不仅依赖理论测试,还深入研究了76名急诊科就诊患者的真实医疗记录,并将人类医生的诊断与两个较新的OpenAI模型(o1和4o)的诊断进行了比较。
这项研究的独特之处在于,模型没有接收预处理或精心准备的数据,而是直接使用诊断时电子病历中的原始信息。结果如何?O1模型表现尤为出色,在每个诊断评估点上,其表现都至少略优于或与会诊医生持平。
数据说明了什么?在关键时刻取得了压倒性胜利。
数据不会说谎,在这项研究中,“布特医生”的表现更胜一筹。在分诊阶段,即患者信息最少、病情最紧急的初始阶段,O1模型在67%的病例中能够提供准确或非常接近的诊断。相比之下,一位医生的准确率仅为55%,另一位医生的准确率更是只有50%。

哈佛医学院人工智能实验室主任阿琼·曼莱表示,该模型几乎经过了所有可能标准的测试,其表现优于以往的模型和医生设定的基准。这意味着我们讨论的不仅仅是对人类智能的“模拟”,而是一种分析能力,这种能力有时甚至超越了人类记忆的极限,也超越了急诊室混乱环境下高度集中注意力的能力。
在热情与现实之间:我们能相信自动诊断吗?
尽管取得了这些令人瞩目的成果,研究人员和专家们仍然发出警告。参与这项研究的医生之一亚当·罗德曼提醒说,目前还没有针对人工智能诊断的正式问责机制。此外,患者最终仍然希望在生死攸关的关键决策和复杂的治疗过程中得到人类的指导。

另一方面,克里斯汀·潘特贾尼博士强调了一个关键点:这项研究将人工智能与内科医生进行比较,而不是与急诊专科医生进行比较。她还指出,急诊医生的首要目标并非仅仅是正确预测最终诊断,而是确保患者没有罹患潜在的危及生命的疾病。因此,尽管人工智能已被证明能够有效地处理文本数据,但它仍然缺乏经验丰富的医生所拥有的人文关怀和医学直觉。
相片:



4条评论