AI 实战测试
人工智能是否真正能够取代或增强医学研究中人类专业知识的问题已从理论辩论转向实证研究。UC San Francisco 和 Wayne State University 的研究人员进行的新研究提供了迄今为止最具体的证据,证明 generative AI 系统能够以远超传统人类方法的速度处理复杂的医学数据分析。
研究团队设计了一个正面对比,将八个商业上可用的 AI 聊天机器人与人类研究团队在相同的分析任务上进行对比。数据集涉及来自 1000 多名孕妇的临床信息,目标是实质性的:预测早产风险和使用血液样本和胎盘组织数据估计妊娠年龄。
这些不是简单的分析问题。它们需要理解复杂的生物学关系、处理具有缺失值和混淆变量的混乱现实数据,以及生成能够通过机器学习管道处理数据集的代码。这正是传统上需要经验丰富的生物统计学家和数据科学家长期工作的工作类型。
令研究人员都惊讶的结果
在测试的八个 AI 系统中,四个生成了对分配任务可行且可用的代码。虽然百分之五十的成功率可能看起来不太令人印象深刻,但这四个系统的性能是非凡的。AI 生成的分析与经验丰富的人类研究团队产生的结果质量相当或更优。
也许最引人注目的发现涉及一对初级研究人员:一名硕士研究生与一名高中生合作。使用 AI 协助,这对相对缺乏经验的二人组在几分钟内完成了通常需要经验丰富的程序员花费数小时甚至数天才能开发的预测模型。AI 不仅加快了工作速度;它根本上降低了进行复杂医学数据分析的进入门槛。
在整个项目时间表上衡量时,优势变得更加明显。AI 驱动的研究工作在大约六个月内完成。传统人类团队进行的可比工作花费了近两年时间才能整合成类似的发现。这代表了大约百分之七十五的结果获取时间缩短。
医学研究民主化
该研究最重要的含义之一超越了纯粹的速度。Generative AI 有潜力使医学研究中先进数据科学能力的获取民主化。目前,进行本研究中测试的分析类型需要广泛的编程专业知识或访问专业生物统计团队。这两种资源都很稀缺且昂贵,特别是在较小的研究机构和低收入国家。
如果 generative AI 能够可靠地生成与专家质量相匹配的分析代码,它可以使更广泛范围的研究人员从事数据驱动的医学调查。具有引人注目的研究问题和相关数据集访问权限的临床医生可能能够从假设转移到结果,而无需聘请专门的数据科学团队。
研究人员以紧迫的措辞框定了这一潜力,指出加快速度对现在需要帮助的患者来说迫在眉睫。在早产研究等领域,早产仍然是全球新生儿死亡的主要原因,加快发现步伐具有直接的人道主义影响。
质量问题
如果速度以准确性为代价,那就毫无意义,研究人员谨慎地解决了这个问题。生成可用代码的 AI 系统生成了与人类团队统计学上可比的结果。在某些特定的分析任务中,AI 输出实际上优越,识别了模式或生成了具有更高预测准确性的模型。
然而,该研究也揭示了重要的局限性。测试的一半 AI 系统根本无法生成可用的代码,生成了包含错误、产生无意义结果或根本无法编译的输出。这种不一致性强调了 generative AI 还不是医学数据分析的即插即用解决方案。
研究人员强调,在整个过程中人类监督仍然至关重要。AI 系统能够生成看似可信但从根本上有缺陷的结果,这一现象有时称为自信错误或幻觉。如果没有专家评审,此类错误可能会传播到已发表的研究中,最终影响临床实践。
人类判断仍然不可或缺的关键领域包括:
- 评估 AI 选择的分析方法是否适合特定的研究问题
- 评估结果在生物学上是否可信且与现有医学知识一致
- 识别 AI 可能无法识别或考虑的数据中的潜在偏见
- 在适当的临床背景中解释结果并将其转化为可行的医学见解
- 确保围绕患者数据隐私和研究完整性的道德考虑得到维护
对研究劳动力的影响
该研究提出了关于医学研究劳动力未来的重要问题。如果配备 AI 工具的初级研究人员能够进行与经验丰富的团队相当的分析,生物医学数据科学的传统职业道路可能需要演进。
AI 更有可能改变其工作的性质,而不是替代熟练的研究人员。经验丰富的研究人员不再将大部分时间花在编写代码和处理数据上,而是可以专注于更高阶的任务:制定研究问题、设计研究、解释结果和将发现转化为临床应用。AI 处理计算劳动;人类提供科学判断和背景理解。
这种转变也可能解决医学研究中的持久瓶颈。许多有前景的研究陷入困境不是因为数据不存在或问题不重要,而是因为没有足够的合格分析师来完成计算工作。Generative AI 可以帮助清除这个积压,同时加快多个研究领域的进展。
接下来会发生什么
研究人员计划将其调查扩展到额外的医学领域和更复杂的分析任务。他们还旨在制定将 generative AI 整合到研究工作流程中的最佳实践,包括质量控制指南、验证协议和适当披露已发表研究中 AI 的参与。
随着 AI 能力继续改进和工具变得更加可靠,医学研究中 AI 生成分析和人类生成分析之间的平衡可能会进一步转变。目前的研究提供了强有力的证据,表明这种转变不仅可能,而且已经在进行中,为医学发现的步伐和可访问性带来了有意义的好处。
对于等待研究突破的患者来说,加快速度再快不过了。将两年的分析工作压缩到六个月意味着到达临床实践的见解可能会显著提前,可能拯救那些本来会在传统研究时间表的缓慢进展中丧失的生命。
本文基于 Science Daily 的报道。阅读原文。


