弥补关键筛查空白

肝细胞癌(HCC)是最常见的肝癌类型,通常在晚期才被诊断,此时治疗选择有限,生存率也较差。当前临床指南主要针对已知肝硬化或慢性肝病患者开展筛查,但一项发表在Cancer Discovery上的新研究揭示了这一方法的一个关键缺陷:在一项大型人群研究中,69%的HCC病例发生在此前从未被诊断为肝病的患者身上。

这一发现本身就说明,在确诊前,大多数肝癌患者并未被标记为高风险,这意味着现有筛查方案漏掉了绝大多数处于风险中的人群。由德国亚琛工业大学研究人员开发、Carolin Schneider博士领导的一种机器学习模型,提供了一条可能改变这一局面的路径。该模型仅使用常规临床记录中已经存在的数据,就实现了0.88的受试者工作特征曲线下面积(AUROC),明显优于现有用于HCC风险评估的所有临床评分工具。

模型如何运作

研究人员在英国生物样本库超过50万名参与者的电子健康记录数据和常规血液检测结果上训练了一个随机森林模型。这种集成方法会构建数百棵决策树并汇总其预测结果。训练数据集包含538例确诊HCC病例,使模型能够学习哪些临床特征组合可以预测癌症随时间的发展。

模型输入刻意保持实用性。它使用患者人口统计学信息、标准血液化学检测面板(肝酶、全血细胞计数、代谢指标)以及结构化电子健康记录数据,也就是基层医生在常规体检中已经收集的那类信息。不需要专门影像检查,不需要基因测序,也不需要依赖专门实验室基础设施的生物标志物面板。

该模型的简化版本仅使用15项临床特征,仍然优于所有现有风险评分工具。这对现实部署意义重大:15项特征的模型运行速度快、透明度高,并且无需改变工作流程即可轻松集成到现有临床决策支持系统中。

意外发现:多数患者此前没有诊断记录

69%这一数字,即没有既往肝病诊断的HCC病例,是该研究最具震撼性的结果。它直接挑战了仅限于现有疾病类别所识别的高风险人群进行HCC监测的合理性。如果大多数肝癌发生在目前不会被纳入强化筛查范围的患者身上,那么即便某个筛查方案本身完美无缺,只要它只应用于指南定义的高风险患者,也会漏掉超过三分之二的病例。

该机器学习模型仅使用常规临床数据就能在更广泛的人群中识别出升高的HCC风险,这表明它可以作为基层医疗场景中的初筛分诊工具。被标记为高风险的患者随后可以转诊接受影像检查或基于血液的癌症筛查测试,从而在更适合实施根治性治疗的阶段实现更早发现。

跨多样化人群的验证

主要基于英国生物样本库数据训练的模型,样本结构可能偏向白人、年龄较大的英国参与者,因此未必能推广到其他人群。研究人员通过在“All of Us”登记库上进行验证回应了这一担忧。该美国国立卫生研究院数据集包含超过40万名来自不同种族和社会经济背景的参与者。

该模型在“All of Us”验证队列中的表现依然稳定,表明驱动HCC风险预测的临床特征在不同人群之间具有足够一致性,足以支持广泛部署。对于一款旨在服务美国、欧洲及其他地区多元患者群体的工具而言,这是一项重要结果。

研究人员还测试了加入基因组数据或代谢组学生物标志物面板是否能提升预测效果。值得注意的是,这些昂贵的附加数据类型相较于基础临床模型几乎没有带来性能提升。这意味着,最有价值的HCC风险信号其实已经嵌入在医疗系统收集的常规数据中,而提取这些信号需要更好的分析方法,而不是更多的数据采集。

走向临床部署

这项研究是回顾性的,也就是说,它分析的是历史记录,而不是前瞻性地随访患者。下一步在临床应用前仍需进行前瞻性验证,即向前跟踪一个人群,并测量模型标记为高风险的患者是否确实以更高比例发展为HCC。

研究人员指出还有几项限制:英国生物样本库的人群对乙型和丙型肝炎病毒感染患者的代表性不足,而这两者是全球范围内HCC的重要风险因素。未来的模型迭代应纳入病毒性肝炎数据,并在肝炎高流行地区验证其表现。

尽管存在这些局限,这项研究的核心贡献依然十分显著。一个基层医生可以用现有患者数据直接运行、无需额外检测、并能以0.88 AUROC的表现识别肝癌风险升高患者的工具,代表着对现有临床实践的重要进步。如果经过前瞻性验证并整合进电子健康记录工作流,它可能成为进入临床实践影响最深远的AI筛查工具之一。

本文基于Medical Xpress的报道。阅读原文