真实世界健康数据的重大扩展

本周,美国科研生态系统迎来了一项值得关注的新数据资源:All of Us Research Program 的可穿戴设备数据集已发表于 Nature Medicine。据论文介绍,该数据集包含来自 59,000 多名参与者、跨度达 14 年的 Fitbit 数据,其中包括超过 3900 万条步数观测和 3100 万条睡眠观测。拥有 Fitbit 数据的参与者中,近一半还提供了电子健康记录、体格测量、基因组学和调查数据。

这一组合使得此次发布远不只是一个规模庞大的消费级设备读数集合。它构建了一个多模态数据集,有望将日常行为和生理信号与临床结局、人口学背景以及分子数据联系起来。对于研究数字生物标志物、睡眠、运动、慢性病风险和人群健康的科研人员来说,这一规模意义重大。

为什么这个数据集重要

长期以来,可穿戴设备被视为一种将医学研究从门诊就诊时拍摄的“快照”推进到更连续视角的方法。设备可以在一段时间内捕捉关于运动、睡眠和行为的持续、真实世界信息。但许多可穿戴数据集存在一个重大弱点:它们往往偏向于那些本就更可能购买和使用此类设备的人群,通常是更富裕且多样性较低的群体。

All of Us 论文明确回应了这一问题。作者将这一资源定位为迄今规模最大、人口学特征最丰富的数字健康技术数据集之一。该项目的使命一直是建立一个能够更好反映在生物医学研究中历史上代表性不足人群的研究队列。如果可穿戴部分能在这一标准上取得成功,它或许有助于缩小数字医学中最持久的鸿沟之一:数据生成者与数据最终受益者之间的不匹配。

规模加关联是关键优势

单纯的大量数据并不足以让一个数据集具有变革性。真正提升这次发布价值的是数据关联。论文称,在拥有 Fitbit 数据的参与者中,46% 还同时提供了电子健康记录、体格测量、基因组学和调查数据。这意味着研究人员不仅可以研究个体之间活动或睡眠模式是否存在差异,还可以进一步分析这些模式是否与诊断、治疗史、实验室数值、报告的体验以及遗传信息相关联。

从实践角度看,这开启了多个研究方向。科学家可以考察数字指标与疾病发生、进展或康复之间的关系。他们可以测试不同人口群体的行为模式是否存在对风险预测具有意义的差异。他们还可以评估可穿戴设备衍生信号在不同人群中是否表现一致;如果数字生物标志物要支持精准健康,而不是加深既有不平等,这一点至关重要。

论文将该数据集描述为能够通过规模、代表性和多模态关联,支持对数字健康指标与临床结局之间关系的研究,同时推进数字健康方法学发展。这种表述谨慎地说明,这一资源既可用于疾病研究,也可用于对数字健康方法本身进行压力测试。

研究人员能从连续数据中学到什么

步数和睡眠记录听起来很简单,但当它们在长时间内以大规模方式被捕捉时,就会变得极具分析价值。活动模式可以与心血管风险、代谢性疾病、恢复轨迹、衰老以及心理健康相关联。睡眠数据则可用于研究昼夜节律紊乱、慢性病负担,以及休息模式与后续医疗结局之间的联系。

由于该数据集横跨多年,它还可能帮助研究人员研究变化,而不仅仅是状态本身。纵向数据可以揭示活动下降是否先于诊断发生,睡眠紊乱是否伴随治疗出现,或干预效果是否会在传统终点之前就体现在日常生活中。这种时间维度的细节,是数字健康数据备受关注的原因之一。

不过,论文的贡献并不是声称某个单一指标可以预测某种特定疾病。它发布的是基础设施:一个足够庞大且足够多样的数据集,供许多团队严谨地检验这类问题。

数字健康中的纳入挑战

作者指出,数字健康研究长期受到人口学偏差的限制。这一挑战的影响远不止公平性问题。如果可穿戴数据主要来自狭窄的人群,那么基于这些数据构建的模型可能泛化能力较差。一个在某个群体中看起来稳健的数字生物标志物,在另一个群体中可能表现欠佳。一个预测工具可能看上去很精确,却在不知不觉中嵌入了盲点。

通过扩大基于设备的数据采集的覆盖范围,All of Us 正在尝试改变这一起点。仅凭这个数据集本身,并不能消除研究实践或模型开发中的偏差。但它可以让人更难忽视“代表性”这一方法学问题。从这个意义上说,这次发布不仅具有科学意义,也具有制度意义:它把更多责任放在研究者身上,要求他们审视模型究竟为谁服务。

接下来会发生什么

该数据集的真正影响将取决于它如何被使用。资源论文往往标志着故事的开始,而非结尾。下一阶段将由利用这些记录开展的研究来塑造,也取决于研究人员如何谨慎处理缺失值、设备差异、行为混杂因素以及消费级测量的局限。

即便如此,这一发表仍表明数字健康研究正在走向成熟。与其主要依赖规模较小的专有数据集或招募范围狭窄的队列,科学家如今越来越能够接触到大规模、关联性强且更具代表性的真实世界数据来源。这改变了哪些问题能够被有把握地提出。

对于更广泛的精准健康议程来说,这正是重点。可穿戴设备常被营销为个人健康工具,但它们更大的科学价值在于,当与可靠的临床背景相结合时,它们可以跨人群、跨时间揭示哪些信息。All of Us 的发布让这种可能性更接近常规研究使用。

基础资源,而非头条式结果

这篇论文并没有附带某个单一的重大发现,而这恰恰是它重要的原因。基础数据集很少带来最戏剧性的即时头条,但它们往往会塑造下一波发现。通过记录一个具有广泛人口学覆盖、并与其他健康数据有大量关联的大型可穿戴数据集,All of Us Research Program 创建了一项未来多年都可能影响数字医学、流行病学和精准健康的资源。

其价值最终不会仅由设备记录数量来衡量,而是要看这些记录是否能促成更好、更具包容性的科学研究。这次发布为研究人员提供了尝试所需的原始材料。

本文基于 Nature Medicine 的报道。阅读原文

Originally published on nature.com