Une expansion majeure des données de santé du monde réel

L’écosystème de recherche américain a gagné cette semaine une nouvelle ressource de données notable avec la publication, dans Nature Medicine, du jeu de données issues de wearables du programme All of Us Research. Selon l’article, l’ensemble de données contient des données Fitbit provenant de plus de 59 000 participants sur 14 ans, dont plus de 39 millions d’observations de pas et 31 millions d’observations de sommeil. Près de la moitié des participants disposant de données Fitbit ont également fourni des dossiers de santé électroniques, des mesures physiques, des données génomiques et des données d’enquête.

Cette combinaison fait de cette publication bien plus qu’une vaste collection de relevés issus d’appareils grand public. Elle crée un jeu de données multimodal susceptible de relier des signaux comportementaux et physiologiques quotidiens à des résultats cliniques, à un contexte démographique et à des données moléculaires. Pour les chercheurs qui étudient les biomarqueurs numériques, le sommeil, l’exercice, le risque de maladies chroniques et la santé des populations, l’ampleur est considérable.

Pourquoi ce jeu de données est important

Les wearables sont depuis longtemps perçus comme un moyen de faire sortir la recherche médicale des instantanés pris lors des visites en clinique. Ces appareils peuvent capturer des informations continues, en conditions réelles, sur le mouvement, le sommeil et les comportements au fil du temps. Mais de nombreux jeux de données issus de wearables présentent une faiblesse majeure : ils sont souvent biaisés en faveur des populations les plus susceptibles d’acheter et d’utiliser ces appareils, généralement des groupes plus aisés et moins diversifiés.

L’article d’All of Us traite explicitement ce problème. Les auteurs présentent cette ressource comme l’un des plus vastes jeux de données de technologie de santé numérique, et parmi les plus riches sur le plan démographique, jamais constitués à ce jour. La mission du programme est de bâtir une cohorte de recherche qui reflète mieux les populations historiquement sous-représentées dans la recherche biomédicale. Si le volet wearables réussit à cet égard, il pourrait contribuer à réduire l’un des écarts les plus persistants de la médecine numérique : le décalage entre celles et ceux qui génèrent les données et celles et ceux qui sont censés bénéficier des connaissances qui en résultent.

L’échelle plus le rapprochement des données est l’avantage clé

Des volumes importants ne suffisent pas, à eux seuls, à rendre un jeu de données transformateur. Ce qui distingue cette publication, c’est le rapprochement des données. L’article indique que 46 % des participants disposant de données Fitbit ont également fourni des dossiers de santé électroniques, des mesures physiques, des données génomiques et des données d’enquête. Cela signifie que les chercheurs peuvent potentiellement étudier non seulement la variation des activités ou du sommeil entre individus, mais aussi la façon dont ces schémas s’articulent avec les diagnostics, l’historique des traitements, les valeurs biologiques, les expériences déclarées et les informations génétiques.

En pratique, cela ouvre plusieurs pistes de recherche. Les scientifiques peuvent examiner comment les mesures numériques sont liées à l’apparition, à la progression ou à la guérison d’une maladie. Ils peuvent tester si les comportements diffèrent selon les groupes démographiques d’une manière pertinente pour la prédiction du risque. Ils peuvent aussi évaluer si les signaux issus des wearables se comportent de manière cohérente selon les populations, ce qui est essentiel si les biomarqueurs numériques doivent soutenir la santé de précision plutôt que creuser les inégalités existantes.

L’article décrit le jeu de données comme permettant d’étudier les relations entre les métriques de santé numérique et les résultats cliniques, tout en faisant progresser la méthodologie de santé numérique grâce à sa taille, sa représentativité et son rapprochement multimodal. C’est une façon mesurée de dire que cette ressource est utile à la fois pour étudier les maladies et pour éprouver les méthodes qui sous-tendent la santé numérique elle-même.

Ce que les chercheurs peuvent apprendre à partir de données continues

Les comptages de pas et les relevés de sommeil peuvent sembler simples, mais lorsqu’ils sont recueillis à grande échelle sur de longues périodes, ils deviennent puissants sur le plan analytique. Les schémas d’activité peuvent être associés au risque cardiovasculaire, aux maladies métaboliques, aux trajectoires de récupération, au vieillissement et à la santé mentale. Les données de sommeil peuvent éclairer des études sur les perturbations circadiennes, la charge des maladies chroniques et les liens entre les habitudes de repos et les résultats médicaux ultérieurs.

Parce que le jeu de données couvre plusieurs années, il peut aussi aider les chercheurs à étudier le changement, et pas seulement l’état à un instant donné. Les données longitudinales peuvent révéler si le déclin de l’activité précède un diagnostic, si une perturbation du sommeil accompagne un traitement, ou si les effets d’une intervention apparaissent dans la vie quotidienne avant de se manifester dans les critères d’évaluation traditionnels. Ce type de détail temporel explique en partie pourquoi les données de santé numérique suscitent autant d’attention.

La contribution de l’article n’est toutefois pas une affirmation clinique selon laquelle une métrique particulière prédit une maladie précise. Il s’agit de la mise à disposition d’une infrastructure : un jeu de données assez vaste et assez varié pour permettre à de nombreux groupes de tester rigoureusement ces questions.

Le défi de l’inclusion en santé numérique

Les auteurs notent que la recherche en santé numérique a souvent été limitée par des biais démographiques. Ce défi a des implications bien au-delà de l’équité. Si les données issues des wearables proviennent de façon disproportionnée de populations étroites, les modèles construits à partir d’elles risquent de mal généraliser. Un biomarqueur numérique qui semble robuste dans un groupe peut sous-performer dans un autre. Un outil de prédiction peut paraître précis tout en intégrant des angles morts cachés.

En élargissant la portée démographique de la collecte de données basée sur les appareils, All of Us tente de modifier ce point de départ. Le jeu de données ne supprimera pas, à lui seul, les biais dans la pratique de recherche ou le développement des modèles. Mais il peut rendre plus difficile l’ignorance de la représentativité comme enjeu méthodologique. En ce sens, la publication est importante à la fois scientifiquement et institutionnellement : elle place davantage de responsabilité sur les chercheurs pour examiner à qui leurs modèles sont utiles.

Et ensuite

L’impact réel du jeu de données dépendra de son utilisation. Les articles de ressource marquent souvent le début plutôt que la fin d’une histoire. La phase suivante sera façonnée par les études qui s’appuieront sur ces relevés et par la manière dont les chercheurs traiteront des questions telles que les données manquantes, la variabilité des appareils, les facteurs de confusion comportementaux et les limites des mesures grand public.

Néanmoins, la publication signale une étape de maturité pour la recherche en santé numérique. Plutôt que de dépendre principalement de petits jeux de données propriétaires ou de cohortes recrutées de manière étroite, les scientifiques ont de plus en plus accès à des sources de données du monde réel vastes, reliées et plus représentatives. Cela change le type de questions qui peuvent être posées de manière crédible.

Pour l’agenda plus large de la santé de précision, c’est là le point essentiel. Les wearables sont souvent commercialisés comme des outils de bien-être personnels, mais leur valeur scientifique la plus importante réside dans ce qu’ils peuvent révéler à l’échelle des populations, au fil du temps, lorsqu’ils sont associés à un contexte clinique solide. La publication d’All of Us rapproche cette possibilité d’un usage de recherche courant.

Une ressource fondatrice plutôt qu’un résultat spectaculaire

Il n’y a pas de découverte médicale unique et spectaculaire associée à cet article, et c’est précisément ce qui lui donne de l’importance. Les jeux de données fondateurs produisent rarement les titres les plus spectaculaires immédiatement, mais ils façonnent souvent la vague suivante de découvertes. En documentant un vaste jeu de données issues de wearables, à large portée démographique et fortement relié à d’autres données de santé, le programme All of Us Research a créé une ressource susceptible d’influencer la médecine numérique, l’épidémiologie et la santé de précision pendant des années.

Sa valeur sera finalement mesurée non pas au seul nombre de relevés d’appareils, mais à la capacité de ces relevés à produire une science meilleure et plus inclusive. Cette publication fournit aux chercheurs la matière première pour essayer.

Cet article s’appuie sur la couverture de Nature Medicine. Lire l’article original.

Originally published on nature.com