Une collecte de données domestiques déguisée en service gratuit

Une start-up appelée MicroAGI propose aux habitants de New York un nettoyage gratuit de leur domicile via son application Shift, mais le vrai produit n’est pas le nettoyage lui-même. L’entreprise veut des vidéos à la première personne de agents de nettoyage travaillant à l’intérieur de logements privés, et elle affirme que ces enregistrements aideront à entraîner la prochaine génération de robots domestiques.

La proposition est inhabituellement directe. Selon le texte source, Shift met en relation les New-Yorkais avec des professionnels du nettoyage gratuits en échange d’un enregistrement vidéo du nettoyage à la première personne. Les clients sont invités à fournir des informations comme leur numéro de téléphone, leur adresse e-mail, leur adresse domicile et les instructions d’accès avant de réserver un rendez-vous estimé à environ deux heures.

Pourquoi cela se démarque

Les entreprises d’IA parlent régulièrement du besoin de données d’entraînement réelles de haute qualité, surtout en robotique. Ce qui rend Shift remarquable, c’est qu’il pousse la collecte de données dans l’un des environnements les plus intimes possibles : le domicile. L’entraînement des robots dépend souvent d’exemples de lieux humains ordinaires, désordonnés et variables, et un agent de nettoyage portant une caméra peut générer exactement ce type de matériau.

D’un point de vue technique, la logique est claire. Les tâches ménagères sont difficiles à automatiser en partie parce que les maisons sont incohérentes. Les cuisines diffèrent, le désordre change chaque jour, les surfaces reflètent la lumière différemment, et la suite d’actions nécessaire pour nettoyer efficacement dépend du contexte. Un grand jeu de données vidéo montrant des humains accomplissant ces tâches pourrait constituer un matériau d’entraînement précieux pour des systèmes d’IA incarnée.

D’un point de vue social, l’offre est beaucoup moins simple. Un nettoyage gratuit semble attrayant, mais l’échange n’est pas de l’argent contre du travail. C’est des données privées sur l’environnement contre du travail. Cela rapproche le service d’une opération de collecte de données plutôt que d’un marché domestique ordinaire.

L’argument de confidentialité avancé par MicroAGI

La FAQ de Shift indique que les noms, visages et autres informations personnelles sont automatiquement anonymisés, les détails sensibles étant floutés avant même que les images ne soient utilisées. Sa politique de confidentialité précise que des modèles avancés de machine learning exécutés directement sur des lunettes connectées ou d’autres dispositifs de capture effectuent des transformations irréversibles, comme le floutage automatisé des visages et l’obfuscation des identifiants, avant tout envoi des données vers des serveurs cloud.

C’est une affirmation de confidentialité plus réfléchie que beaucoup de produits d’IA grand public, mais cela ne règle pas la principale préoccupation. Le texte source note que la politique ne dit pas si les personnes peuvent demander la suppression de leurs vidéos de nettoyage domestique des jeux de données d’entraînement. Elle laisse aussi ouverte la question de savoir si l’anonymisation suffit à empêcher l’identification des domiciles à partir de la configuration des lieux, des objets ou d’autres indices contextuels.

Ce ne sont pas des cas limites. Un domicile peut révéler des habitudes, des biens, la composition du foyer, les routines et des signaux socio-économiques même lorsque les visages et les noms sont supprimés. Flouter un écran ou une carte d’identité traite une catégorie de risque pour la vie privée. Cela ne résout pas automatiquement le fait plus large qu’un espace habité constitue en soi une donnée identifiante.

Le problème plus large de l’IA incarnée

Shift rappelle aussi que la course à la création de robots domestiques utiles pourrait dépendre de montages de travail et de consentement inconfortables bien avant l’arrivée de machines pleinement autonomes. Au lieu que les robots apprennent par eux-mêmes, les entreprises devront peut-être d’abord faire produire d’énormes jeux de données par des humains dans des conditions optimisées pour le machine learning. En ce sens, ce service s’inscrit dans une tendance plus large de l’IA où l’automatisation commence souvent par une production accrue de données humaines.

Le site de l’entreprise affirme qu’il n’y a « pas de piège », mais il y en a clairement un : les images. Que cet échange paraisse acceptable dépendra du niveau de confiance dans le processus d’anonymisation et de la clarté avec laquelle l’entreprise explique l’usage futur des données. Pour l’instant, l’offre Shift illustre brutalement la direction que prend la robotique. Le domicile devient un terrain d’entraînement, et la vie privée devient une partie du prix d’entrée.

Cet article est basé sur un reportage d’Ars Technica. Lire l’article original.

Originally published on arstechnica.com