Il est temps de discuter du consentement dans les études de données numériques

[ad_1]

Les réfugiés, les migrants, les minorités religieuses et les dissidents politiques risquent d'être pris pour cible par des études utilisant des enregistrements d'appels anonymes.Crédit: Petros Giannakouris / AP / Shutterstock

Aujourd'hui, les gens perdent des données partout où ils vont. Les données proviennent de leurs transactions financières, de leurs plateformes de médias sociaux, de moniteurs de santé portables, d'applications pour smartphones et d'appels téléphoniques.

En exploitant d'énormes séries de données numériques collectées par des fournisseurs de services téléphoniques, des entreprises technologiques et des agences gouvernementales, les chercheurs espèrent révéler des modèles de données et, au final, améliorer des vies. Ces études vont d'une analyse des enregistrements d'appels au Népal qui a montré où les gens se sont déplacés à la suite d'un tremblement de terre, afin de pouvoir fournir de l'aide; aux estimations de l'exposition à la pollution basées sur les données de localisation de l'application Google Maps pour smartphone. Mais relativement peu d'attention a été accordée à l'éthique de la manière dont cette recherche est menée et, en particulier, à la manière dont ceux qui fournissent leurs données devraient consentir à participer.

En règle générale, les propositions de recherche impliquant des personnes sont contrôlées par des directives inspirées du code de Nuremberg de 1947 et de la déclaration d'Helsinki de 1964. Ce sont des principes éthiques forgés après des expériences nazies abusives au cours de la Seconde Guerre mondiale. Ils exigent que les chercheurs obtiennent le consentement volontaire de personnes qui comprennent suffisamment le sujet de l'étude pour pouvoir prendre une décision éclairée quant à l'opportunité de participer. Cependant, le consentement éclairé n'est souvent pas requis pour les études ayant accès à des données anonymisées et regroupées.

Une des raisons est qu'en théorie, ces données ne sont plus liées à une personne. Mais en fait, les risques demeurent. De nombreuses études ont montré que des individus peuvent être identifiés dans des ensembles de données anonymisées et agrégées. La semaine dernière, des chercheurs de l’Imperial College London et de l’Université catholique de Louvain à Louvain-la-Neuve, en Belgique, ont manifesté dans un article publié dans Nature Communications () comment il est possible de réidentifier les personnes, même lorsque les ensembles de données anonymisées et agrégées sont incomplets.

Une des implications est que les individus et les groupes vulnérables – y compris les immigrants sans papiers, les dissidents politiques ou les membres de communautés ethniques et religieuses – risquent d'être identifiés, et donc ciblés, au moyen d'études de données numériques. Un reportage dans La nature en mai, a décrit des exemples de conséquences involontaires potentielles du suivi de la localisation des populations au moyen d’enregistrements d’appels téléphoniques agrégés et anonymisés (voir).

Évaluer les risques

Les préoccupations relatives à une utilisation abusive potentielle s’appliquent également aux données anonymisées et agrégées dérivées d’applications pour smartphones, de réseaux sociaux, d’appareils portables ou d’images satellitaires. À l'heure actuelle, la décision de savoir si les avantages des études de données numériques l'emportent sur les risques revient en grande partie aux chercheurs qui collectent et analysent les données, et non aux personnes qui y participent involontairement.

Les principes du consentement éclairé de Nuremberg et d'Helsinki ont été élaborés pour corriger ce déséquilibre. Pourtant, le consentement est compliqué à l'ère du Big Data. Contrairement à la plupart des études biomédicales, les chercheurs qui utilisent des ensembles de données numériques recueillent rarement les données primaires eux-mêmes. Les entreprises de télécommunications, les entreprises de technologie et les agences nationales collectent plutôt les informations et décident si elles autorisent ou non la recherche.

Si les personnes surveillées avaient la possibilité de partager leurs données à étudier, le consentement devrait être relativement illimité. Ceci est en partie dû au fait que les études sur le Big Data recherchent des modèles inattendus. De plus, ils peuvent conduire à des résultats ou à des applications potentielles imprévisibles. Par exemple, des chercheurs ont étudié les enregistrements téléphoniques anonymes de millions d’appels en Turquie afin de déterminer si l’emplacement et les mouvements de réfugiés syriens dans le pays pourraient révéler des aspects de leur vie qui pourraient un jour donner lieu à des mesures utiles. Les chercheurs n’auraient pas pu demander aux participants de partager leurs données dans un but précis, car les chercheurs eux-mêmes ne savaient pas où leurs études aboutiraient.

Aux États-Unis, la clause de «consentement général» de la règle commune, la politique fédérale régissant la recherche sur les personnes, autorise les études utilisant des données agrégées et anonymisées. Mais un large consentement ne signifie pas un consentement éclairé, car les participants ne savent pas comment et pourquoi leurs données seront utilisées, pas plus qu’ils ne seront au courant des dommages potentiels. Dans l'Union européenne, les chercheurs utilisant des données agrégées et anonymisées sont dispensés de se conformer au règlement général sur la protection des données.

Si le consentement est offert, c’est souvent une simple case à cocher dans les termes et conditions que peu de gens lisent alors qu’ils se précipitent pour activer leur service téléphonique ou leur application. De plus, les études portant sur des données volumineuses ignorent souvent un principe crucial dans d'autres recherches impliquant des personnes, à savoir que les participants doivent pouvoir se retirer d'une étude à tout moment. C’est parce qu’il est techniquement très difficile d’extraire et de supprimer les données d’une personne d’un ensemble de données anonymisées et regroupées.

Lorsqu'il est correctement exécuté, le consentement éclairé – la norme de référence en recherche médicale – inclut une conversation entre les chercheurs cliniques et les participants à l'étude. Il est difficile d’imaginer comment de telles conversations pourraient être reproduites parmi des millions de personnes qui se connectent à une application, mais ce n’est pas une raison pour abandonner.

Dans le domaine en pleine expansion de la gouvernance des données, des informaticiens, des bioéthiciens, des juristes et des spécialistes des droits de l'homme se concentrent. Les idées vont du marquage des données au fur et à mesure de leur collecte, afin que les utilisateurs puissent voir comment ces informations sont utilisées, à la création de comités d'examen institutionnels capables d'évaluer l'innocuité des grandes études de données numériques.

Des conversations autour du consentement numérique sont en cours, mais il faut donner plus d'urgence. Ils doivent être dirigés par des organisations indépendantes des gouvernements et de l'industrie, telles que les régulateurs nationaux de données, afin que les intérêts puissants ne dominent pas. Cela dit, ils devraient inclure les entreprises qui collectent les données, ainsi que les éthiciens, les organisations de défense des droits de l'homme, les académies nationales des sciences et les chercheurs qui mènent des études utilisant des données numériques.

Le code de Nuremberg a été écrit pour protéger les innocents des risques de préjudice. Ces risques n'ont pas disparu, c'est pourquoi il est nécessaire de disposer d'un ensemble de lignes directrices actualisées et adaptées à l'ère numérique.

[ad_2]