25.11.2021 à 06:00
Hubert Guillaud
« Si vous n’avez pas accès à votre score ou si vous ne savez pas qu’un score est calculé, quelle possibilité d’action vous reste-t-il ? » Aucune, explique une excellente vidéo du Data Justice Lab (@DataJusticeLab) – et on pourrait d’ailleurs ajouter, que savoir qu’on est calculé ou comment ne vous donne pas pour autant de possibilité d’actions, hélas !
Le problème de la multiplication des « scores de données » comme outils de gouvernance des administrés, explique le laboratoire de recherche de l’Ecole de journalisme de l’université de Cardiff, c’est que les citoyens ont très peu d’informations sur le déploiement de ces systèmes de scoring : ce qui empêche, pour le moment, tout débat public sur leur utilité et leurs biais. L’autre problème, bien sûr, de ces nouvelles modalités de gouvernance des usagers par les services publics (mais également par des systèmes privés), interroge les indicateurs produits (voir notamment notre article « Peut-on limiter l’extension de la « société de la notation » ?) Qu’est-ce qu’on mesure depuis ces scores ? Quelles caractéristiques sont utilisées pour déterminer des comportements ou des risques ? Et comment ces scores déterminent-ils l’affectation de ressources relative aux risques calculés ? Le problème, bien sûr, c’est que ces scores prennent bien plus en compte des facteurs individuels que structurels : ils reposent par exemple sur des défaillances de paiements plus que sur la montée des emplois précaires ou la réduction des prestations sociales, ils prennent plus facilement en compte l’absentéisme des élèves que les problèmes de désorganisation à l’école…
Ces systèmes portent toujours plus d’attention sur les individus que sur les causes structurelles des problèmes sociaux, dénonce avec justesse le Data Justice Lab. Le risque, bien sûr, c’est de produire une modification profonde des relations des organismes publics avec les citoyens ou des entreprises avec leurs employés en accusant toujours les comportements individuels plutôt que les défaillances structurelles ou organisationnelles !
Dans un rapport (.pdf) (qui date de décembre 2018) coordonné par Lina Dencik (@LinaDencik), Arne Hintz (@arne_hz), Joanna Redden et Harry Warne, le Data Justice Lab s’est intéressé en profondeur à l’avènement de ces « scores de données » dans les services publics du Royaume-Uni. Le rapport livre plusieurs études de cas (qui portent sur des systèmes liés à la fraude sociale, à la santé, à la protection de l’enfance, aux services sociaux comme à la police), mais souligne surtout la grande carence d’informations sur les déploiements de ces systèmes, que ce soit sur les objectifs des systèmes, les données utilisées, tout comme sur les résultats produits.
Le Data Justice Lab alerte également sur l’étendue de la collecte et du partage de données opérés par ces projets, leur manque criant de transparence, le fait qu’ils soient souvent produits sans consentement des publics cibles, sans garde-fous éthiques, sans garanties ni modalités de contestation, sans association des usagers… et surtout bien sûr, le fait qu’étiqueter quelqu’un à risque consiste essentiellement à cibler et stigmatiser les plus fragiles.
L’analyse de données automatisée est promue dans un contexte économique de baisse budgétaire, de maîtrise des finances publiques et d’amélioration des services publics. Mais, l’introduction de l’analyse de données dans les services publics conduit surtout à réduire les soins, les prestations sociales et les droits, sans que les personnes concernées n’aient la possibilité de comprendre ou contester ces mesures, comme l’ont montré les travaux de Virginia Eubanks. Ces analyses de données reposent sur des pratiques de catégorisation, de segmentation, d’évaluation et de classement des populations en fonction de divers critères dans le but d’allouer les services en conséquence de ces critères et d’identifier des risques ou comportements spécifiques. Le scoring, c’est-à-dire le résultat d’analyse de ces critères, produit des indicateurs qui permettent de rendre les catégorisations effectives. Le scoring est utilisé depuis longtemps dans le secteur financier et le crédit où on utilise non seulement des données « socialement orientées » mais également, de plus en plus, des données comportementales (usages des téléphones mobiles par exemple) ou sociales (analyse des réseaux relationnels par exemple). Ces scores se sont ensuite répandus dans les services publics, notamment dans le secteur éducatif aux États-Unis, dans la mesure de risques juridiques, les outils de contrôle aux frontières, dans la santé et les politiques sociales liées à l’enfance et la famille. Au Royaume-Uni, l’analyse et l’utilisation des scores sont, pour l’instant encore, peu documentées. La Commission de la science et de la technologie de la Chambre des communes dans un rapport (.pdf) recommande au gouvernement de produire, maintenir et publier une liste des algorithmes utilisés par les autorités, notamment là où leur impact social est majeur. Dans les faits, il semble que nous soyons encore assez loin.
Dans leur étude, le Data Justice Lab revient sur plusieurs outils déployés en Grande-Bretagne. À défaut de les observer tous, intéressons-nous à l’un d’entre eux.
À Bristol, le centre d’analyse intégré vise à permettre aux services municipaux de traiter les familles dans leur ensemble, plutôt que chaque service indépendamment. Le programme Troubled Families, lancé en 2011, vise à aider les familles en proie à d’innombrables difficultés… Pour cela, le centre a construit une base de données (Think Family) avec des informations provenant de 35 ensembles de données concernant 54 000 familles. Le but : offrir une compréhension « holistique » des familles confrontées aux problèmes sociaux.
Depuis la création de cet outil d’agrégation de données, la ville a déployé des outils de modélisation prédictive… Parmi les données collectées, il y a des informations de police, des informations scolaires (sur les absences et les exclusions notamment), des informations provenant de l’assistance sociale, de santé… Le centre d’analyse achète également des données de partenaires privés (sur les évolutions socio-démographiques des quartiers notamment). Le centre produit un score de risque pour chaque jeune de sa base de données, basé sur des données d’entraînements provenant de seulement 31 victimes confirmées des années précédentes.
Le rapport souligne que le modèle repose essentiellement sur des données négatives (fréquentation scolaire, violence domestique…) excluant des données contextuelles (par exemple, le fait qu’un enfant soit actif dans des associations, même si sa fréquentation scolaire est plus problématique). Quelque 450 travailleurs sociaux ont accès au système. Il pointe également que les résultats de ce modèle ne dispensent pas de l’avis de professionnels, mais visent surtout à permettre de comprendre les difficultés à venir pour favoriser des interventions en amont.
Le système n’est pourtant pas si optimal qu’il le promet. Par exemple, l’équipe du centre n’a pas la possibilité de corriger les données qui proviennent d’autres services, même quand elles posent problèmes. L’autre enjeu est que le système influe sur les pratiques de travail des travailleurs sociaux, notamment sur le rapport aux enfants que les scores produisent en créant des risques de mauvaise interprétation… Le vrai problème, c’est bien souvent la sur-réaction aux données, comme l’expliquait Ben Green. L’autre difficulté, c’est que le système génère ses propres boucles de rétroactions. Par exemple, un travailleur social peut avoir tendance à prévenir la police du risque élevé affecté à un enfant, mais dans le modèle lui-même, le contact avec la police est lui-même un facteur qui élève le risque ! Exemple typique de boucles de rétroactions où les scores s’alimentent les uns les autres, au risque de produire des indices encore plus problématiques qu’ils ne sont ! Enfin, rappellent les auteurs du rapport, un système de ce type oublie le travail préventif et proactif, pour favoriser des réactions à des seuils et niveaux de risques. Il concentre le travail sur certains cas, au détriment des autres. Dans un contexte d’austérité et de ressources limitées, le risque est de ne travailler qu’à partir de certains scores, qu’à certains niveaux de vulnérabilité, que depuis des alertes… Enfin, bien sûr, si le système peut identifier des besoins, reste à savoir si les structures d’aides à l’enfance peuvent y répondre ! Le risque, bien sûr, c’est qu’à mesure qu’elles perdent en moyens, les seuils d’alertes s’élèvent… Enfin, comme le pointait une étude que nous avions relayée sur les systèmes d’identification automatisés des enfants à risques par les services à l’enfance britanniques, aucun de ces systèmes de prédiction des risques ne donne de résultats probants.
Le rapport consacre également plusieurs pages au rôle que jouent des ensembles de données privées dans ces projets à destination de services publics. Il détaille notamment le cas d’Experian, une agence d’évaluation du crédit à la consommation qui dispose d’un outil de segmentation géodémographique – moteur de la personnalisation publicitaire, comme l’expliquait Tim Wu dans son livre, Les marchands d’attention – lui permettant de trier la population en segments. Mais c’est également le cas d’entreprises comme Xantura, Callcredit et Capita qui fournissent des services de profilage, de vérification d’identité ou d’évaluation des risques. Né dans les années 60, le développement des techniques de géodémographie a été financé par le ministère américain du Logement pour parvenir à mieux cibler les subventions au logement, avant d’être étendu à des usages plus commerciaux. Dans les années 80, ces travaux ont été adaptés au Royaume-Uni par Richard Webber afin de produire une classification des quartiers (Webber a fondé la division micromarketing d’Experian). Pour ses promoteurs, la géodémographie consiste à dire que l’endroit où l’on vit compte pour comprendre les valeurs, choix et comportements des consommateurs. Elle utilise de nombreuses données pour placer chaque citoyen dans une catégorie en fonction du quartier où il vit. Dans le secteur public, les autorités publiques, et surtout locales, intègrent de plus en plus souvent des données géodémographiques pour affiner les leurs. Mosaic, le produit de classement géodémographique d’Experian, classe les individus en 15 grands groupes et 66 types. Reste que si les services utilisent, les chercheurs soulignent qu’on ne sait pas grand-chose des données mobilisées par ces entreprises, ni les méthodes d’analyses qu’elles y appliquent. Experian estime détenir des informations sur 49 millions des 63 millions d’adultes du Royaume-Uni… et sait produire des taux de correspondance à 50 % avec Facebook et 35 % pour Twitter.
La dernière partie du rapport donne la parole à différents groupes de la société civile que les auteurs ont rencontré, des associations britanniques qui travaillent dans le domaine des droits numériques, des droits sociaux, de l’éducation en les interrogeant sur leur compréhension de ces systèmes (comme Defend Council Housing, Disabled People Against Cuts, Netpol, Big Brother Watch, Open Rights Group, Involve, Liberty,British Association of Social Workers). Pour l’essentiel, celles-ci se montrent inquiètes de ces évolutions, à la fois en ce qui concerne l’étendue de la collecte, du partage, le risque de partialité et de discrimination, la possibilité de ciblage, de stigmatisation, de stéréotypie de groupes, le manque de transparence, de consentement, d’information… L’inquiétude porte notamment sur une forme de « maximisation des données » qui consiste à collecter toujours plus de données et à accroître leur partage sans grandes limites, quel que soit le caractère sensible des données. Or, nombreux rappellent que la minimisation des données est essentielle pour répondre à cette tendance. Les personnes calculées et les associations s’inquiètent de cette fluidification des données : les communautés de migrants par exemple s’inquiètent de voir leurs statuts d’immigration divulgués quand ils se rendent à l’hôpital et que celui-ci puisse être utilisé pour les exclure des soins ou les dénoncer aux services sociaux ou de police… et ont donc tendance à renoncer à se rendre dans certains services publics. Autres constats que dressent les associations, celle de la transformation du travail, notamment des travailleurs sociaux, qui passent de plus en plus de temps à collecter et renseigner les données. Les systèmes transforment la façon dont les problèmes et les solutions sont définis. Or, bien souvent, les systèmes mis en place pensent que les données sont la solution, plutôt que de s’interroger sur pourquoi et comment elles peuvent y contribuer. Beaucoup d’acteurs sont préoccupés par cette collecte extensive et plus encore par la situation de monopole qu’elle crée, renforçant la nature asymétrique du pouvoir entre les autorités et les administrés. Bien sûr, les acteurs de la société civile sont très inquiets des effets de stigmatisation, de ciblage, de stéréotypie et de discrimination que renforcent ces outils. « Les personnes bénéficiant de l’aide sociale ont toujours été particulièrement visées (par le contrôle social) et cela semble s’aggraver », estime Big Brother Watch. De quel droit étiquetons-nous quelqu’un à risque uniquement parce qu’il appartient à une famille pauvre ?, s’inquiète l’Open Rights Group. Sans compter que l’étiquetage a tendance à être durable si ce n’est permanent. Tous s’inquiètent du manque de transparence des systèmes, des critères, des calculs. Quant au consentement, il est bien souvent arraché sans que les familles n’en saisissent les implications ou ne puissent en fait s’y opposer. Tous les groupes de la société civile souhaitent une meilleure réglementation, mais peinent à en formuler les règles qui seraient nécessaires. Pour tous pourtant, ces systèmes sont politiques. L’exploitation des données est profondément liée à l’austérité. Le but n’est pas de les utiliser au service des gens, mais bien de construire une approche très technologique de la politique dans une forme d’hypersurveillance des plus en difficultés.
Dans leurs conclusions, les chercheurs soulignent la difficulté à évaluer les différents systèmes mis en place, du fait qu’aucune procédure standard n’est mise en œuvre et que leurs usages mêmes peuvent être très différents d’un acteur l’autre. Certains s’en servent pour maximiser l’information, d’autres pour calculer de nouvelles informations. Reste que tous ces systèmes se mettent en place dans des contextes d’austérité, c’est-à-dire visent à utiliser les données pour mieux définir les ressources, mais sans que ces enjeux d’affectation des ressources ne soient posés en regard du déploiement de ces systèmes de calcul. Nous entrons dans des services « riches en données, mais pauvres en ressources », comme s’en inquiétait Dan McQuillan pour Open Democracy. Si ces systèmes laissent souvent à ceux qui y accèdent des modalités d’appréciation, la limitation des ressources et la déqualification des personnels font que ces résultats limitent considérablement leur appréciation. Pour les calculés en tout cas, la manière (et les raisons) de mise en œuvre de ces systèmes reste insaisissable. Le manque de transparence demeure un problème majeur. Quand, il y a quelques modalités d’organisation de la transparence, celles-ci sont insuffisantes pour remédier à l’asymétrie de pouvoir entre les institutions et les citoyens… En tout cas, elle ne conduit pas à des possibilités de recours efficaces.
Pour les chercheurs, il est plus que nécessaire d’ouvrir ces systèmes à des audits citoyens et à des formes de participation du public. À nouveau, nombre de ces systèmes visent d’une manière disproportionnée une partie particulière de la population : ceux qui font appel aux services sociaux. Pour les chercheurs, il est nécessaire de mieux équilibrer l’utilisation des données et notamment mieux comprendre les situations où elles ne sont pas nécessaires et quand elles risquent de produire des utilisations qui vont au-delà de leurs objectifs, même ceux qui semblent vertueux, comme une vision plus intégrée des bénéficiaires. Enfin, il y a une hypothèse sous-jacente aux développements de ces systèmes : celle que l’information conduit à agir, mais sans que les actions produites par les scores soient elles-mêmes définies ! Produisent-elles des mesures plus préventives ou plus punitives ? Comment ces actions sont-elles évaluées et décidées ? Quels effets produit l’étiquetage des populations ? Et plus encore, quels effets produisent ces étiquetages de risque dans des chaînes de systèmes ?… Il est aussi nécessaire d’observer le réductionnisme que ces données produisent au détriment de la connaissance sociale et réelle des personnes, permettant à des opérateurs d’agir sans qu’ils aient la connaissance des contextes particuliers des personnes cibles. Enfin, bien sûr, ces systèmes privilégient des calculs et des réponses individuelles sans que soit interrogée la démission des réponses collectives ou structurelles que ces réponses atomisées induisent. Par exemple, nous courons le risque de mesurer l’impact des absences scolaires, mais pas les lacunes d’un accompagnement scolaire défaillant, car non financé. Ces systèmes renforcent finalement les corrélations sur les causalités et transforment les problèmes sociaux en problèmes toujours plus individuels. Les individus ne sont plus vus comme des participants à la société, mais uniquement comme des risques. Pire, bien souvent ces systèmes disqualifient les professionnels qui sont en première ligne avec ces publics… comme si finalement les données pouvaient remplacer leurs évaluations, leurs expériences, leurs compréhensions des contextes réels des familles.
Illustrons ces constats d’un autre exemple pour nous aider à comprendre. De l’autre côté de l’Atlantique, le toujours excellent Data & Society (@datasociety) vient lui de publier un rapport sur la surveillance des personnels de soins à domicile. En effet, l’État fédéral a lancé une application mobile de vérification électronique des visites (EVV) permettant de surveiller à la fois les personnels de soins et ceux qui bénéficient de leurs aides, bien souvent deux populations l’une comme l’autre marginalisées. Pour la chercheuse Alexandra Mateescu (@cariatidaa), ces systèmes de contrôle, très intrusifs, privilégient des formes de normalisation et d’efficacité au détriment des expériences vécues et des réalités de terrain. Ces applications enregistrent les heures et les déplacements des personnels de soin à domicile. L’application de suivi a rendu le travail des travailleurs du soin plus difficile et a tendu les relations entre les travailleurs et les bénéficiaires, par exemple en informant les aidants que les fonds des bénéficiaires étaient insuffisants alors qu’ils ne l’étaient pas. Ces systèmes exigent des validations permanentes et contraignantes, plusieurs fois par jour. Déployés au prétexte de fraudes – sans que leurs niveaux ne soient jamais évalués -, ces systèmes de contrôle produisent des erreurs, au détriment de ceux qui prodiguent le soin comme de leurs patients, expliquaient Virginia Eubanks et Alexandra Mateescu cet été dans une tribune pour The Guardian. Dotée de fonctions de géolocalisation (pour vérifier que les travailleurs à domicile se rendent bien au domicile des bénéficiaires), l’application signale par exemple automatiquement le fait de s’éloigner du domicile des bénéficiaires, comme pour les emmener à un rendez-vous chez le médecin, et demande de le justifier. Au final, nombre de bénéficiaires ne souhaitent plus bouger de chez eux, de peur que ces signalements ne leur fassent perdre les prestations de soins à domicile dont ils bénéficient. Une surveillance qui risque de miner le droit à l’autonomie des personnes dépendantes, rappellent les chercheuses. Le système ne surveille finalement pas seulement le personnel qui dispense des soins, mais également ceux qui en bénéficient, explique une association qui mène campagne contre la généralisation du système. Le système a également produit des retards de paiement généralisés. Rappelons au passage que l’Arkansas, où ont eu lieu les premiers déploiements de ce système, avait déjà été épinglé pour des problèmes relatifs à des systèmes d’évaluation des besoins des personnes handicapées en 2016 (voir notre article « L’État automatisé au risque d’une crise de légitimité »). Pourtant, tous les systèmes de surveillance des personnels qui fournissent des soins à domicile ne sont pas conçus de la même manière. En Californie, le syndicat des travailleurs domestiques et l’organisation pour les droits des personnes handicapées ont collaboré pour produire un système qui ne recueille pas de données de déplacements ni n’enregistre les heures passées en temps réel. En Virginie, la géolocalisation est facultative et exempte les aidants familiaux du système. En étant conçus sans prendre en compte les besoins réels des personnes, en produisant du surcontrôle, ces systèmes produisent surtout du mépris envers les populations qu’ils sont censés adresser.
Le risque, bien sûr, c’est que ces formes d’hypersurveillance se démultiplient. L’association Coworker (@teamcoworker) a récemment publié un rapport (.pdf) (et une base de données des plateformes et applications de surveillance au travail) qui revient sur l’explosion des outils d’analyse et de gestion des travailleurs. Des outils qui sapent et contournent les réglementations en matière de travail et qui ne sont pas transparents sur les données qu’ils collectent et la manière dont ils en tirent profit. Ce secteur des « Little Tech », comme les appelle CoWorker – mais qui relèvent bien plus du « bossware » – qui collecte des données sur les travailleurs, approfondit et accélère une forme d’ubérisation généralisée de l’emploi. Ce secteur met concrètement en œuvre l’infrastructure qui fait tourner l’économie, les lieux de travail et les marchés de l’emploi. Cette Little Tech qui outille notamment l’économie des petits boulots, produit des technologies d’amélioration de la productivité, en exploitant des données sensibles, sans rémunérer davantage les travailleurs, et bien souvent, en portant atteinte à leur sécurité, et sans prévenir des formes de discriminations. « L’industrie technologique n’est pas puissante à cause des produits qu’elle développe, mais parce qu’elle restructure fondamentalement les marchés du travail (…) par une surveillance sans contrôle ».
Hubert Guillaud
MAJ : Eve Zellickson (@zel_eve) pour Points, le magazine de Data & Society revient sur le vol des pourboires par les plateformes de l’économie des petits boulots. Amazon a été condamné à payer 61,7 millions de dollars pour vol de pourboire à ses chauffeurs ! Les chauffeurs ont fini par remarquer que les pourboires étaient à la baisse et s’en sont plaint. Amazon leur a répondu individuellement en soutenant qu’ils recevaient 100 % des pourboires, alors que l’entreprise les utilisait en partie pour améliorer le salaire de base que gère l’application. Zellickson note que les chauffeurs sont habitués à être en relation avec un support peu réactif face aux problèmes qu’ils rencontrent, hormis pour la livraison elle-même. Le problème de l’absence de communication réciproque et de processus clair de résolutions de conflits, dans ces applications, est au cœur de bien des problèmes, souligne la chercheuse. Signalons que ce problème ne touche pas qu’Amazon.
16.11.2021 à 06:00
Hubert Guillaud
Suite de notre tentative à saisir les transformations en cours du système de santé en regardant les enjeux que posent l’exploitation des données de santé.
La confidentialité des données de santé est toujours critique, rappelions-nous. Le problème ou le risque, c’est que pour que les acteurs de la santé puissent mieux les utiliser, nous soyons demain confrontés à un « consentement présumé »… C’est-à-dire, comme c’est devenu la règle pour le don d’organe, que l’on passe d’une règle par défaut où il fallait consentir au don d’organe, à une règle par défaut où celui-ci est consenti : c’est notre refus qui doit être explicitement formulé. Ce « nudge » consiste à profiter de l’inertie de nos comportements comme de l’absence ou de la carence d’information. C’est d’ailleurs ce qui est annoncé pour le lancement de l’Espace de santé numérique qui sera ouvert à l’ensemble des Français au premier janvier 2022. Cet espace de stockage de documents médicaux entre patients et médecins sera créé systématiquement par défaut (si vous souhaitez le refuser, il faudra le signaler dans un temps relativement court). Le risque c’est que nous soyons doucement contraints à l’utiliser. Notre médecin sera certainement incité à y déposer des documents et sera peut-être intéressé à nous pousser à l’utiliser (comme les pharmaciens ont intérêt à ce que vous consentiez à partager les données qu’ils utilisent). Nous voilà obligés par les plus proches acteurs du soin à aller dans leur intérêt pour notre plus grand bien ! Bien sûr, d’autres acteurs y auront très certainement accès sous prétexte de recherche et d’amélioration des systèmes de soins. Certes, on nous le vend comme un espace sur lequel nous aurons la main, puisque nous pourrons choisir de partager ou non des données de santé avec d’autres acteurs, via des applications. Mais le risque est que nous y soyons surtout contraints sous couvert de commodité, poussés par des professionnels de santé qui eux aussi, par commodité, seront poussés à l’utiliser.
Boulard, Favier-Baron et Woillet dans leur livre fustigent avec raison ce « consentement présumé ». La mise en production de nos données de santé via des systèmes d’autorisation d’accès vise à inciter professionnels et usagers à l’alimenter. Nous voici en train de glisser dans une forme de « techno-régulation » sur laquelle notre possibilité d’action est réduite, c’est-à-dire dans un mode de prescription de comportements spécifiques par la technologie plus que par le droit. La feuille de route de la numérisation de la santé s’impose dans l’urgence, comme pour mieux court-circuiter tout débat public. Notre seule liberté semble désormais de consentir. « Le débat ne porte pas en amont sur la légitimité d’une plateformisation de la santé, mais se situe déjà sur l’impératif d’acceptation ». C’est oublier pourtant qu’« une relation de soin n’est pas un rapport de force », comme le rappelait avec beaucoup d’humanité le médecin Martin Winckler (@MartinWinckler, blog) dans son roman, Le Chœur des Femmes.
« Au final, l’État se déleste de ses prérogatives et négocie des accords en sous-traitant de plus en plus de missions à des acteurs privés », à l’image de Doctolib qui s’est retrouvé en charge de l’accès à la vaccination.
À terme, à nouveau, le risque est que ces plateformes produisent une médecine sans médecins ni malades, qui ne cherchent que des sujets à risques, en ne produisant pour cela que des corrélations. Nous entrons dans une logique « excessivement statistique », mettent en garde les auteurs. Une logique qui risque de produire une marginalisation de la relation entre le patient et le médecin. Le traitement très industriel et très numérique que nous avons connu avec l’épidémie de Covid illustre parfaitement ce point. L’entendement du médecin comme du patient ont été mis au ban. Nous avons été sommés de nous éloigner de nos médecins par des systèmes de soins industriels, fait de SMS, de mail et de bases de données… pensés pour passer à l’échelle plus que pour nous rapprocher du soin.
Dans cette logique à faire parler nos données, « l’anonymat est inconcevable ». Si nous ne sommes plus que nos données, malgré les appels à l’anonymisation et à la pseudonymisation toujours faillibles, nul ne semble plus avoir le droit, dans ces espaces, de ne pas être identifié. Afin que nous soyons faussement en maîtrise (d’autorisation des accès à nos données) ou afin d’associer les données (via le NIR, le numéro de sécurité sociale), le risque d’identifications par-devers nous est fort.
Mais surtout, derrière le but de produire une médecine numérique, prédictive, personnelle, ciblée, individualisée… s’impose une négation de leur logique mutualiste, collectiviste et éminemment personnelle et relationnelle… Pourtant, comme le suggère le médecin Gérard Reach dans un rapport pour l’Académie nationale de médecine, la médecine n’est pas réductible à des arbres décisionnels, c’est d’abord et avant tout un rapport humain. Notre santé n’est pas une question de détection d’anomalies, mais au contraire de compréhension d’innombrables irrégularités. Et les auteurs de rappeler avec le philosophe Georges Canguilhem qu’on ne peut objectiver le passage entre Le normal et le pathologique…
En médecine, nous sommes pourtant, certainement plus qu’ailleurs, dans le domaine des « hétérotaxies », c’est-à-dire un domaine de connaissance où nos innombrables différences ne font pas nécessairement pathologies, à l’image de ceux qui ont des organes mal placés sans nécessairement en avoir des conséquences fonctionnelles. La normativité et l’objectivité d’une médecine purement numérique tiennent certainement d’une quête vaine. Or, dans la production de données de santé fluides, du patient au régulateur, le risque est de produire des nomenclatures, des classifications dures, nécessaires à la standardisation et à l’interopérabilité des systèmes d’informations médicaux. Le risque, c’est de « surmédicaliser des pans entiers de la population au bénéfice des industries pharmaceutiques » et de limiter l’autonomie de diagnostic et de possibilité de médication des médecins ! Or, rappellent les auteurs, les conceptions américaines de la psychiatrie par exemple sont loin d’être homogènes et partagées chez nous. C’est un peu comme quand on évalue la cause d’un décès, elle est bien souvent multiple et ne peut se réduire à une seule case et cause. Or, par nature, la production de données, pour qu’elles s’agrègent et discutent les unes avec les autres, nécessite des normalisations. Le risque, c’est qu’elles s’imposent partout selon des codifications strictes, au détriment de l’appréciation clinique et locale. C’est là tout l’enjeu de gestion de données que politise InterHop notamment, en opposant des données de santé produites pour l’ensemble du secteur et des données de santé d’abord produites à l’échelle locale, pour répondre aux spécificités et enjeux de chaque service, plutôt qu’au pilotage du système de soin.
Comme le rappellent très bien Boulard, Favier-Baron et Woillet : « Plus on éloigne les données de leur lieu de collecte, plus on les décontextualise en prenant le risque de mal les interpréter. En retour, c’est l’application des algorithmes au soin qui devient moins précise. En effet, en éloignant géographiquement le lieu de collecte du lieu de traitement, on perd le bénéfice d’un aller-retour correctif entre les algorithmes et la pratique réelle des soins sur de vrais patients. » Un constat qui n’est pas sans rappeler les préceptes défendus par le Data Feminism ou le Design Justice qui nous invitent à revenir à des données relationnelles plutôt qu’à leur exploitation extractiviste.
Le livre de Boulard, Favier-Baron et Woillet a le mérite d’aller loin dans les conséquences que la transformation numérique fait peser sur la santé, qui n’est pas un changement de régime, mais bien un changement de nature auquel nous assistons !
Ils soulignent surtout l’idéologie qui la guide. Derrière la logique de l’ouverture et de l’interconnexion des données de santé sous couvert « d’innovationnite », se masque un solutionnisme de l’austérité et de la marchandisation. Et de conclure en rappelant la force des préconisations du collectif InterHop : garder la donnée, les solutions logicielles et terminologiques au plus près du lieu de soin pour mieux décorréler le soin de l’idéologie de la réduction des coûts. Le conseil citoyen de la surveillance biométrique de l’Ada Lovelace Institute, où des citoyens ont fait des préconisations en matière de surveillance des données physiologiques de santé, l’a dit dans ses recommandations : interdire purement et simplement l’autorisation de revente des informations biométriques à tout tiers, garantir la représentativité démocratique des solutions technologiques et surtout que le consentement présumé ne puisse pas remplacer le consentement éclairé.
Dans une note pour l’Institut Rousseau » (@InstitRousseau), Ophélie Coelho @OphelieCoelho), dresse le même constat : aujourd’hui, le consentement présumé est trop large. Qu’acceptons-nous vraiment ? Trop souvent, nos données peuvent être utilisées pour produire des analyses statistiques, du profilage, des produits de données, de la recherche… Pour elle, nous devrions amender le RGPD afin de ne plus rendre possible le traitement compatible avec les finalités initiales, tant la marge d’interprétation laissée aux plateformes est large – comme c’est le cas avec l’exemple d’IQVIA qui explique profiter de l’exception de recherche alors que son innovation est bien un produit commercial.
Pour Boulard, Favier-Baron et Woillet, plus radicaux encore, il est nécessaire d’exclure les acteurs pharmaceutiques et assurantiels des plateformes – et on pourrait d’ailleurs imaginer aller plus loin en excluant les données de santé des produits assurantiels, comme l’imagine (bien timidement encore) le Crédit Mutuel en annonçant renoncer au questionnaire médical lors de la souscription d’un crédit immobilier.
Dans la première de ses 12 mesures pour la présidentielle, l’économiste Gaël Giraud (@GaelGiraud_CNRS) propose une dotation en moyens de chaque hôpital en fonction de la population desservie ainsi que le conventionnement sélectif pour les médecins afin de les pousser à s’installer dans les zones les moins dotées, comme pour s’affranchir d’un pilotage par des données trop précises, afin de reprendre de la hauteur politique. Ces deux propositions ont une vertu manifeste : celle de piloter les données depuis des objectifs partagés, plutôt que de seulement piloter depuis les données. Pour le dire plus clairement, l’enjeu semble bien de fixer par exemple des seuils du nombre de lits d’hôpital par services et unités selon la population qu’ils couvrent, plutôt que de les piloter uniquement par la demande. Si nous ne définissons pas combien de lits nous devrions disposer, le risque est qu’ils soient toujours réduits à et par leur calcul. Sans objectifs, les traitements des données n’ont pas de sens !
Derrière la modernisation de notre santé, le risque est bien celui d’une étrange dépossession. Audrey Boulard, Engène Favier-Baron et Simon Woillet nous rappellent qu’on ne joue pas avec la santé et encore moins avec nos données de santé. À l’heure où celles-ci sont pourtant devenues le jeu du passe sanitaire lui-même, accessible à tous, qui permettent des accès différenciés des individus aux transports, aux lieux culturels ou sportifs… À l’heure où la consultation du statut de positivité au Covid par la police a été envisagée en juillet et par les directeurs d’établissements d’enseignement en novembre (dans les projets de loi relatifs au passe sanitaire, mais ces 2 dispositions ont été très légitimement écartées par le Conseil Constitutionnel), nous voyons tous très concrètement les dangers que les plus personnelles de nos informations soient accessibles partout et par tous. À l’heure où nos données de santé sont plus protégées que jamais, elles n’ont jamais été aussi accessibles. À croire que nous sommes plongés dans un paradoxe sans issue.
La journaliste scientifique de Sciences et Avenir, Coralie Lemke (@coralielemke) vient de publier elle aussi un livre sur le sujet : Ma santé, mes données (Premier Parallèle). Plus accessible, bien plus clair et factuel que celui des trois précédents, il permet de comprendre d’autres aspects du complexe problème des données de santé. Notamment que le grand enjeu de l’accès aux données de santé n’est pas tant dans celles contenues dans notre montre connectée (qu’elle caractérise comme des données « d’hygiène de vie » ou de « bien être », peu prisées par la recherche, qui ne relèvent pas directement des données de santé, mais semblent perdues dans un entre-deux législatif, comme le pointait notre dossier sur les applications de santé) ou dans les prescriptions médicales épisodiques et ponctuelles (comme quand on va consulter pour un rhume ou pour une gastro…), mais se concentre surtout dans les données liées à des maladies chroniques, au long cours… Ce sont ces « données de vie réelle » qui ont surtout de la valeur. Elles comprennent notamment les données d’essais cliniques randomisés (permettant par exemple de tester un médicament) et surtout, les soins donnés à des patients et leurs réactions dans la durée, permettant de suivre les évolutions médicales cliniques et les effets des médicaments et traitements sur le temps long. Ce n’est donc pas étonnant si c’est autour de ce type de données que se concentrent nombre de plateformes d’analyses de données, à l’image de la plateforme Darwin de Sanofi, qui contient les informations de 300 millions de patients, ou celle du laboratoire Roche produite avec Unicancer, la Fédération nationale des centres de lutte contre le cancer, pour mettre à dispositions des données oncologiques longitudinales, ou encore entre Sanofi et l’Assistance publique – Hôpitaux de Paris. Pour l’instant, bien souvent, ces entrepôts de données hospitalières sont difficiles à faire parler, notamment parce que les formats dans lesquels les données sont produites sont très loin d’être uniformes et interopérables. Plus que des données – c’est-à-dire des champs dans des tableurs – d’ailleurs, on devrait surtout parler d’informations, puisque les dossiers médicaux tiennent bien plus de fiches et documents, images et documents en PDF, dont il faut parvenir à extraire et faire parler les données avant tout.
L’un des intérêts de ces données de vie réelle explique clairement Lemke, consiste à pouvoir remplacer les groupes témoins dans les essais cliniques randomisés, c’est-à-dire ceux qui reçoivent un placebo, par des données sur des populations existantes. L’enjeu, là encore, vise à réduire les coûts réels comme moraux des essais pharmacologiques. À nouveau, l’agrégation de données de santé vise surtout à rendre la santé moins chère à produire ! L’industrialisation numérique vise partout et toujours, avant tout, à produire de nouvelles économies d’échelle et des gains de productivité.
Lemke donne d’autres exemples parlant. Notamment des partenariats entre les communautés de patients (à l’image de PatientsLikeMe, la plateforme qui regroupe quelques 800 000 patients discutant autour de plus de 2900 maladies) qui à leur tour signent des partenariats avec des laboratoires pour leur permettre d’accéder aux données relatives à certaines maladies, par exemple avec Novartis sur les personnes ayant été transplantées ou celles souffrant de sclérose en plaques, avec AstraZeneca autour des maladies respiratoires ou le cancer… En France, son homologue, Carenity (qui regroupe 500 000 malades) vend également des données ou leur accès à des membres de sa communauté pour des enquêtes. Mais c’est également le cas des plateformes de génétique personnelle comme 23andMe, Nebula Genomics ou MyHeritage, des entreprises américaines qui proposent des tests génétiques personnels et qui revendent les profils génétiques de leurs clients individuels à des laboratoires, sans que les individus soient au courant.
Si les données des capteurs de santé comme Fitbit n’intéressent pas les acteurs de la recherche médicale, elles intéressent les acteurs de l’assurance. Mais l’enjeu des Gafams n’est pas tant de mieux monétiser ce type de données que de montrer aux acteurs de la santé qu’ils disposent des outils permettant de traiter les données et de les faire parler. C’est le cas par exemple d’une récente étude sur la capacité des algorithmes de Google à analyser des images médicales pour détecter le cancer du sein… L’algorithme se révélerait plus fiable qu’un diagnostic établi par un seul médecin (mais moins que deux médecins). Reste, que là encore, ces résultats sont cependant à prendre avec beaucoup de recul, comme l’ont montré les limites de Watson pour lutter contre le cancer. Quant à l’utilisation de systèmes d’IA pour prédire les pathologies à venir des patients depuis leurs données, on peut ici rester plus circonspect encore. Certes, les gens déjà malades ont tendance à le devenir plus à mesure qu’ils le sont et à développer des maladies chroniques voire multifactorielles… mais ces constats tiennent surtout d’une tautologie.
Enfin, comme les données de bien-être, il y a bien sûr le fait que toutes les données peuvent être analysées sous l’angle de la santé, à l’image de FB qui tente d’utiliser nos données pour détecter la dépression ou le risque de suicide… Mais ici, l’enjeu est bien moins médical que commercial. « Si Facebook s’intéresse à vos posts déprimés, c’est qu’ils sont monétisables » et qu’il est finalement plus facile de vous vendre une publicité pour un objet qui vous assure un peu de réconfort : votre fragilité augmente la probabilité d’achat. Les pseudo tests-comportementaux en ligne qui permettent de revendre des pseudo-données d’analyses de votre état psychique (voir notre article « Peut-on rendre le ciblage psychologique productif ? ») à des régies publicitaires pour qu’elles placent des produits adaptés, posent des questions sur cette forme de no man’s land légal, à l’image de la plainte de l’ONG Privacy International (@privacyint) à la Cnil à l’encontre des tests psychologiques réalisés par Doctissimo.
Dans ces grandes manœuvres autour de nos données de santé, le point faible très souvent mis en avant reste la sécurisation des données. Des rançongiciels qui attaquent les systèmes informatiques des hôpitaux, aux innombrables fuites et failles des données de santé qui se retrouvent sur le dark web… en passant par des formes d’anonymisation défaillantes, car difficiles à réaliser par nature, la sécurisation des échanges de données de nombres de plateformes est souvent prise en défaut.
Or, dans le domaine de la santé, la cybercriminalité de santé se porte bien, comme l’a rappelé en 2017 le virus WannaCry qui a notamment infecté de nombreux hôpitaux britanniques du National Health Service ou, en 2021, en France, le piratage de 491 000 dossiers de santé provenant d’ordinateurs de laboratoires de biologie médicale. Les cyberattaques sont en hausse, rappelle Lemke. « De 54 attaques rapportées en 2019, la France est passée à 192 en 2020, soit une hausse de 255 % », explique l’Agence nationale de la sécurité des systèmes d’information (ANSSI). La part des budgets informatiques correspond à 2 % du budget de fonctionnement d’un hôpital. Et celle dédiée à la sécurité est encore moindre. Pour l’ANSSI, il faudrait consacrer entre 4 et 10 % de ces budgets à la sécurité, rappelle Lemke. Nous en sommes loin !
Partout, nos données de santé sont la cible d’une prédation sans précédent, rappelle Lemke, notamment de la part des entreprises du numérique qui promettent des miracles de traitement. Le projet Nightingale de Google a permis de récolter les données de santé de 2600 établissements de soins du réseau de santé catholique américain Ascension, sans recueillir le consentement des patients. Même constat dans le partenariat entre Google et la fédération hospitalo-universitaire américaine Mayo Clinic, ou encore bien sûr l’accord entre le National Health Service britannique et Palantir… Systèmes de soins et apomédiaires, quand ils ne sont pas soumis à des contraintes fortes, comme le RGPD, n’ont aucun scrupule à l’extractivisme de nos données les plus intimes.
Autre problème quant à la sécurité de ces plateformes : leur hypercroissance les conduit à traiter avec beaucoup de légèreté les questions de sécurisation des données de santé auxquelles elles ont accès. L’anonymisation et la pseudonymisation – qui tiennent pourtant d’obligations légales – ne sont toujours optimales. Le chiffrement des données (lui aussi obligatoire), la correction des failles de sécurité… non plus, comme le montrait l’enquête d’Olivier Tesquet sur Doctolib ou celle autour du manque de sécurité des cookies de Doctolib qui permettait à Facebook de recevoir les mots clefs que les utilisateurs de Doctolib en Allemagne tapaient dans le moteur de recherche du site ! La question de la sécurisation des données de bout en bout est encore bien souvent un vaste chantier, traité encore avec trop de légèreté !
En lisant ces deux ouvrages, on peut se poser une question légitime. Faut-il fluidifier les données de santé ? Et si on répond oui à cette question, lesquelles et jusqu’où ?
Le mouvement pour l’ouverture des données, qui se présente toujours sous un couvert vertueux (l’ouverture va produire – « naturellement » – plus de connaissance, plus de démocratie…) n’est pas contrebalancé de principes qui orientent, contraignent ou limitent son action. En vérité, l’ouverture des données produit surtout des indicateurs, facilite l’élargissement des accès aux données (sans poser de questions à leurs limites) et les mesures produites renforcent une logique d’indicateurs comptables et austéritaires. Devons-nous construire un monde où toutes les données sont reliées, qui produit partout des indicateurs homogènes, distribués et concentrés à la fois ? Faut-il construire par exemple un tableau de bord de l’occupation des lits d’hôpital permettant de connaître, en temps réel, le taux d’occupation de tel service de tel hôpital et en même temps, les taux d’occupation départementaux, régionaux et nationaux ? Sans déterminer par exemple de plancher au nombre de lits par habitant (comme nous y invitait Gaël Giraud) : le pilotage par l’occupation des lits menace surtout de produire des réductions drastiques, sans fin, sans limites ! A l’image de la baisse du nombre de lits d’hospitalisation que nous avons connue depuis 20 ans.
Ce dossier et ce sujet sont compliqués. Pas étonnant que les utilisateurs n’y comprennent pas grand-chose. Bien sûr, tout à chacun peut plutôt être disposé à ce que ses données de santé servent la recherche et le progrès médical, voire même le bien mal défini « intérêt public ». Mais doit-on pour autant créer une superstructure des données de santé la plus fluide possible ? Et quid de ses autres finalités qui ne tiennent pas de la recherche, mais bien d’un contrôle et d’une marchandisation de la santé ?
Comme le souligne enfin Coralie Lemke en conclusion de son livre : si le RGPD est très protecteur en matière de données de santé, il repose entièrement sur notre consentement individuel. Nous sommes bien seuls en matière de données de santé face à la « myriade de petites lignes de jargon juridique dont sont composées les conditions générales d’utilisation à valider ». Le contrôle au citoyen le laisse finalement bien démuni et lui confie une responsabilité écrasante face à des acteurs dont les intentions le dépassent.
Reste que dans tous ces dispositifs qui se mettent en place, on constate surtout l’absence des utilisateurs, de structures pour les représenter et pour défendre leurs perspectives. Où sont les associations de patients, de consommateurs ou de défense des droits dans les nouvelles chaînes des données de santé ?
Mais surtout où sont les limites à cette « rafle des données » (ou data grab, comme le dénonce l’opposition, depuis l’été, au plan de partage des données des médecins généralistes britanniques initiés par le NHS) ? Pourquoi s’organise-t-elle depuis des données les plus agrégées possible, les plus complètes possible, les plus continues possible, les plus temps réel possible ? Cette question est toujours balayée d’un revers de la main, alors qu’elle devrait être au cœur de nos réflexions pour mieux balancer santé et respect des patients. L’espace de dialogue avec la population en tout cas, pour l’instant, est inexistant. Or, quand nous sommes au menu, c’est bien souvent que nous ne sommes pas à la table des négociations. Dans les systèmes d’échanges de données de santé, tout se fait pour nous, mais sans nous ! Comme nous y invitait les Ateliers pour la refondation du service public hospitalier, lancés en juillet 2020 à l’initiative de plusieurs collectifs des soignants et patients, ce sont bien ceux là mêmes à qui sont prodigués les soins et ceux-là mêmes qui prodiguent les soins qu’on ne voit pas dans cette mise au pas de la santé par les données. C’est certainement l’aspect le moins rassurant de cette industrialisation et de cette transformation qui s’opère.
Enfin, ultime risque et non des moindres… Celui que cette fluidification du partage de nos données fasse modèle, qu’elle se généralise à d’autres types de données, comme celles de la justice, de l’éducation ou de l’emploi… Si la raison d’une amélioration de la recherche et des indicateurs pour l’intérêt public sera peut-être moins mobilisable, on voit bien que se profile, sous couvert d’optimisation et d’efficacité, une mise en production inédite de nos données par-devers nous.
Hubert Guillaud
Dossier, les enjeux de nos données de santé :
MAJ : Sur Blast, en vidéo, Audrey Boulard et Simon Woillet tentent d’éclairer les enjeux des données de santé.
10.11.2021 à 06:00
Hubert Guillaud
Les enjeux des données de santé sont devenus très visibles avec la crise sanitaire, expliquent Audrey Boulard (@audrey_boulard), Eugène Favier-Baron (@BaronFavier) et Simon Woillet (@SimonWoillet) dans leur livre Le business de nos données médicales : enquête sur un scandale d’État (Fyp édition, 2021). Pour les trois coordinateurs des questions numériques du média en ligne Le vent se lève (@lvslmedia), les mobilisations récentes autour du passe sanitaire sont aussi révélatrices d’une crise de confiance à l’égard des politiques numériques de santé. Alors que nos données de santé sont plus protégées que jamais depuis le Règlement général sur la protection des données (RGPD), elles ont été rendues plus disponibles que jamais, que ce soit via le passe sanitaire comme via les bases de données créées à l’occasion de la crise sanitaire. Cet exemple illustre certainement très bien les contradictions à l’œuvre autour des données de santé, et notamment l’appétence dont elles sont la cible : les protections dont elles font l’objet ne semblent pas tant en protéger l’accès que le fluidifier.
Les transformations en cours ne sont pas neutres politiquement : « la réforme numérique de nos institutions de santé n’est pas une affaire apartisane », comme elle nous est trop souvent présentée. C’est d’ailleurs là, l’intérêt de cet ouvrage : repolitiser ces enjeux. Certes, la question du devenir de nos données médicales n’est pas un sujet simple. Le livre de Boulard, Favier-Baron et Woillet est souvent exigeant, aride, voire même un peu brouillon, pour qui ne possède ni les codes du monde de la santé ni ceux des questions numériques. Bien souvent, derrière cette complexité, le citoyen peine à comprendre de quoi on parle. Pourtant, derrière les questions techniques relatives à la souveraineté numérique (de quelles juridictions dépendent l’analyse et la collecte de nos données ?), derrière les questions techniques d’une fluidification sans fin des données, l’enjeu est de comprendre comment ces transformations vont impacter et transformer notre modèle de santé.
Ne nous y trompons pas, expliquent les trois auteurs : la logique de fluidification de nos données ne vise pas le bénéfice du patient ni de la relation avec nos médecins… Elle masque des logiques de privatisation, de marchandisation et d’optimisation qui ne nous bénéficieront pas. Le risque, expliquent-ils, c’est que les modèles et les indicateurs que visent à produire nos données de santé finissent de mettre à mal le modèle clinique lui-même, c’est-à-dire remettent en cause le rapport humain qui est au fondement même du soin. Nos données de santé sont une aubaine pour trop d’acteurs. Et leur confidentialité, pourtant toujours critique (comme nous le rappelait Susan Landau), risque bien d’être la dernière chose qui sera protégée par ces transformations à venir.
« La numérisation tous azimuts des données de santé (…) fait peser une série de menaces sur notre système social », que ce soit le remplacement des personnels par des machines (en fait, plus certainement, le découplage des métiers selon les actes, à l’image des ophtalmologistes qui ne réalisent plus tous les actes techniques de mesures dans certains centres de soins) et plus encore des diagnostics et des traitements par des calculs automatisés qui menacent la levée de la confidentialité sur notre santé. Mais surtout, elle implique un changement de paradigme, un changement de modèle où les chiffres sont partout reliés à une logique d’austérité comptable, où la mesure sert bien plus à minimiser la santé qu’à la développer.
Les enjeux des données de santé aujourd’hui se cristallisent beaucoup dans la question de la souveraineté. Sous prétexte que nos systèmes de soins ne sont pas au niveau technique espéré ou attendu, les autorités souhaitent confier le stockage et le traitement des données à des entreprises américaines, avec le risque bien sûr que nos données tombent sous leurs juridictions et contraintes. Ce n’est pas un petit risque comme s’en émouvait la CNIL ou le collectif InterHop (@interchu). Les autorités semblent tellement désireuses qu’on accélère l’analyse des données de santé, qu’elles semblent prêtes à céder la nécessaire construction des infrastructures de collecte à des acteurs tiers. Reste que l’enjeu à construire des infrastructures souveraines, libres et open sources, nationales, qu’on maîtriserait de bout en bout, que défend avec raison le collectif InterHop, pour nous préserver de l’ingérence américaine, ne suffit pas à préserver notre modèle de santé, si on n’oriente pas également la finalité des traitements. C’est justement là où le collectif InterHop dépasse ce seul enjeu de souveraineté en promouvant notamment la minimisation des données, leur collecte, gestion et analyse à un niveau local plus que global et en refusant l’exploitation des données des patients. L’enjeu de la maîtrise des outils de santé n’est pas qu’une question d’indépendance et de souveraineté, mais consiste à construire un modèle démocratique de nos données de santé qui nous assure de la conservation du modèle social qui est le nôtre, plutôt que d’importer un modèle social calqué sur le modèle libéral anglo-saxon.
Or, pour les trois auteurs, la technologie telle qu’elle est convoquée pour innerver notre système de soin risque de produire un modèle de santé très libéral. La technologie, là encore, est au service d’un modèle économique, politique et idéologique qui n’est pas celui du modèle de solidarité que nous avons bâti avec la sécurité sociale, mais un modèle bien plus assurantiel et comptable qui vise à produire des indicateurs pour piloter la santé, plutôt que des soins solidaires. La numérisation des données de santé vise d’abord à servir « de levier de contrôle sur la dépense publique de santé ». Pour le collectif InterHop, l’algorithmisation de la santé fait courir le risque de sa personnalisation au détriment du modèle de collectivisation des risques.
« La promotion des technologies et systèmes d’information pour la structuration des données de santé entretient un flou entre efficacité de la gestion du système de santé et progrès thérapeutique ». En fait, sous couvert d’une analyse sans précédent de nos données de santé que leur fluidification permettrait, c’est-à-dire une avancée sans précédent des connaissances sur les maladies – une affirmation souvent répétée, mais qui n’est pourtant jamais vraiment démontrée ! -, on nous vend une transformation majeure de la relation entre instances de régulation et prestataires de soins. Or, rappellent les auteurs, la première utilisation des données de santé répond à des enjeux comptables, à des enjeux de performance du système de soin. La promesse des finalités thérapeutiques de l’analyse des données qui permettraient de concevoir de nouveaux médicaments ou dispositifs de soins, ou du développement d’une santé personnalisée ou prédictive, semble surtout relever du mythe (voir par exemple « En médecine, l’IA est en plein essor, mais pas sa crédibilité »). Elle repose sur cette antienne si caractéristique du numérique d’une capture, d’un colonialisme sans fin sur les données, qui promet que la vérité sera au bout d’un chemin sans fin de rafle de données, d’agrégation, de traitements, de calculs…
Le croisement des données par l’IA que l’interconnexion des données promet, masquent surtout une « tentative de régulation libérale du système de santé », ouverte à nombres « d’apomédiaires », des intermédiaires commerciaux comme les entreprises d’assurances ou les laboratoires pharmaceutiques et plus encore comme nombre de fournisseurs de solutions logicielles ou d’analyses de données tels qu’IQVIA, Palantir, Google Health (que ce soit via Verily ou via le Baseline Project), Microsoft Azure Cloud, 1492 ou le Health Navigator d’Amazon… qui s’immiscent dans le système de santé sans que leur statut ne soit clair.
Les données de santé visent d’abord à produire des nomenclatures et indicateurs pour améliorer la gestion, des indicateurs statistiques, des logiques comptables au service de contraintes budgétaires. Les données de santé produisent d’abord la réduction des lits et des personnels, expliquent les auteurs. Elles produisent d’abord une surveillance comptable du soin. Elles visent l’efficience économique avant tout au risque de renforcer les inégalités de l’accès au soin déjà lourdes, que soulignaient les travaux du géographe de la santé Emmanuel Vigneron. Mais surtout, alors que nos données elles sont à la table et au menu, les indicateurs produits, eux, ne sont pas ouverts et accessibles… pas plus que les recherches que des entreprises privées vont pouvoir faire depuis nos données et s’approprier leurs résultats, sans qu’on n’exige aucune contrepartie.
Image : dans un récent tweet, Guillaume Rozier, data scientist chez OctoTechnology et fondateur notamment de Covid Tracker qui a été l’un des tableaux de bord modèle de suivi de la pandémie en temps réel en France – tableaux de bords qui ont été des accélérateurs de l’ouverture des données, de leur amélioration en continu et qui ont stimulé la recherche de meilleures modalités de visualisation, comme le pointait Bloomberg -, défendait l’ouverture des données pour améliorer les indicateurs hospitaliers. Reste à savoir si les autorités de santé ne disposent pas déjà de ce type d’indicateurs… et le rôle d’une « ingéniérisation de la question », comme le commentait @maisouvaleweb. Comme le soulignent Pierre-André Juven (@pa_juven), Frédéric Pierru et Fanny Vincent (@F_Vincent_) dans leur livre La casse du siècle, à propos des réformes de l’hôpital public (Raison d’agir, 2019), ce n’est pas comme si les indicateurs de rentabilité à l’hôpital n’existaient pas déjà depuis quelques années…
Le business de nos données médicales développe longuement (et parfois un peu fastidieusement) les collisions entre ces nouveaux acteurs, les services d’assurances ou les groupes pharmaceutiques, pour montrer l’actif lobbying en cours de ces innombrables sociétés spécialisées dans la gestion de données médicales afin d’intégrer et piloter les transformations de l’infrastructure de nos données de santé. Autant d’acteurs qui semblent aujourd’hui orienter les politiques publiques à leurs profits. Comme le soulignent les auteurs, ces apomédiaires, tout comme les compagnies d’assurances et les laboratoires pharmaceutiques, sont bien souvent aussi les premiers acheteurs de nos données de santé, quelles que soient les méthodes avec lesquelles elles ont été acquises. Tous cherchent à accéder aux données, à déréguler leur accès. Et dans ces perspectives, le rôle de l’État est trouble. Lui aussi cherche à réduire le coût de la santé, à transformer l’hôpital en sa version la plus mercantile, à améliorer l’efficience économique du système de soin par le profilage, la prédiction, le suivi temps réel…
Le projet de Health Data Hub (HDH), une plateforme pour centraliser toutes les données de santé de la population française afin de les rendre accessibles à des formes inédites de calculs par nombre d’acteurs de la santé, mais plus encore au secteur privé, comme l’expliquait très clairement la Quadrature du Net (@laquadrature), est aujourd’hui au cœur des polémiques. La principale polémique tient du risque que cette plateforme de collecte et d’analyse de données de santé, opérée par Microsoft, fait peser sur la divulgation de nos données aux autorités américaines, comme l’explique le site d’information médical, What’s Up Doc (@whatsuupdoc_mag). Mais cette polémique masque d’autres enjeux. Les traitements que les projets de recherche en IA que la plateforme accueille visent essentiellement à produire des quantifications des risques associés à certaines pathologies pour un meilleur contrôle des coûts, mais également des analyses de données pour mieux évaluer leur rentabilité. Le Health Data Hub lancé en décembre 2019 est une structure de collecte de données de santé pour la recherche, comme le montrent les projets que le Hub accueille. Pour cela, elle agrège une multitude de bases de données auxquelles elle donne des accès : notamment la base de données du Sniiram (Système national d’information inter-régimes de l’assurance maladie) qui collecte les feuilles de soin de la Caisse nationale d’assurance maladie, le PMSI (programme de médicalisation des systèmes d’information, qui contient les dossiers de chaque patient hospitalisé en France), la Base de causes médicales de décès, mais aussi Vaccin Covid, Covidom (la base qui suit les personnes déclarées positives au Covid), Contact Covid (la base pour la recherche de contact autour des cas positifs au Covid)… Ainsi que nombre de bases de données hospitalières. L’enjeu du HDH vise à construire une forme « d’hôpital comme plateforme », où la centralisation des données de santé devient une matière première pour les algorithmes des medtechs.
Le Health Data Hub a, par exemple, lancé trois projets de recherche sur la pandémie : Frog Covid (qui s’intéresse aux parcours des patients admis en réanimation), CoviSAS (pour prévenir les risques des populations vulnérables) et CoData (qui se concentre sur la non-prise en charge des personnes atteintes d’un cancer du sein durant l’épidémie), qui ne semblent pas à ce jour avoir livré de résultats, souligne la journaliste Coralie Lemke dans son livre Ma santé, mes données (Premier Parallèle, 2021). Pour Woillet, Favier-Baron et Boulard, comme ils l’expliquaient sur LVSL, le Health Data Hub vise à permettre à des entreprises privées d’accéder à des données pour construire des produits privés, qui ne bénéficieront pas nécessairement aux structures publiques.
La plateformisation de la santé par les données, produit à la fois un risque de perte de souveraineté sur nos données de santé, mais bien plus un modèle de santé publique hors-sol, commercial et libéral. Derrière ces projets, le risque est bien celui d’une centralisation sans précédent de nos données de santé, sous prétexte de recherche.
La souveraineté dans le monde des plateformes est juridique, infrastructurelle, économique et géostratégique, rappellent les auteurs du business de nos données médicales. Avec les plateformes, la technologie façonne le droit. « Le code est la loi et l’architecture informatique est politique », disait avec pertinence le juriste Lawrence Lessig. Les choix opérés en matière d’organisation des infrastructures informationnelles sont politiques. Confier la gestion du Health Data Hub à Microsoft Azure n’est pas un simple choix de prestataire technique. Il oriente la plateforme bien au-delà de faire tomber nos actifs de santé sous la coupe de législations extraterritoriales, notamment en les enfermant dans des solutions logicielles spécifiques et non ou peu réversibles, comme s’en inquiétait le député LREM Philippe Latombe dans son rapport. Il souligne un désengagement de l’État dans l’investissement lourd, infrastructurel, de long terme, dans la production de systèmes d’information maîtrisés de bout en bout, mais surtout produit des risques de centralisation des données au détriment des droits des individus et génère des risques de sécurité forts du fait des centralisations que ces plateformes génèrent. Le scandale du Health Data Hub, qui a choisi Microsoft sans même appel d’offres ni cahier des charges souligne combien ce choix manque de garanties. Le risque d’extraterritorialité des données a fait réagir jusqu’au Conseil d’État qui préconise un changement de fournisseur. Plus que le risque d’une captivité numérique, au final, pointent les auteurs, le risque est bien celui d’une « économie de santé intégrée par le numérique » qui risque de créer des oligopoles cliniques et assurantiels, qui visent à favoriser, « au bout du tunnel de la numérisation », non seulement la privatisation, mais bien l’accélération des inégalités de santé en documentant la rentabilité de chacune de nos capacités médicales par les données.
En fait, la question de la souveraineté est importante – comme le répète et le défend l’entrepreneur Tariq Krim (@tariqkrim) dans nombre d’interviews tout comme dans sa « Lettre à ceux qui veulent faire tourner la France sur l’ordinateur de quelqu’un d’autre » -, mais ce n’est peut-être pas la seule question à poser. La menace n’est pas seulement celle que des plateformes étrangères s’accaparent nos données, mais que le principe même de plateforme vienne transformer notre système de santé. À nouveau, la préférence que l’on pourrait donner à des acteurs nationaux pour opérer ce type de plateforme ne signifie pas un changement de logique. Au contraire ! L’ubérisation de la santé par le numérique que propose « l’hôpital comme plateforme » est d’abord dans la logique de la mise à disposition d’une agrégation sans fin de données, quels que soient les acteurs qui l’opèrent. Comme le pointe Coralie Lemke dans son livre, « rien ne garantit cependant que des acteurs nationaux agiront de manière plus éthique ». Le risque est bien de reproduire les pratiques des acteurs internationaux afin d’accélérer « les flux de données pour soutenir l’innovation ».
Dans un excellent chapitre sur l’État plateforme, les auteurs du Business de nos données médicales soulignent très bien ce que les plateformes produisent. Ils y rappellent, combien le concept d’État plateforme a surtout été mobilisé dans un objectif comptable et dans une perspective de réduction des coûts visant à dégraisser l’administration (voir notamment « Mais comment passer des startups à l’État plateforme ? »). La plateformisation vise à produire une boîte à outils pour gouverner par l’efficacité, en pilotant l’offre par la mesure de la demande, c’est-à-dire à estimer les coûts médicaux de manière toujours plus dynamique. Le risque, comme le pointait le Conseil national de l’ordre des médecins, est bien celui d’une ubérisation de la médecine (.pdf). Pour Tim O’Reilly lui-même, initiateur du concept d’État plateforme (voir nos articles « Du gouvernement comme plateforme… ou l’inverse »), l’État plateforme vise à privilégier l’efficacité du résultat. « Cette vision prétendument post-idéologique ou post-politique présente le risque d’une dérive autoritaire puisqu’il s’agit d’autoriser pour un seul et même type d’objectif régalien – sanitaire par exemple -, toutes les techniques gouvernementales possibles pourvu qu’elles l’atteignent « efficacement ». » Le risque est bien de réduire la politique à une technique de résolution de problèmes logiques, à une « névrose solutionniste » à la recherche de sa seule efficacité. L’État n’a plus que vocation à départager les fournisseurs de service selon des critères d’efficacité, de rentabilité, d’optimisation des coûts, et non plus selon des critères de fourniture d’un service public ou d’une mission sociale de l’État ! « Le gouvernement devrait-il fournir des soins de santé ou laisser cette tâche au secteur privé ? La réponse se trouve dans les résultats ». Le problème c’est que l’État risque toujours d’être désavantagé dans cette balance, puisque les critères de succès qu’on y applique sont ceux du secteur privé. « Cette instrumentalisation de la puissance publique au service d’intérêts privés s’incarne en France encore une fois avec le cas d’école du Health Data Hub dont la stratégie affichée de « valorisation des données publiques » aboutit paradoxalement à son ouverture au privé, à une extension de l’empire du marché sur un bien public. » Derrière l’ouverture des données publiques promue comme un enjeu démocratique se cache l’enjeu de leur privatisation et de leur marchandisation. Le gain scientifique ou démocratique de l’ouverture des données semble trop souvent un prétexte bien commode à leur valorisation marchande. Au final, l’ouverture des données couvre surtout une transmission numérique (Boulard, Favier-Baron et Woillet parlent plutôt de « transition numérique », mais pour ma part, cette transformation me semble plus tenir d’une délégation de pouvoir que d’un passage d’un état pré-numérique à un autre). Derrière l’ouverture des données de la santé, l’enjeu est d’abord que le secteur privé prenne le relais des investissements publics. À plus long terme, la technologie a pour mission d’ajuster en temps réel les remboursements et les tarifications de santé, c’est-à-dire de piloter la santé par les données.
Ne nous y trompons pas cependant. Le RGPD a considérablement renforcé la protection des données de santé. Et c’est ce qui est difficile à comprendre pour l’utilisateur. Ses données sont plus protégées et en même temps sont prêtes à être plus exploitées que jamais. Le RGPD notamment a considérablement délimité la revente des données de santé et a renforcé l’obligation d’obtenir le consentement des personnes – un consentement « clair positif, libre et spécifique » et qui doit définir précisément le cadre ou l’objet auquel il s’applique. Pourtant, dans le même temps, le RGPD a prévu des exceptions pour certaines finalités, notamment pour la gestion des systèmes et services de santé ou de protection sociale, pour la préservation de la santé publique et l’appréciation médicale… ainsi que pour la recherche. Au final, si on lit bien ces exceptions, le RGPD a renforcé l’utilisation des données de santé pour la santé en les excluant de tout autre type d’usages. Sûr le fond, cela semble très positif : nous souhaitons tous que nos données de santé puissent servir le progrès médical et soient réservées à des acteurs de la santé, notamment afin qu’ils soient soumis au secret médical qui l’encadre. Ce n’est pourtant pas la limite qui se dessine, puisque ces accès s’ouvrent non seulement aux praticiens, mais plus encore à nombre d’apomédiaires de la santé. Avec le HDH notamment, nous sommes confrontés à un changement de paradigme qui fait de l’accès aux données de santé la norme plutôt que l’exception, comme le pointait très justement La Quadrature du net.
Le problème est que ces accès ne sont pas toujours vertueux. Le meilleur exemple est certainement le scandale IQVIA révélé par Cash Investigation en mai 2021. IQVIA est l’un des principaux fournisseurs de logiciel de gestion des pharmacies. Depuis 2018, il a été autorisé par la Cnil à constituer une base de données des clients de ces pharmacies pour proposer aux officines des outils de pilotage de leurs activités ainsi que pour agréger ces données pour les revendre à des laboratoires ou produire des études. Le problème, c’est que les clients de ces pharmacies devraient être informés de cette collecte et pouvoir la refuser le cas échéant… Ce qui n’a pas été le cas jusqu’alors. Plus problématique d’ailleurs, le pharmacien – qui est ici l’interlocuteur de l’usager – est juge et partie dans cette information. Il doit informer ses clients et recueillir leur consentement ou leur refus, mais sans grande neutralité, puisqu’il tire lui-même profit de leur consentement. Enfin, rapportait Zdnet, la Cnil a rappelé à IQVIA la nécessité de pseudonymiser les données clients, ce que visiblement l’entreprise ne faisait pas. Reste que le principal problème, c’est qu’IQVIA sous couvert de recherche exploite des données qui servent surtout à fournir un produit aux officines : difficile donc de défendre l’exception de recherche !
Cet exemple montre bien la complexité du problème. Aucune entreprise n’accepterait pourtant que ses données comptables puissent être exploitées par le fournisseur du logiciel sur lequel elle les saisit. Pas plus que nous n’accepterions que les documents que nous collectons sur Google Drive soient la propriété de Google ou qu’il puisse les lire et y réaliser des traitements – autres que la publicité automatisée. Doctolib par exemple n’a pas le droit d’exploiter les données qu’il recueille pour le compte des établissements de santé (même si l’entreprise n’a pas été exempte de critiques ces dernières années). Sous exception de recherche, d’études, d’ouverture… on assiste à des formes de fluidification de l’exploitation de nos données de santé. Le problème, c’est qu’il est possible que cela ne s’arrête pas là !
Hubert Guillaud
Dossier, les enjeux de nos données de santé :