THE CONVERSATION

23.04.2026 à 16:14

Des manchots de l’Antarctique à l’explicabilité en IA. Bienvenue en prétopologie !

Guillaume Guérard, Enseignant-chercheur, Intelligence Artificielle, ESILV, Pôle Léonard de Vinci

Pour développer des systèmes d’IA « explicables », c’est-à-dire dont les humains comprennent les raisonnements, plusieurs pistes existent.

Texte intégral (2155 mots)

Il existe plusieurs espèces de pingouins en Antarctique. Une tâche standard est de classer les individus dans telle ou telle catégorie, tout en comprenant les raisons de ce classement. Arturo de Frias Marques, Wikipedia, CC BY-SA

La plupart des algorithmes performants actuels – notamment l’apprentissage profond (deep learning) et ses réseaux de neurones – fonctionnent comme des boîtes noires. On sait qu’ils donnent de bons résultats, mais impossible de comprendre leur logique interne. Ceci pose problème pour de nombreux domaines d’application (médecine, justice…), ce qui incite les régulateurs à exiger des systèmes « explicables ». Plusieurs pistes vers l’explicabilité existent. Zoom sur la « prétopologie ».

Imaginons un patient dont les résultats sanguins montrent un taux d’hémoglobine de 12,5 grammes par décilitres de sang. Un algorithme de détection précoce du cancer analyse ces chiffres, mais aussi ses antécédents familiaux (présents ou absents), son statut de fumeur (oui ou non), son niveau d’activité physique (faible, moyen, élevé). L’algorithme le classe dans un groupe à risque modéré. Mais quand son médecin lui demande pourquoi, le système ne peut pas répondre : c’est une boîte noire.

Et c’est évidemment un problème pour le patient, le médecin, l’assurance maladie, etc. C’est pour cela que l’AI Act européen, adopté en mars 2024, impose des obligations strictes aux organisations et entreprises opérant en Europe. D’ici 2026-2027, tous les systèmes d’IA dits à haut risque devront être « transparents » et « explicables », c’est-à-dire dont un humain puisse comprendre la logique. Les sanctions pourront atteindre 35 millions d’euros ou 7 % du chiffre d’affaires annuel mondial, car les domaines concernés peuvent avoir des effets importants.

Par exemple, en ressources humaines, les logiciels de tri de CV qui analysent à la fois des niveaux de diplômes, des années d’expérience et des compétences techniques doivent pouvoir justifier pourquoi un candidat est retenu et un autre écarté. Dans l’industrie énergétique, les systèmes de maintenance prédictive qui combinent données de capteurs (température, vibrations), historique de maintenance et type d’équipement doivent expliquer pourquoi une éolienne ou un autre équipement est signalé comme « à risque de panne ».

Pour contrer l’« effet boite noire » des systèmes d’IA actuels, nous proposons une méthode issue d’une discipline méconnue du grand public, la « pré-topologie », qui permet de rendre explicables les raisonnements faits sur des données mixtes (le taux d’hémoglobine est un chiffre tandis que la présence ou non d’antécédents familiaux ne se chiffre pas).

Qu’est-ce que la prétopologie ?

La prétopologie, c’est l’art de dessiner des « zones d’influence » autour de chaque personne ou objet dans un réseau – comme les cercles d’amis sur les réseaux sociaux, où l’influence n’est pas forcément réciproque.
Pour décrire une zone complexe, elle utilise une recette appelée forme normale disjonctive, qui assemble des blocs de base, puis calcule automatiquement tout ce qui « adhère » à cet assemblage, c'est-à-dire tout ce qui gravite naturellement autour de lui.

Les limites des méthodes actuelles pour rendre les systèmes d’IA « explicables »

Le clustering hiérarchique est aujourd’hui la méthode de référence pour regrouper automatiquement des observations similaires et donc pour rendre les données plus interprétables : en organisant les observations en une hiérarchie de groupes emboîtés (un dendrogramme), il permet à un expert de naviguer entre niveaux de granularité, d’identifier des profils types et d’expliquer pourquoi deux individus sont regroupés ensemble, sans avoir à ouvrir la “boîte noire” d’un modèle prédictif.

Son fonctionnement est simple et transparent. On mesure d’abord la distance entre chaque paire d’observations. Ensuite, on regroupe progressivement les observations les plus proches. Enfin, on obtient un arbre (appelé dendrogramme) qu’on peut couper à différents niveaux pour former des groupes.

Prenons l’exemple des manchots de l’archipel Palmer en Antarctique. Si on mesure la longueur de leur bec et leur masse corporelle, le clustering hiérarchique identifie automatiquement trois groupes qui correspondent aux trois espèces biologiques présentes : Adélie, Jugulaire et Papou. L’atout majeur est sa transparence : on visualise l’arbre, on suit les regroupements successifs, on comprend facilement comment les groupes se sont formés, la hauteur d’embranchement donne une idée de la « différence » entre deux groupes.

Le défi survient quand on mélange chiffres et catégories. Mesurer une distance entre deux chiffres est facile : si un patient a une glycémie de 5,5 millimoles par litres (une unité de concentration) et un autre de 6,2 millimoles par litres, la différence est de 0,7. Mais comment mesurer la distance entre deux « catégories » que l’on ne peut pas chiffrer, comme une réponse oui ou non (fumeur ou non-fumeur), ou encore la couleur d’un tissu biologique ?

Par exemple, dans notre exemple de détection précoce du cancer, si le patient A présente une concentration d’hémoglobine de 12,5 grammes par décilitres (chiffre), des antécédents familiaux (catégorie « oui ») et ne fume pas (catégorie « non ») ; tandis que le patient B présente une concentration d’hémoglobine de 13,1 grammes par décilitres, pas d’antécédents et fume… comment dire si ces deux patients sont « proches » ou « éloignés », en termes de risques ?

Les solutions existantes, comme le k-means, HDBSCAN et DIANA ont toutes des limites. Transformer les catégories en chiffres artificiels (« oui » = 1, « non » = 0) est arbitraire et fait perdre du sens. Plus précisément, ceci signifie que l’on introduit une relation d’ordre et une distance qui n’existent pas : coder « chat » = 1, « chien » = 2, « oiseau » = 3 suggère implicitement que chien est « entre » chat et oiseau, ou que la distance chat-chien est égale à chien-oiseau, ce qui peut biaiser tous les calculs de similarité en aval.

Ignorer les catégories pour ne garder que les chiffres, comme dans les méthodes citées précédemment, fait perdre des informations cruciales comme les antécédents familiaux. Les méthodes statistiques plus complexes sont souvent opaques ou nécessitent des hypothèses fortes sur la structure des données. C’est le cas de la distance de Gower ou de l’analyse des facteurs latents – le genre de structure qui peut se cacher derrière les grands modèles de langage (LLM).

C’est précisément dans la définition de ces voisinages – comment mesurer qu’un patient « ressemble » à un groupe malgré des données hétérogènes – que la prétopologie offre un cadre naturel : elle permet de construire des zones d’influence flexibles, sans imposer de distance artificielle ni d’hypothèses sur la structure des données.

Une solution en développement : mesurer la similarité autrement

Pour cela, au lieu de chercher à mesurer des distances, nous proposons de changer de perspective en définissant des « voisinages », construits via des formes normales disjonctives, ou DNF. Derrière ce nom se cachent des règles logiques simples du type : « Un patient appartient au voisinage d’un groupe si (il est diabétique ET âgé de plus de 60 ans) OU (il a des antécédents familiaux ET est hypertendu) ». Chaque condition entre parenthèses est un bloc ; le voisinage est l’union de ces blocs. Pas de chiffres, pas de distance : seulement des combinaisons de caractéristiques, comme des règles de décision lisibles.

Une fois les voisinages définis, on calcule pour chaque groupe l’ensemble de tous les patients qui lui « adhèrent » – c’est-à-dire qui tombent dans au moins un de ces blocs DNF. Ce calcul d’adhérence est itératif : à chaque étape, des patients rejoignent ou quittent un groupe, jusqu’à stabilisation. Le résultat est analogue à un dendrogramme : on obtient une hiérarchie de regroupements successifs, du plus local (blocs fins, peu de patients) au plus global (grands groupes stables), sans avoir jamais posé de distance artificielle entre catégories et chiffres.

Une analogie aide à comprendre. Sur une carte géographique, on mesure la distance entre Paris et Lyon en kilomètres. Mais on peut aussi dire que Dijon est voisine de Lyon parce qu’elles partagent des caractéristiques : région similaire, climat comparable, économie proche. Cette notion de « voisinage » par caractéristiques communes ne nécessite pas de calculer une distance précise.

Notre algorithme en accès libre pour des études pilotes

C’est le principe de base de PretopoMD, notre algorithme qui classe automatiquement des données mixtes (chiffres et catégories) tout en rendant explicite sa logique de regroupement. Pour les chiffres, deux valeurs sont voisines si elles tombent dans la même fenêtre : toutes les glycémies entre 5 et 7 mmol/L sont voisines. Pour les catégories, deux observations sont voisines si elles partagent la même modalité : deux patients sont voisins s’ils sont tous deux fumeurs, ou si tous deux ont des antécédents familiaux.

PretopoMD est d’ores et déjà disponible en accès libre pour permettre à des équipes en santé, RH ou maintenance de l’utiliser pour des études pilotes. À moyen terme, nous espérons que cette approche puisse aider les organisations européennes à répondre aux exigences de l’AI Act en proposant des classifications explicables par construction.

L’avantage clé est la traçabilité. Pour notre exemple médical, on peut dire :

« Les patients A et C sont dans le même groupe parce qu’ils partagent une glycémie dans la fenêtre 5-7 millimoles par litres (étape 1), tous deux ont des antécédents familiaux (étape 1), et tous deux ont un IMC entre 25-30 (étape 2). Le patient B les rejoint à l’étape 3 via un IMC similaire, malgré l’absence d’antécédents. »

Cette explication pas-à-pas répond directement aux exigences de l’AI Act. De plus, la structure hiérarchique est préservée, on peut identifier grands groupes et sous-groupes pertinents.

Néanmoins, notre algorithme possède des limites, puisqu’il faut choisir la taille des fenêtres et les seuils de similarité, faisant actuellement appel à un expert métier. Nous travaillons sur des méthodes pour automatiser ces choix.

Ainsi, la question reste ouverte : jusqu’où peut-on pousser la performance tout en conservant l’explicabilité ? Dans des domaines sensibles comme la santé ou le droit, ce compromis est-il acceptable ? Notre travail montre qu’on peut au moins explorer cette voie.

Guillaume Guérard ne travaille pas, ne conseille pas, ne possède pas de parts, ne reçoit pas de fonds d'une organisation qui pourrait tirer profit de cet article, et n'a déclaré aucune autre affiliation que son organisme de recherche.

22.04.2026 à 16:01

Comment l’IA apprend le langage secret de l’ADN, et ce que la recherche y gagne

Julien Mozziconacci, Professeur en biologie computationelle, Muséum national d’histoire naturelle (MNHN)

Élodie Laine, Professeure en biologie computationnelle, Sorbonne Université

Plutôt que de produire des mots, le modèle d’intelligence artificielle Evo 2 est capable de prédire une base d’ADN en se fondant sur une séquence donnée.

Texte intégral (2135 mots)

Plutôt que de produire des mots, le modèle d’intelligence artificielle Evo 2 est capable de prédire une base d’ADN en se fondant sur une séquence donnée. Lancé, il y a un peu plus d’un an, le modèle s’affine et permet aux scientifiques de mieux comprendre le langage de l’ADN. Sa puissance de calcul pose néanmoins des questions de ressources énergétiques.

Si vous avez déjà utilisé un modèle de langage comme ChatGPT ou Mistral, vous vous souvenez sans doute de la première impression : orthographe impeccable, grammaire fluide, phrases qui ont du sens. Pourtant, sous le capot, ces systèmes ne font qu’une chose très simple : prévoir dans une phrase le mot qui va suivre. Ils utilisent des statistiques apprises sur un immense corpus de textes, et c’est ainsi qu’ils « parlent » français, anglais et bien d’autres langues.

Une idée féconde a alors germé chez les généticiens : et si l’on entraînait la même classe de modèles pour apprendre le langage de la vie, la suite de lettres A, T, G, C, inscrite dans nos génomes ? C’est le pari des modèles de langage génomiques : ils apprennent la grammaire cachée de l’ADN et offrent à la recherche un allié précieux pour explorer, proposer et tester plus vite des hypothèses scientifiques.

Que fait un modèle d’IA ?

Un algorithme d’intelligence artificielle (IA) est, au fond, une machine à transformer des nombres. Les données d’entrée, qui peuvent être des images, des sons ou du texte, sont d’abord encodées en chiffres. Puis l’algorithme applique des opérations simples (additions et multiplications par des paramètres internes au réseau et seuillage) et renvoie les résultats (d’autres chiffres) en sortie. À grande échelle, cette mécanique très simple suffit à jouer au go, à conduire une voiture… ou à comprendre les génomes.

L’astuce, ce n’est pas seulement l’encodage : c’est surtout l’apprentissage. Le modèle ajuste ses paramètres internes à chaque exemple (association entre une entrée et une sortie cible), un peu comme on accorde un instrument : à chaque note jouée, on tend ou détend la corde jusqu’à ce que la mélodie sonne juste.

Les applications de ce principe simple sont multiples et variées. Au jeu de go, l’IA regarde la position des pierres (un tableau de chiffres) et propose le prochain coup ; dans une phrase, le modèle suggère le prochain mot. En génomique, il lit A T G C… et prédit la prochaine base. Si ses prédictions sont bonnes, c’est qu’il a appris quelque chose sur la structure cachée du problème qu’il résout.

Les premiers modèles de langages génomiques

C’est en suivant ce principe que les premiers modèles de langage génomiques ont été entraînés en utilisant des génomes à la place des corpus de texte. Une des versions les plus récentes, Evo 2, a été développée par une large équipe autour du centre de recherche Arc Institute, dans la Silicon Valley. Ce modèle a été entraîné sur de nombreux génomes, comptabilisant près de 10 000 milliards de bases (les fameuses lettres A,C,G,T) ce qui représente 3 000 fois la taille de notre génome.

Le modèle lit à chaque étape un million de bases et le calcul revient toujours à la même question très simple : parmi les quatre lettres possibles (A, C, G ou T), laquelle est la plus probable juste après celles que l’on vient de lire ? La taille gigantesque de sa « fenêtre de lecture » lui permet de saisir à la fois des règles locales et des dépendances lointaines (régulations des gènes à distance). Ce saut d’échelle n’est pas qu’une prouesse technique : il change la manière dont on peut poser des questions en biologie, notamment dans ces régions non codantes (celles qui ne sont pas traduites en protéines) qui restent souvent incomprises et constituent la « matière noire » du génome.

Dans la pratique, l’apprentissage ressemble à une partie de devinettes : à chaque fois que le modèle devine correctement une lettre masquée au sein d’une séquence, il renforce les chemins internes qui l’y ont mené ; lorsqu’il se trompe, il corrige ces chemins. À force, il repère des schémas récurrents : certains motifs précèdent souvent le début d’un gène, d’autres signalent la fin, et certains motifs de la séquence trahissent la façon dont la cellule découpe l’ARN (l’épissage) ou assemble la machinerie de traduction des ARN en protéines.

L’apprentissage se fait d’abord à l’échelle globale. Le modèle lit une grande diversité de génomes et apprend une grammaire générale du vivant. Ensuite, on peut éventuellement l’adapter à une famille d’organismes ou à une question précise (par exemple, en le spécialisant sur un groupe de virus ou de bactéries).

L’IA apprend la grammaire cachée de l’ADN

C’est ici que la recherche s’enthousiasme : en apprenant juste à compléter les séquences, les modèles reconnaissent des signatures biologiques sans qu’on les leur ait pointées du doigt.

Ils retrouvent la périodicité en trois lettres du code génétique : le texte du vivant se lit par triplets (les codons), et les modèles « entendent » ce rythme, comme une mesure en musique. Ils repèrent aussi les départs et arrêts de gènes, avec des contraintes fortes sur les lettres les plus importantes, où l’on s’attend à ce que l’erreur soit rare. Ils détectent des signaux utiles à la machinerie cellulaire : chez les bactéries, les sites de liaison du ribosome ; chez les eucaryotes, les frontières entre exons (conservés) et introns (séquences à retirer), comme si le modèle distinguait les paragraphes et les espaces dans un texte.

Plus étonnant, ils révèlent aussi les éléments mobiles (par exemple, des virus intégrés au génome au cours de l’évolution) et même des empreintes liées aux formes 3D des protéines (hélices α, feuillets β) et des ARN. Le modèle dessine alors les contours de la sculpture finale. Car c’est bien de sculpture qu’il s’agit.

Le génome ne contient pas seulement des instructions – il encode des formes. Une protéine, un ARN, ne sont pas de simples colliers de lettres : ils se replient, se tordent, se nouent dans l’espace pour adopter une architecture précise, dont dépend leur fonction. C’est cette forme qui permet à une molécule de reconnaître une autre, de s’y accrocher, de déclencher une réaction. Les contacts qui stabilisent cette forme se font parfois entre des régions très éloignées dans la séquence – et pourtant, les modèles semblent capables de les capturer, comme s’ils devinaient, à force de lire le texte, quelles lettres se correspondent malgré la distance qui les sépare.

Ce qui peut surprendre, c’est que ces découvertes n’ont pas été enseignées : elles émergent spontanément de l’apprentissage. Et parfois, paradoxalement, quand on essaie d’affiner le modèle en lui montrant des exemples bien connus, il perd une partie de ce qu’il avait trouvé seul. Comme si trop guider l’élève lui faisait oublier ce qu’il avait intuitivement compris.

Pour rendre cette « boîte noire » plus lisible, les chercheurs utilisent des « autoencodeurs clairsemés » qui décomposent les représentations internes du modèle en traits compréhensibles. Chaque trait s’allume comme une lampe au-dessus d’un élément de séquence (exon, motif, élément mobile). Ces traits servent de fil d’Ariane. Ils indiquent où le modèle a vu un signal, de quel type il est et comment il varie d’un organisme à l’autre. On peut même transférer ces traits vers des génomes peu étudiés, ouvrant la voie à des atlas fonctionnels multi‑espèces construits de manière plus rapide et moins coûteuse que par les approches classiques.

Dans nos propres recherches, Evo 2 est surtout un point de comparaison : il montre jusqu’où peut aller un très grand modèle quand on lui donne énormément de données et de puissance de calcul. Il faut aussi voir que cette démonstration a une dimension vitrine pour Nvidia, le plus gros fabricant de processeurs pour l’IA, qui a mis sa puissance de calcul au service de l’Arc Institute pour concevoir Evo 2. L’idée sous-jacente est de montrer qu’il faut des modèles gigantesques et des infrastructures de calcul hors normes pour déchiffrer le secret de la vie. Le résultat est impressionnant, mais ce n’est pas forcément le seul chemin possible pour faire avancer la biologie.

Nous avons justement lancé le projet PLANETOID, financé dans le cadre de France 2030, pour explorer une stratégie complémentaire : construire des modèles beaucoup plus petits, plus rapides, plus faciles à entraîner et à déployer dans des laboratoires académiques. L’objectif est d’exploiter des données de biodiversité riches, produites par nos partenaires – en particulier au Muséum national d’histoire naturelle et dans les stations marines – afin d’annoter des génomes et des métagénomes (des ensembles de génomes) à l’échelle de l’arbre du vivant, y compris pour des espèces dites « non modèles », qui représentent l’immense majorité du vivant, mais restent souvent mal comprises.

PLANETOID vise aussi à produire des ressources et des outils réutilisables, pour que ces approches ne restent pas réservées à quelques acteurs capables de mobiliser des moyens industriels, mais puissent irriguer la recherche publique, puis à terme la santé et l’environnement.

Le futur : estimer l’effet d’une mutation ou écrire de nouveaux génomes

Parce qu’un modèle de langage assigne une vraisemblance à chaque séquence, il devient possible de comparer la version de référence et une version mutée. Si la mutation fait chuter la vraisemblance, elle devient suspecte. Ce score agit comme une carte pour guider les chercheurs : il montre des zones où une variation risque de perturber une fonction et oriente les expériences à prioriser.

Une autre application a le vent en poupe : la génération de séquences « fonctionnelles » in silico. Les chercheurs ont montré qu’on peut composer du texte génétique qui a toutes les caractéristiques de génomes naturels. Toutefois cette pratique soulève d’importantes questions éthiques (risques eugénistes, possibilité de virus synthétiques…) et doit rester strictement encadrée – c’est un sujet de société plus qu’un enjeu immédiat de recherche.

Julien Mozziconacci est professeur au Muséum National d'Histoire Naturelle et membre junior de l'Institut Universitaire de France. Il a reçu des financements de l'Agence Nationale de la Recherche (ANR, France 2030, PostGenAI@Paris). Les points de vue et opinions exprimés sont toutefois ceux des auteurs uniquement et ne reflètent pas nécessairement ceux des instituts qui les ont financés.

Élodie Laine ne travaille pas, ne conseille pas, ne possède pas de parts, ne reçoit pas de fonds d'une organisation qui pourrait tirer profit de cet article, et n'a déclaré aucune autre affiliation que son organisme de recherche.

20.04.2026 à 15:44

« StravaLeaks » : quand les traces numériques deviennent un enjeu de sécurité

Fabrice Lollia, Docteur en sciences de l'information et de la communication, chercheur associé laboratoire DICEN Ile de France, Université Gustave Eiffel

L’affaire « StravaLeaks » montre que, dans un monde saturé d’objets connectés et de données de localisation, les traces numériques sont devenues un enjeu central de sécurité pour les environnements sensibles.

Texte intégral (1609 mots)

L’affaire « StravaLeaks » montre que, dans un monde saturé d’objets connectés et de données de localisation, les traces numériques ordinaires sont devenues un enjeu central de sécurité pour les environnements sensibles. De simples données de déplacement issues d’un footing, enregistrées et partagées par une application publique, ont pu être utilisées pour localiser des navires ou des bases militaires.

Un footing, en apparence, n’a rien de sensible. Pourtant, en mars 2026, une activité enregistrée sur Strava par un militaire français a permis de localiser en temps quasi réel le porte‑avions Charles-de-Gaulle en Méditerranée orientale. Dès 2018, la carte de chaleur mondiale de Strava – une visualisation agrégée des activités publiques enregistrées par ses utilisateurs – avait déjà révélé des bases militaires et des sites sensibles, et des enquêtes plus récentes ont montré que les pratiques sportives de gardes du corps pouvaient trahir des habitudes de déplacement de chefs d’État.

Le problème ne vient pas d’un piratage sophistiqué, mais d’un usage banal de montre connectée, compte public et trace GPS accessible en ligne. Ce cas illustre comment la sécurité d’aujourd’hui ne se limite plus à la protection physique, mais inclut aussi la maîtrise des traces numériques produites par nos comportements les plus ordinaires.

Quand une application déborde de son usage initial

Strava est une application conçue pour suivre et partager des performances sportives. Son usage premier relève du loisir, de la sociabilité numérique et du suivi de soi, non de la documentation d’activités sensibles. C’est pourtant là toute l’ambivalence de ce type d’outils car sans avoir été pensés pour la sécurité, ils peuvent produire des effets très concrets sur elle.

À mesure que les technologies de traçabilité s’installent dans les usages quotidiens, elles cessent d’apparaître comme des dispositifs de contrôle. Elles deviennent des outils familiers, associés au confort ou à l’optimisation des pratiques. Dès lors, une course, un itinéraire répété, un point de départ ou d’arrivée ou une activité enregistrée en mer peuvent révéler bien davantage qu’une simple pratique sportive. Une donnée de performance peut devenir un indice sur une routine, une présence ou une habitude de déplacement.

Le cas Strava n’est d’ailleurs pas isolé. À l’aéroport d’Heathrow (Londres), en 2014, des toilettes connectées ont été testées pour mesurer anonymement leur fréquentation, améliorer le nettoyage et mieux répartir les moyens de maintenance. L’exemple peut sembler éloigné, mais il montre que, au-delà des outils explicitement sécuritaires, des dispositifs connectés collectent eux aussi discrètement des traces numériques sur les comportements des usagers. En ce sens, la vulnérabilité ne naît plus seulement d’une attaque ou d’une fuite volontaire, mais aussi d’usages ordinaires dont les effets de visibilité sont souvent sous-estimés.

La sécurité ne se joue plus seulement sur le terrain

Longtemps, la sécurité a été pensée selon un modèle essentiellement physique. Il fallait protéger une personne, sécuriser un déplacement, contrôler un périmètre, anticiper une menace. Cette logique est toujours d’actualité mais, à l’ère numérique, elle ne suffit plus.

Dans un environnement saturé d’objets connectés, de plateformes et de données de localisation, la vulnérabilité peut désormais naître à la périphérie du dispositif de protection. Elle ne résulte plus forcément d’une intrusion ou d’une action malveillante. Elle peut venir d’un usage mal paramétré, d’une routine numérique non interrogée ou d’un outil utilisé sans conscience de ses effets de visibilité.

La sécurité d’un responsable politique, d’un chef d’entreprise, d’un diplomate ou d’un site sensible dépend donc aussi des traces numériques produites par son environnement humain et technique : assistants, chauffeurs, escortes, collaborateurs, militaires, objets connectés, applications de suivi ou réseaux de partage. Protéger une « personne sensible », une personnalité, aujourd’hui, ce n’est plus seulement protéger son corps ou son itinéraire. C’est aussi protéger l’écosystème informationnel qui l’entoure.

Cette évolution renvoie à une sécurité de plus en plus renforcée par la technologie via les capteurs, les données et les outils de suivi. Mais l’ajout de technologie ne supprime pas la vulnérabilité. C’est justement le problème d’une lecture technosolutionniste qui surestime la complémentarité humain-machine. Elle rappelle au contraire qu’une technologie n’est efficace qu’à condition d’être articulée à l’analyse humaine, à l’expérience de terrain et à une compréhension fine du contexte. Certes, la technologie renforce donc la vigilance, mais elle ne remplace ni le jugement, ni la formation, ni la culture du risque.

La vulnérabilité observée est également organisationnelle, culturelle et humaine. Elle naît d’une forme de non-concordance entre la banalité des usages numériques (courir avec une montre connectée, par exemple) et la sensibilité des environnements dans lesquels elles s’inscrivent (être dans un endroit classifié secret-défense). Un même outil peut être perçu comme un outil de confort ou de performance tout en produisant des effets d’exposition importants.

Former devient donc aussi important qu’équiper dans la mesure où il ne s’agit pas seulement d’interdire certains usages, mais plutôt de faire comprendre comment une trace numérique par définition invisible peut, par agrégation et recoupement, devenir une information sensible. La sécurité ne se joue donc plus dans le contrôle des outils, mais dans l’intelligence des pratiques.

Réintégrer l’humain au centre de la doctrine de sécurité

L’un des principaux enseignements de ces affaires est qu’aucune technologie ne protège à elle seule. Une application, une montre connectée ou un dispositif de géolocalisation ne sont ni bons ni mauvais en soi. Comme le montre la recherche, tout dépend du cadre dans lequel ils sont utilisés, des règles qui les entourent et de la capacité des acteurs à en comprendre les effets. Raison pour laquelle la réponse ne peut pas être juste « technique ».

Elle suppose aussi une doctrine d’usage, une formation adaptée et une culture sécuritaire partagée. À l’inverse la traçabilité peut aussi renforcer la protection, mais elle ne remplace ni l’analyse humaine, ni l’appréciation du contexte, ni les méthodes classiques de sécurité.

Autrement dit, la sécurité des environnements sensibles repose sur une complémentarité entre l’outil et l’humain. Il ne suffit pas de déployer des dispositifs ; encore faut-il que les utilisateurs comprennent ce qu’ils produisent, ce qu’ils exposent et les conséquences possibles de leurs usages entre une possible surveillance et une souveillance, c’est-à-dire une forme plus discrète de captation des traces intégrées aux gestes ordinaires et parfois à peine perçue par ceux qui y participent.

Dans le cas Strava, l’enjeu n’est donc pas seulement de mieux paramétrer une application. Il est de construire une culture du risque numérique, capable d’intégrer les gestes les plus ordinaires à la réflexion sécuritaire.

Ce que la recherche nous enseigne en lien avec ces cas est que la vraie leçon de ces affaires est peut-être là : dans un monde connecté, la menace ne réside pas seulement dans ce que l’on cherche à cacher, mais aussi dans ce que l’on produit sans y penser.

Ces affaires dites « StravaLeaks » montrent que la traçabilité numérique, loin d’être un simple confort d’usage, peut devenir un enjeu de sûreté dès lors qu’elle s’inscrit dans un environnement sensible. Protéger, aujourd’hui, ce n’est plus seulement verrouiller un périmètre ou escorter une personnalité. C’est aussi apprendre à gouverner les traces que produisent les usages les plus ordinaires.

Fabrice Lollia ne travaille pas, ne conseille pas, ne possède pas de parts, ne reçoit pas de fonds d'une organisation qui pourrait tirer profit de cet article, et n'a déclaré aucune autre affiliation que son organisme de recherche.

Science – The Conversation