LePartisan.info

Blogs Le Monde.fr

Big browser Liberté Egalité Sexualité Pixels

BINAIRE

L'informatique : science et technique au coeur du numérique - avec la Société Informatique de France

Publié le 10.05.2024 à 07:05

Grandes Constellations de Satellites, première partie

Nous assistons au déploiement de constellations de satellites avec des
dizaines de milliers de satellites en orbite basse. Les fonctionnalités
de ces constellations sont essentiellement les télécommunications haut-débit,
la géolocalisation et l’observation de la Terre. Quelles sont les avancées
scientifiques et technologiques qui permettent ces développements ?
Quels sont les enjeux économiques et géostratégiques associés ?
Ces constellations conduisent à une densification de l’espace et à
une multiplication des lancements et des débris. Elles ont un impact
négatif sur sur l’observation astronomique dans le domaine optique et dans
celui de la radioastronomie. Quels sont les dangers encourus avec la
multiplication des débris en orbite basse ? Quel est l’impact des lancements
sur la stratosphère et celui des rentrées de satellites dans l’atmosphère ?
Un groupe de travail de l’Académie des sciences s’est penché sur le sujet,
a auditionné de nombreux spécialistes, et publié un rapport en mars 2024,
rédigé par François Baccelli, Sébastien Candel, Guy Perrin et Jean-Loup
Puget.
Les deux premiers auteurs nous éclairent sur le sujet. Serge Abiteboul (qui a
participé au groupe de travail) : voici la première partie de ce partage en deux parties.

Introduction

Cet article rassemble quelques points clés d’un rapport de l’Académie de sciences. Il traite d’abord des nouvelles fonctionnalités des constellations de satellites dans l’accès à l’Internet, l’observation de la Terre, la géolocalisation, l’interaction avec des objets connectés. Les principaux enjeux et l’évolution du domaine sont analysés dans un premier temps. Comme toute nouvelle avancée technologique, ces constellations soulèvent aussi, de nombreuses questions, et notamment celles relatives à l’encombrement de l’espace, avec l’augmentation du nombre d’objets satellisés et de débris issus de ces objets et de leur lancement, la croissance des collisions qui peut en résulter et d’autre part de l’impact sur les observations astronomiques dans les domaines optiques et radio. Ce rapport met ainsi en évidence un défi majeur, celui de la cohabitation d’une ceinture satellitaire sécurisée et durable évitant la pollution par ses débris et de l’accès au ciel de l’astronomie, la plus ancienne des sciences, celle qui a été à la source des connaissances et qui a encore beaucoup à nous apprendre. Avec la montée en puissance d’acteurs et investisseurs privés dans un domaine qui était initialement réservé aux États, ce rapport fait apparaître des enjeux géostratégiques et des enjeux de souveraineté. Il soutient la mise en place d’une régulation internationale du secteur mais souligne également la nécessité d’une participation de la France et de l’Europe à ces développements.

Un utilisateur final (U) accède à une station d’ancrage du réseau internet (A) via des satellites

Les fonctionnalités des constellations

Les nouvelles constellations de satellites en orbite basse ou moyenne ouvrent des perspectives dans trois grands domaines qui sont les communications haut-débit, l’observation de la Terre et la géolocalisation. Les constellations offrant le haut-débit sont encore peu nombreuses mais elles impliquent, pour certaines, un très grand nombre de satellites. Les constellations destinées à l’observation de la Terre ou à la géolocalisation comportent un nombre plus réduit de satellites mais sont bien plus nombreuses. Il est à remarquer, cependant, qu’en ce qui concerne l’accès haut-débit à l’Internet, les réseaux à base de constellations ne pourront remplacer les réseaux terrestres mais qu’ils devraient plutôt offrir un complément notamment pour la couverture des zones blanches et des territoires enclavés ou encore pour la couverture haut-débit des navires et des avions.

Des protocoles pour les communications entre satellites en orbites basses sont en cours de normalisation. Ceci pourrait conduire à terme à un cœur de réseau Internet spatial avec des fonctionnalités et des mécanismes de routage propres à la dynamique des constellations. Certaines fonctions qui sont actuellement celles des routeurs Internet et des stations de base de la 5G pourraient à terme devenir des fonctions embarquées dans les satellites de cet Internet spatial, comme par exemple le traitement du signal, le routage ou même le calcul en périphérie de réseaux (edge computing). Cet Internet spatial a cependant des limites associées à la puissance électrique disponible à bord des satellites, qui est elle-même fonction de la surface des panneaux solaires qui peuvent être embarqués sur lanceurs et déployés dans l’espace.

Enjeux

Une question clé, dans le domaine des télécommunications, est celle du contrôle de ces nouvelles classes de réseaux. On note par exemple que les réseaux de communications fondés sur des flottes de satellites, s’affranchissent de fait, sinon de droit, de toutes les règles qui sont imposées par les États aux opérateurs des réseaux terrestres offrant des services sur leur sol. Cette perte de contrôle concerne tous les aspects les plus fondamentaux : les mécanismes d’attribution des fréquences, les règles de confidentialité sur les conversations ou les données transmises, les règles de localisation des cœurs de réseaux, etc. Dès aujourd’hui, ces réseaux peuvent se passer complètement de stations d’ancrage dans les pays qu’ils couvrent. Le déploiement de ces réseaux dans leurs formes actuelles (typiquement celle de la constellation Starlink) induit une perte de souveraineté directe des États sur ce secteur.

Une seconde question a trait au modèle économique des grandes constellations destinées à la couverture internet haut-débit. On sait, en effet, que les entreprises qui se sont engagées dans la mise en place des premières constellations de ce type ont toutes fait faillite et il n’est pas certain que les constellations déployées aujourd’hui puissent atteindre l’équilibre économique et devenir viables à long terme. La réponse à cette seconde question dépendra sans doute des résultats de la course actuelle à l’occupation de l’espace ainsi que de la nature des interactions et accords entre ces réseaux satellitaires et les réseaux terrestres de type 5G. Elle dépendra aussi de l’évolution de la taille et du prix des antennes permettant à un utilisateur final muni d’un téléphone portable de communiquer efficacement avec un satellite.

Les enjeux en termes de souveraineté apparaissent ainsi comme les raisons les plus fortes pour le développement de ces constellations car ces dernières procurent à ceux qui les contrôlent un moyen de communication haut-débit sécurisé à faible latence qui est aussi caractérisé par sa résilience. Cette résilience vient du fait que les flottes de satellites restent en grande partie fonctionnelles en cas de catastrophe naturelle et de destruction des réseaux terrestres. Elles sont par ailleurs difficiles à détruire puisque constituées de nombreuses plateformes en mouvement rapide dans des flottes organisées de façon fortement redondante. La latence faible des constellations en orbite basse joue un rôle central dans le contexte du temps réel critique car leur couverture universelle permet l’observation instantanée d’événements survenant en tout point de la planète et elle offre de nouveaux moyens d’interaction.

Évolution dans le temps du nombre des satellites en fonction de l’altitude entre 200 et 2000 km (CNES).

Évolution du domaine

Le domaine dans son ensemble est dans une phase très dynamique avec beaucoup d’innovations dans le domaine industriel, une expansion rapide du NewSpace aux États-Unis, une volonté au niveau de la Commission Européenne de lancer une constellation, l’émergence de nouveaux États spatiaux et d’acteurs privés, de nouveaux formats de lanceurs (petits lanceurs, lanceurs réutilisables), une réduction des coûts de lancement associée notamment à la réutilisation. Il en résulte une multiplication des projets de constellations et une explosion du nombre des satellites en orbite basse ou moyenne.

Cette dynamique repose sur des progrès scientifiques et des innovations technologiques dans le domaine des télécommunications, de l’informatique du traitement de l’information, de la focalisation dynamique, de l’électromagnétisme et des communications radio, des systèmes de communication optiques inter-satellites, de la miniaturisation de l’électronique embarquée, des systèmes de propulsion à bord des satellites (propulsion plasmique) ainsi que sur des avancées dans l’accès à l’espace, les télécommunications et l’informatique. Cette dynamique exploite les résultats des recherches dans le domaine des communications portant notamment sur (i) la théorie de l’information multi-utilisateurs, sur le codage pour la maîtrise de liens radio avec les satellites, avec des questions nouvelles comme par exemple celle de la focalisation adaptative des antennes (MIMO massif et dynamique) ou encore celle du contrôle des interférences ; (ii) la définition de nouveaux protocoles de routage adaptés à la dynamique très rapide du graphe des satellites et des stations d’ancrages ; (iii) l’identification d’architectures optimales pour les fonctionnalités de haut débit ou d’observation dans un ensemble de régions donné de la Terre.

François Baccelli, Inria et Télécom-Paris, membre de l’Académie des sciences et Sébastien Candel, Centrale Supélec, membre de l’Académie des sciences

Publié le 03.05.2024 à 07:39

Qui a voulu effacer Alice Recoque ? Sur les traces d’une pionnière oubliée de l’IA

Un billet à propos d’un livre. Nous avons demandé à Isabelle Astic, Responsable des collections Informatique au Musée des arts et métiers, de nous faire partager son avis du livre de Marion Carré à propos de Alice Recoque. Pierre Paradinas

Le titre de l’ouvrage de Marion Carré, un brin provocateur : « Qui a voulu effacer Alice Recoque ?», pourrait laisser penser qu’Alice Recoque est un de ces avatars informatiques issu des jeux vidéo. Mais c’est bien une femme en chair et en os qu’elle nous présente.

Ce titre est celui du premier chapitre, introductif, durant lequel l’autrice nous décrit les complications rencontrées pour que Alice Recoque puisse avoir sa page dans Wikipédia. Ou la double peine de l’effet Matilda : la minimalisation du rôle des femmes dans la recherche a pour conséquence qu’elles sont autrices de peu d’articles scientifiques, c’est pourquoi elles ne sont donc pas jugées dignes d’un article dans Wikipédia.

Les chapitres suivants décrivent la vie et la carrière d’Alice Recoque, contextualisées dans l’histoire quotidienne ou professionnelle de son époque. Ils s’appuient sur un témoignage de première main : les mémoires de Mme Recoque. Son enfance en Algérie, ses études à l’ENSPCI, à Paris, sont l’occasion de parler du contexte international et de la guerre qui ont imprégné l’enfance et l’adolescence de la jeune Alice, de l’ambiance familiale qui a forgé certains traits de son caractère, de sa capacité à sortir des chemins convenus grâce à certaines figures inspirantes de son entourage.

Ces premiers chapitres expliquent les suivants, consacrés plutôt à son expérience professionnelle. La SEA (Société d’Électronique et d’Automatisme) d’abord, jeune pousse créée par un ingénieur clairvoyant, François-Henri Raymond, qui a très tôt compris l’avenir de l’informatique. Elle s’y épanouit et développe ses connaissances en conception d’ordinateur, en hardware. Puis la CII, dans laquelle doit se fondre la SEA sous l’injonction du Plan Calcul, qui devient CII-Honeywell Bull, puis Bull. Elle prend peu à peu des galons pour gérer finalement une équipe qui va construire le mini-ordinateur qu’elle a en tête, le Mitra 15. Enfin, c’est la découverte de l’Intelligence Artificielle, lors d’un voyage au Japon, domaine dans lequel Bull acceptera de s’engager, opportunité pour Alice Recoque de passer du matériel au logiciel.

En parallèle de la vie d’Alice Recoque, nous suivons le développement de l’industrie informatique en France. Nous assistons à ses débuts où il y avait tout à faire : le processeur à concevoir, les techniques de mémorisation à imaginer. L’ouvrage décrit l’effervescence d’une jeune entreprise, poussée par cette nouveauté, par l’exaltation de la découverte, par les visions de son fondateur mais aussi par les risques et les difficultés qu’elle rencontre pour survivre. Avec l’évolution de la carrière d’Alice Recoque, nous suivons les hauts et les bas de cette industrie, à travers l’entreprise Bull. Mais l’ouvrage dresse également, et surtout, le portrait d’une femme de sciences et de techniques, qui s’engage dans un univers d’homme. Il nous décrit ses questionnements, ses choix, les heurs et malheurs d’une vie. Cet angle du livre créé une empathie avec Mme Recoque, ouvrant un dialogue entre son époque et la nôtre. C’est donc un voyage dans le contexte social, économique, technique et informatique de l’époque qu’il nous propose.

Certains diront que ce n’est pas un ouvrage d’historien. Et il est vrai qu’en suivant la vie d’Alice Recoque, nous manquons parfois un peu de recul. Certains points pourraient demander des approfondissements, comme le rôle de la politique sociale et l’organisation d’une entreprise dans les possibilités de carrière des femmes. De même, on peut s’interroger sur la part et le rôle de l’état dans le succès du Mitra 15, sans remettre en question la qualité du travail d’Alice Recoque. Mais Marion Carré ne revendique pas un rôle d’historienne. Elle préfère parler d’ « investigations » et son ouvrage est effectivement le résultat d’un long travail d’enquête, de la recherche de ses sources à l’analyse qu’elle en fait, qui offre de nombreuses perspectives à des travaux scientifiques.

Photo Aconit

Marion Carré a su faire un beau portrait de femme dans un ouvrage facile à lire, qui ne s’aventure pas dans les descriptions techniques ardues pouvant rebuter certains ou certaines et qui ne se perd pas non plus dans les méandres d’une vie familiale et personnelle. Il est l’un des rares livres consacré à une femme informaticienne française, à une femme de science contemporaine qui a su se donner un rôle dans l’émergence de l’industrie de l’informatique en France. Grâce aux rencontres provoquées, aux sources retrouvées, Alice Recoque est enfin sortie de l’ombre. Espérons que d’autres portraits d’informaticiennes verront bientôt le jour, comme celui de Marion Créhange, première femme à soutenir une thèse en informatique en France (1961), qui nous avait régalé, sur le site d’Interstices, d’une randonnée informatique quelques mois avant son décès. Ces portraits contribueraient sans aucun doute à ce que de jeunes femmes puissent se rêver, à leurs tours, informaticiennes.

Isabelle Astic, Musée des Arts et Métiers (Paris)

Publié le 26.04.2024 à 07:46

Faire écran à l’usage des écrans : un écran de fumée ?

Les enfants et les écrans : attention ! Oui mais à quoi ? Et comment ? Gérard Giraudon et Thierry Viéville nous rassemblent des références et des éléments pour nous montrer que [dé]laisser les enfants devant les écrans est bien négatif et qu’il est préférable d’y aller avec elles et eux. Dans cet article, après par exemple [10], on questionne non seulement la pratique des enfants mais aussi « notre ´´ pratique de parents face à nos enfants. Marie-Agnès Enard et Pascal Guitton.

Il existe des effets négatifs du numérique sur notre vie et notre santé ainsi que celles de nos enfants [0], tout particulièrement lors d’un mésusage . Les scientifiques en informatique en sont conscient·e·s et font partie de celles et ceux qui alertent sur le sujet [0], et relaient les travaux scientifiques d’autres disciplines qui permettent de comprendre le caractère négatif potentiel de ces effets et de les dépasser [9]. On parle ici de résultats scientifiques [9,11] au delà de l’emballement des médias alimenté par les promoteurs des “paniques morales” ([9], pp 4).

L’angle d’attaque de telles paniques est souvent résumé par le seul terme “écran”, la plupart du temps associé au mot “enfant”, faisant ainsi un amalgame entre contenant et contenu, entre adultes et société. Il en ressort généralement des questions mal posées qui ne peuvent conduire qu’à des polémiques faisant peu avancer le débat. Par ailleurs, la question des impacts de la technologie sur le développement de l’enfant est fondamentale et le numérique n’y échappe pas.

Abordons ici la question des contenus. Les études scientifiques sur l’impact des “contenus numériques disponibles à travers différentes interfaces matérielles” qu’on réduit souvent au seul “écran” alors qu’on pourrait par exemple y inclure aussi des systèmes robotisés. Mais concentrons nous ici sur les interfaces que l’on nommera par abus de langage, pour la facilité d’écriture, encore “écran”. Les résultats sont difficiles à interpréter car il manque un cadre de comparaison formel par exemple pour établir et mesurer la dépendance [1]. On note par ailleurs que les effets négatifs des écrans sont plus importants dans les populations moins favorisées [4]. À l’inverse, les effets cognitifs des écrans peuvent être positifs [4,5,6] mais pas en cas d’usage avant le sommeil, qu’ils perturbent [3].

On doit donc avant tout considérer les usages qui en sont faits et arrêter de considérer le paramètre de durée (temps devant les écrans) qui occulte d’autres éléments au moins aussi importants [1,3] comme illustrés ci-après.

Les études les plus fines distinguent les usages, en particulier passif (comme la télévision) versus actif, autrement dit isolé (on « colle » l’enfant devant les écrans) opposé à coopératif.

C’est l’usage de ces écrans pour « occuper » les enfants pendant que les adultes vaquent à leurs autres tâches qui présente un effet délétère [2].

Au delà, une plus grande quantité d’utilisation de l’écran (c’est-à-dire des heures par jour/semaine) est associée négativement au développement du langage de l’enfant, tandis qu’une meilleure qualité d’utilisation de l’écran (c’est-à-dire des programmes éducatifs et un visionnage conjoint avec les adultes éduquant) est positivement associée aux compétences linguistiques de l’enfant [3].

Comparons « screen-time » versus « green-time » [4], c’est à dire le temps passé dans l’environnement extérieur (ex: forêt, parc public). On observe là encore qu’il faut distinguer l’usage modéré avec des contenus choisis et un accompagnement éducatif qui a des effets positifs, de l’inverse qui peut avoir un effet négatif, voire très négatif. Le « green-time » limite les effets cognitifs négatifs des écrans, au delà de l’effet bien connu de l’hyper sédentarité qui conduit à des troubles physiologiques dérivés [6].

C’est donc, au niveau cognitif et éducatif essentiellement un enjeu de contenu numérique. Ainsi, la lecture sur écran est moins efficace que sur un livre papier, sauf si le contenu est « augmenté » (accès à un lexique, récit interactif, …) [5], en notant que la lecture en interaction avec une personne éducative référente augmente les performances dans les deux cas.

On insistera finalement sur ce que la communauté de l’éducation à l’informatique sait depuis longtemps :

–comprendre comment fonctionnent les ordinateurs conduit à un bien meilleur usage récréatif et éducatif, et aussi souvent moins dépendant [7] ;

– pour apprendre les concepts informatiques, les « activités débranchées » où on « éteint son écran pour aller jouer au robot dans la cour » sont les plus efficaces au niveau didactique et pédagogique [8].

Pour moins utiliser les écrans, le plus important est de commencer à les utiliser mieux.

Gérard Giraudon et Thierry Viéville.

Références :

[0] https://www.lemonde.fr/blog/binaire/2023/10/06/ntic-etat-des-lieux-en-france-et-consequences-sur-la-sante-physique-partie-1/
[1] https://www.sciencedirect.com/science/article/pii/S0190740922000093
[2] https://www.pafmj.org/index.php/PAFMJ/article/view/6648
[3] https://jamanetwork.com/journals/jamapediatrics/article-abstract/2762864
[4] https ://journals.plos.org/plosone/article?id=10.1371/journal.pone.0237725
[5] https://journals.sagepub.com/doi/full/10.3102/0034654321998074
[6] https://www.sciencedirect.com/science/article/pii/S0765159711001043
[7] https://inria.hal.science/hal-03051329
[8] https://inria.hal.science/hal-02281037
[9] https://www.cairn.info/les-enfants-et-les-ecrans–9782725643816-page-150.htm
[10] https://naitreetgrandir.com/fr/etape/1_3_ans/jeux/usage-ecrans-parents-equilibre
[11] https://www.u-bordeaux.fr/actualites/Addiction-aux-écrans-mythe-ou-réalité

Publié le 19.04.2024 à 07:00

Fact checking : l’intelligence artificielle au service des journalistes

Les progrès récents de l’intelligence artificielle générative , outils qui permettent de produire du texte, du son, des images ou des vidéos de manière complètement automatique, font craindre une diffusion massive de fausses informations qui risquent de devenir de plus en plus « authentique ». Comment font les journalistes pour adresser ce sujet ?

Merci à inria.fr qui nous offre ce texte en partage, originalement publié le 06/02/2024. Ikram Chraibi Kaadoud

Comment savoir, parmi la masse d’informations diffusées chaque jour sur les réseaux sociaux ou par des personnalités publiques, où se cachent les erreurs et les mensonges ? C’est tout l’enjeu du fact checking… mais le chantier est titanesque. Estelle Cognacq, directrice adjointe de France Info, et Ioana Manolescu, responsable de l’équipe-projet Inria Cedar, nous expliquent comment journalistes et chercheurs se sont associés pour y faire face, en s’appuyant sur l’intelligence artificielle et les sciences des données.

Portraits Estelle Cognacq et Ioana Manolescu

Portrait Estelle Cognacq à gauche – © Christophe Abramowitz – Radio France / Portrait Ioana Manolescu à droite – ©Ioana Manolescu

**À vos yeux, quels sont les défis à relever par les journalistes en matière de fact checking aujourd’hui ?**

Estelle Cognacq : Franceinfo s’est engagé dans la lutte contre la désinformation et pour la restauration de la confiance dans les médias depuis plus de 10 ans : la première chronique « Vrai ou faux » date par exemple de 2012 et un service spécial, dédié au fact checking, a été créé en 2019. Les journalistes qui y travaillent se sont fixé deux objectifs. D’une part, puisqu’il est impossible d’éradiquer les fausses informations, nous cherchons à donner au grand public les outils qui lui permettent de développer un esprit critique, de remettre en question ce qu’il voit, ce qu’il lit, ce qu’il entend. Nous allons donc expliquer notre façon de travailler, donner des astuces sur la façon de détecter des images truquées par exemple.

D’autre part, nous allons nous saisir directement des fausses informations qui circulent, lorsque celles-ci entrent en résonance avec la démocratie, la citoyenneté ou les questions d’actualité importantes, pour établir les faits. Mais plus il y a de monde sur les réseaux sociaux, plus des informations y circulent et plus les journalistes ont besoin d’aide : l’humain a ses limites lorsqu’il s’agit de trier des quantités phénoménales de données.

Iona Manolescu : Et c’est justement là tout l’intérêt des recherches que nous menons au sein de l’équipe-projet Cedar, (équipe commune au centre Inria de Saclay et à l’Institut Polytechnique de Paris, au sein du laboratoire LIX), qui est spécialisée en sciences des données et en intelligence artificielle (IA). Sur la question du fact checking, il nous faut d’un côté vérifier automatiquement une masse d’informations, mais de l’autre, nous disposons de quantités de données de qualité disponibles en open source, sur les bases statistiques officielles par exemple. La comparaison des unes aux autres constitue un procédé éminemment automatisable pour vérifier davantage et plus vite.

Et c’est pourquoi un partenariat s’est noué entre Radio France et Cedar… Comment a-t-il vu jour ?

I.M. : De 2016 à 2019, l’un de mes doctorants avait travaillé sur un premier logiciel de fact checking automatique, baptisé StatCheck, dans le cadre du projet ANR ContentCheck que j’avais coordonné, en collaboration avec Le Monde. Ce projet est arrivé jusqu’aux oreilles d’Eric Labaye, président de l’Institut polytechnique de Paris, qui en a lui-même parlé à Sybile Veil, directrice de Radio France. De là est née l’idée d’une collaboration entre chercheurs d’Inria et journalistes de Radio France. Du fait de la pandémie de Covid, il a fallu attendre l’automne 2021 pour que celle-ci se concrétise.

E.C. : Notre objectif était vraiment de partir des besoins de nos journalistes, de disposer d’un outil qui les aide efficacement au quotidien. Antoine Krempf, qui dirigeait la cellule « Vrai ou faux » à l’époque, a par exemple dressé la liste des bases de données qu’il souhaitait voir prises en compte par l’outil.

Toutes les semaines, nous avions également un point qui réunissait les deux ingénieurs en charge du projet chez Inria et les journalistes : l’occasion pour les premiers de présenter l’évolution de l’outil et pour les seconds de préciser ce qui manquait encore ou ce qui leur convenait. Et ces échanges se poursuivent aujourd’hui. Croiser les disciplines entre chercheurs et journalistes dans une optique de partage est très intéressant.

I.M. : Au cours de ce processus, nous avons réécrit tout le code de StatCheck, travaillé sur la compréhension du langage naturel pour permettre à l’outil d’apprendre à analyser un tweet par exemple, avec la contribution essentielle de Oana Balalau, chercheuse (Inria Starting Faculty Position) au sein de l’équipe Cedar. Deux jeunes ingénieurs de l’équipe, Simon Ebel et Théo Galizzi, ont échangé régulièrement avec les journalistes pour imaginer et mettre au point une nouvelle interface, plus agréable et plus adaptée à leur utilisation.

**Ce logiciel est-il maintenant capable de faire le travail du « fact checker » ?**

I.M. : Aujourd’hui, StatCheck est à la disposition de la dizaine de journalistes de la cellule « Le vrai du faux »… mais il ne les remplace pas ! D’abord parce que nous ne pouvons pas atteindre une précision de 100% dans l’analyse des informations. Donc le logiciel affiche ses sources pour le journaliste, qui va pouvoir vérifier que l’outil n’a pas fait d’erreur. Ensuite, parce que l’humain reste maître de l’analyse qu’il produit à partir du recoupement de données réalisé par StatCheck.

E.C. : Ainsi, chaque journaliste l’utilise à sa manière. Mais cet outil s’avère particulièrement précieux pour les plus jeunes, qui n’ont pas forcément encore l’habitude de savoir où regarder parmi les sources.

**Quels sont les développements en cours ou à venir pour StatCheck ?**

E.C. : Nous profitons déjà de fonctionnalités ajoutées récemment, comme la détection de données quantitatives. Nous avons entré dans StatCheck des dizaines de comptes Twitter (devenu X) de personnalités politiques et le logiciel nous signale les tweets qui contiennent des données chiffrées. Ce sont des alertes très utiles qui nous permettent de rapidement repérer les informations à vérifier.

L’outil a également été amélioré pour détecter la propagande et les éléments de persuasion dans les tweets. Nous utilisons cette fonctionnalité sur du plus long terme que le fact checking : elle nous permet d’identifier les sujets qu’il pourrait être pertinent de traiter sur le fond.

I.M. : Pour l’instant, StatCheck va puiser dans les bases de données de l’Insee (Institut national de la statistique et des études économiques) et d’EuroStat, la direction générale de la Commission européenne chargée de l’information statistique. Mais dans la liste établie par Antoine Krempf, il y a aussi une kyrielle de sites très spécialisés comme les directions statistiques des ministères. Le problème est que leurs formats de données ne sont pas homogènes. Il faut donc une chaîne d’analyse et d’acquisition des informations à partir de ces sites, pour les extraire et les exploiter de manière automatique. Les deux ingénieurs du projet sont sur une piste intéressante sur ce point.

Et votre partenariat lui-même, est-il amené à évoluer ?

E.C. : Nous sommes en train de réfléchir à son inscription dans une collaboration plus large avec Inria, en incluant par exemple la cellule investigation et la rédaction internationale de Radio France, pourquoi pas au sein d’un laboratoire IA commun.

I.M. : Nous avons d’autres outils qui pourraient être utiles aux journalistes de Radio France, comme ConnectionLens. Celui-ci permet de croiser des sources de données de tous formats et de toutes origines grâce à l’IA… Pratique par exemple pour repérer qu’une personne mentionnée dans un appel d’offres est la belle-sœur d’un membre du comité de sélection de l’appel d’offres ! Là encore, le journaliste restera indispensable pour identifier le type d’information à rechercher, ainsi que pour vérifier et analyser ces connexions, mais l’outil lui fournira des pièces du puzzle. En fait, toutes les évolutions sont envisageables… elles demandent simplement parfois du temps !

Publié le 12.04.2024 à 08:26

Ce qu’on sait et ce qu’on ne sait pas sur les effets environnementaux de la numérisation

Gauthier Roussilhe est doctorant au RMIT. Il étudie la façon dont nos pratiques numériques se modifient dans le cadre de la crise environnementale planétaire en proposant une vision systémique, de l’extraction des matières à la fin de vie, et des infrastructures à l’usage des services numériques. Antoine Rousseau & Ikram Chraibi Kaadoud

On pourrait penser que les conséquences environnementales de la numérisation est un sujet récent , or cela fait bientôt 30 ans qu’on se demande quel est son poids environnemental et si numériser aide à la transition écologique. En 1996, l’Information Society Forum fait le constat suivant : « La plupart des experts ne pensent pas que le développement durable soit réalisable sans les technologies de l’information, mais ils ne sont pas non plus sûrs qu’il soit garanti avec elles. […] Il existe un risque d’effet « rebond » par lequel ils pourraient stimuler de nouvelles demandes de consommation matérielle » (ISF, 1996, 30). 26 ans plus tard, en 2022, le 3e groupe de GIEC proposait une synthèse peu encourageante : « Pour le moment, la compréhension des impacts directs et indirects de la numérisation sur la consommation d’énergie, les émissions de carbone et le potentiel d’atténuation est limité » (IPCC, 2022, 132). Est-ce que cela veut dire pour autant que nous n’avons pas progressé sur le sujet depuis 30 ans ? Loin de là, revenons ensemble sur l’état de l’art de la recherche scientifique sur les deux questions principales de ce champ : l’empreinte environnementale du secteur et les effets environnementaux de la numérisation dans les autres secteurs.

L’empreinte carbone du secteur numérique
La production des savoirs scientifiques dans ce domaine s’est concentrée principalement sur l’empreinte environnementale du secteur numérique, c’est-à-dire le poids écologique lié à la fabrication, l’usage et la fin de vie de tous les équipements et services qui composent ce secteur. Il y a assez peu d’articles de recherche qui se sont aventurés dans l’estimation mondiale du secteur. Ces dernières il y a trois estimations concurrentes (Andrae & Edler, 2015 (remplacé par Andrae 2020) ; Malmodin & Lundén, 2018 ; Belkhir & Elmeligi, 2018). Freitag et al ont proposé une analyse de ces travaux proposant que les émissions du secteur numérique représentaient en 2020 entre 2,1 et 3,9% des émissions mondiales (1,2-2,2 Gt eq-CO2). Le plus important ici n’est pas forcément cette estimation mais la tendance de ces émissions, or, depuis juin 2023, la communauté scientifique sur ce sujet est plus ou moins arrivé à un consensus : les émissions du secteur augmentent. Ce n’est pas une croissance exponentielle mais l’arrivée massive de nouveaux types d’équipements comme les objets connectés donne à voir plutôt une augmentation annuelle constante. Et nous n’avons pas mis à jour nos projections avec le nouveau marché de l’IA, d’autant plus que les premiers travaux d’estimation semblent inquiétants. Concernant les autres facteurs environnementaux, épuisement de ressources minérales, utilisation d’eau, pollutions des sols et des eaux, etc nous ne disposons aujourd’hui d’aucune estimation d’envergure ni de vision claire même si de nombreux projets de recherche avancent sur ces questions.

Les centres de données
Dans le travail de modélisation, nous privilégions pour l’instant la découpe du secteur en trois tiers : les centres de données, les réseaux et les équipements utilisateurs. Chacun de ces tiers poursuit sa propre trajectoire qu’il est nécessaire d’aborder. En premier lieu, les centres de données ont fait l’objet de travaux de fond sur leur consommation électrique pour ensuite obtenir des émissions carbone. Deux estimations font référence, celle de Masanet et al (2018) à 205 TWh de consommation électrique mondiale et celle de l’Institut Borderstep à 400 TWh. L’Agence Internationale de l’Énergie (IEA) a utilisé la première estimation pendant quelques années mais a revu ses travaux récemment et propose plutôt une fourchette entre 220 et 320 TWh (cela exclut la consommation électrique des cryptomonnaies qui est comptée à part par l’IEA). Il existe bien aussi un consensus sur l’augmentation croissante de la consommation électrique des centres de données mais les opérateurs misent sur l’achat ou la production d’énergie bas carbone pour décorreler consommation d’électricité et émissions de carbone avec plus ou moins de succès. Encore une fois ces chiffres ne prennent en compte que l’usage des centres de données et n’intégrent pas les impacts environnementaux liés à la fabrication des serveurs et autres équipements. Au-delà de la consommation électrique c’est plutôt le poids local de ces infrastructures qui devient de plus en plus problématique autant pour la disponibilité électrique que pour l’accès à l’eau. De nombreux conflits locaux se développent : Irlande, Espagne, Chili, Amsterdam, Francfort, Londres, États-Unis. À l’échelle française, L’Île-de-France héberge la plupart des centres de données français et fait face à de nombreuses problématiques qui invite à une réflexion et une planification profonde comme très bien démontré par l’étude récente de l’Institut Paris Région.

Les réseaux de télécommunication
Les réseaux de télécommunications comprennent tous les réseaux d’accès fixes (ADSL, Fibre), les réseaux d’accès mobile (2G/3G/4G/5G) et les réseaux coeurs. En 2015, Malmodin & Lundén (2018) estimaient la consommation électrique mondiale des réseaux à 242 TWh et l’empreinte carbone à 169 Mt eq-CO2. Depuis peu de travaux se sont réessayés à l’exercice. Coroama (2021) a proposé une estimation à 340 TWh pour les réseaux en 2020 et aujourd’hui l’IEA estime la consommation électrique en 260 et 340 TWh (IEA). L’empreinte carbone des réseaux, autant au niveau de la fabrication du matériel que de l’usage reste à mieux définir mais implique aussi de redoubler d’efforts sur de nombreux angles morts : le déploiement (génie civil, etc.) et la maintenance sont des parts significatives de l’empreinte des réseaux qui n’ont quasiment pas été comptées jusque là. De même, les satellites de télécommunication devraient faire partie du périmètre des réseaux mais leur impact avait été considéré comme minime. Toutefois, le déploiement massif de constellation avec des satellites d’une durée de vie de 5 ans implique une attention renouvelée.

Les équipements utilisateurs
Finalement, le dernier tiers, celui des équipements utilisateurs, inclut à la fois les équipements personnels (smartphone, portable, tablette, ordinateurs, écrans, etc) et professionnels. Certains segments connaissent une contraction depuis quelques années : le vente d’ordinateurs fixes chute (sauf pour le gaming), de même que les livraisons de smartphones. De l’autre, de nouveaux segments apparaissent comme les objets connectés grand public (enceinte, caméra, etc.). C’est l’arrivée de ces derniers qui est profondément inquiétante si les projections de marché se maintiennent car elle suggère le déploiement massif d’objets de qualité variable, à faible durée de vie et donc à fort taux de renouvellement (Pirson et Bol, 2021). En descendant d’un niveau, à l’échelle des composants clés, nous voyons une augmentation de l’empreinte de fabrication des circuits intégrés les plus avancés (<10nm) (Pirson et al, 2022), c’est-à-dire les nouveaux processeurs (Apple série M) ou dans les puces de calcul graphique (produits Nvidia par exemple) aujourd’hui très recherchées pour l’entrainement d’IA génératives.

Les services numériques
À cela s’ajoute une inconnue évidente : l’évolution des services numériques. Les équipes de recherche ne peuvent pas prévoir l’apparition de nouveaux usages dans leur estimation, or les usages se sont plutôt stabilisés depuis quelques années. Le passage en force du Métaverse consistant à créer de nouveaux usages, de nouveaux services et de nouveaux équipements dédiés à échouer. Le dernier grand changement date d’un alignement des planètes entre 2010 et 2012 avec le déploiement massif de smartphones, la mise en route des réseaux 4G et la massification de l’offre vidéo en ligne. Aujourd’hui, les services grand public supportés par l’IA proposent une nouvelle évolution des usages mais, au-delà des discours mercantiles et/ou prophétiques, la tendance est encore loin d’être claire.
Malgré les immenses zones d’ombre qui restent encore à éclairer la connaissance de l’empreinte carbone du secteur numérique commence à se stabiliser. Les tendances futures montrent plutôt une augmentation globale de l’impact et une tension locale de plus en plus accrue. Face à cela, une question demeure, est-ce que l’augmentation de cette empreinte permet de réduire celles des autres secteurs ? En somme, est-ce que la numérisation est un « investissement environnemental » cohérent. Voyons cela ensemble dans la deuxième partie.

Les effets sur les émissions de carbone dans les autres secteurs
Comme vu au début de cet article, la question des effets environnementaux de la numérisation dans les autres secteurs, que ces effets soient positifs ou/et négatifs, s’est posée d’emblée, toutefois, elle a été bien moins traitée que la question de l’empreinte du secteur. Au même titre que les économistes ont de nombreuses difficultés à isoler la contribution de la numérisation au PIB ou à la productivité, les chercheurs en sciences environnementales font face au même défi. Dans un premier temps, les effets environnementaux liés à des services numériques ont dû faire l’objet d’une classification qui commence doucement à se stabiliser aujourd’hui : les effets de second ordre (gain d’efficacité, substitution, effet rebond direct) et de plus grande ordre (effets rebonds indirects, rebond macro-économique, induction, etc.) (Hilty et al, 2006 ; Hilty et Aebischer, 2015 ; Horner et al, 2016). Si un gain d’efficacité est simple à comprendre la question des effets rebonds poursuit le secteur numérique depuis 30 ans. Un effet rebond peut être simplement défini comme un gain d’efficacité ou une optimisation qui conduit à une augmentation de la production ou de la demande, contrecarrant ainsi une partie, voire tous les gains obtenus. C’est un principe économique qui est
théorisé depuis un siècle et demi, historiquement associé avec la question énergétique, qui est particulièrement pertinent dans le phénomène de numérisation à cause des effets macro et microéconomiques de ce dernier.

Les études industrielles
On distingue trois types de littérature sur ce sujet : la production industrielle (rapport, livre blanc, etc), la production scientifique (articles de recherche, etc), et la littérature institutionnelle qui pioche dans les deux. La littérature industrielle a une tendance farouche à se concentrer que sur la modélisation des effets positifs (efficacité, optimisation) en mettant systématiquement de côté les effets négatifs (effets rebonds, induction, etc.). Deux rapports industriels ont été particulièrement diffusés et cités : le rapport SMARTer2030 de GeSI (un groupe de réflexion des entreprises de la tech sur la question environnementale) qui estime que la numérisation peut réduire les émissions mondiales de 20% d’ici 2030, et le rapport ‘Enablement Effect’ de GSMA (l’organisation mondiale des opérateurs télécom) qui estime que les technologies mobiles ont permis d’éviter 2,1 Gt eq-CO2 en 2018. Ces rapports visent à promouvoir l’idée d’un effet d’abattement (enablement effect), c’est-à-dire, un 1g d’eqCO2 émis par le secteur numérique pourrait permettre d’éviter 10g d’eqCO2 dans les autres secteurs. Ces affirmations ont eu une grande popularité au sein des entreprises du secteur et dans le monde institutionnel. Dans la communauté scientifique, aucune équipe s’est aventurée dans de tels travaux tant les difficultés méthodologiques sont nombreuses. Il est en fait bien connu parmi les scientifiques spécialisés que ces affirmations sont notoirement douteuses et les défauts méthodologiques de ces rapports trop nombreux pour qu’ils soient utilisés pour orienter la prise de décision publique ou privée (Malmodin et al, 2014 ; Malmodin et Coroama, 2016 ; Bieser et Hilty, 2018 ; Coroama et al, 2020 ; Bergmark et al, 2020 ; Rasoldier et al, 2022 ; Bieser et al, 2023). Leurs principaux défauts sont des extrapolations globales à partir d’études de cas ou d’échantillons très réduits, la représentativité de ces mêmes échantillons, l’omission des effets directs des solutions étudiées (l’empreinte environnementale) et des effets rebonds, et de tous les effets structuraux dont dépendent le succès ou l’échec d’une solution numérique.

La complexité du problème
Les chercheurs qui travaillent sur ces sujets savent que les effets environnementaux d’une solution numérique dépendent bien plus de facteurs contextuels que de ses capacités propres : politiques publiques, prix, culture, infrastructures disponibles, contexte commerciale, etc. Par exemple, une application de partage de vélo a bien moins de chances de produire des effets positifs dans une ville sans infrastructure vélo développée, ou un système intelligent de gestion du chauffage sera bien mieux efficace dans une maison isolée. Cela ne veut pas dire pour autant que la numérisation de certaines activités permet effectivement d’éviter des émissions mais ce qui est observable à petite échelle peine à se réaliser à plus grande échelle. Par exemple, il est évident aujourd’hui que le télétravail permet d’éviter à court terme des trajets en voitures individuelles. Toutefois, pris sur une période de temps plus longue et à une échelle nationale, les choses se compliquent. Caldarola et Sorrell (2022) ont publié un article pour répondre à une question fondamentale : est-ce que les télétravailleurs voyagent moins ? Pour ce faire ils se sont appuyés sur des données longitudinales d’un échantillon randomisé de 13 000 foyers anglais de 2005 à 2019. Ils ont observé que le groupe de télétravailleurs faisaient moins de trajets que le groupe de non-télétravailleurs mais que les deux groupes parcouraient un nombre similaire de kilomètres à l’année. Cela est du à plusieurs effets adverses : l’éloignement croissant entre foyer et lieu de travail, voyages plus loin le week-end, modes de transport, trajets non évitables, etc. Néanmoins, les auteurs notent qu’à partir de trois jours et plus de télétravail, les télétravailleurs commencent à parcourir moins de kilomètres que l’autre groupe. Cet exemple donne à voir à quel point il est complexe d’inférer qu’un effet positif observé à petite échelle se maintienne en toutes conditions à l’échelle d’un pays car de nombreux autres effets, notamment différents types d’effets rebonds et d’induction, peuvent compenser les gains bruts.

Savoir où chercher
Savoir si la numérisation a un potentiel pour aider à la décarbonation d’une économie n’est pas la question, tout le monde reconnaît ce potentiel. Par contre, ce potentiel ne semble pas s’être manifesté structurellement au sein des économies les plus numérisées de la planète. Nous disposons de nombreuses études de cas qui montrent des solutions numériques avec des effets encourageants dans certains contextes, mais le problème est que même si nous pouvons déployer massivement ces solutions nous ne pouvons pas répliquer les contextes d’application et surtout les répliquer à plus grande échelle. Cela implique que certaines voies de numérisation ne sont pas
compatibles avec la décarbonation. Premièrement, les solutions numériques qui rendent plus efficaces l’extraction d’énergies fossiles : en 2019, Microsoft mettait en avant que leurs solutions numériques pour Exxon permettraient d’augmenter la production journalière de barils de 50 000 d’ici 2025 (pour l’instant personne ne s’est donné la peine d’estimer toutes les émissions ajoutées de la numérisation dans le secteur des énergies fossiles). Deuxièmement, certaines solutions numériques proposent plutôt un statu quo qu’un réel gain, ici les solutions de smart home démontre une grande ambivalence entre gain de confort supposé (automatisation et programmation des fonctions d’une maison), ajout de nouvelles options de divertissement (enceintes, etc.) et économies d’énergie (Sovacool et al, 2020). Prises ensemble, toutes ces promesses tendent à se contrecarrer et à maintenir un statu quo. De façon générale, les solutions numériques qui misent la plupart de leurs gains potentiels sur des changements de comportement individuel constants et stables dans le temps présentent un plus grand risque. Les solutions numériques pouvant avoir le plus d’effets positifs sont généralement celles qui s’appuient sur un financement stable et pérenne, qui évoluent dans des univers assez contrôlés où le comportement humain est moins central et qui sont appliqués sur des infrastructures déjà établies à grande échelle (ou en passe de l’être). Toutefois, il faudra encore de nombreuses années de recherche pour comprendre ces dynamiques et arriver à une vue stratégique plus fine et surtout moins biaisée par les intérêts industriels.

Ce que permet et ne permettra pas la numérisation
Se poser sérieusement la question de la contribution de la numérisation à la transition écologique d’un pays implique de se décentrer d’une vue mono-solution où on infère des effets à partir d’une étude de cas mené à un instant t, qui est généralement celle des entreprises ou des industries numériques. La planification écologique d’un pays comme la France requiert d’identifier les leviers les plus importants au niveau de leur effet à grande échelle, et de la stabilité de leur effet dans le temps, dans les secteurs les plus urgents à décarboner. Ces leviers sont rarement les solutions les plus faciles et les moins chères, ce sont généralement des politiques publiques qui essayent de modifier en profondeur des modes de vie. Les solutions numériques ont encore une place indéterminée dans cette réflexion. Un problème central pour les solutions numériques est la persistance des effets. Pour reprendre le cas du télétravail, si aujourd’hui cela évite un trajet en voiture individuelle essence ou diesel, les trajectoires de décarbonation de la France laissent imaginer que le télétravail évitera en 2030 un trajet à pied ou à vélo, ou un trajet en voiture ou en transport en commun électrique. Cela implique que l’effet positif sera forcément à rendement décroissant et constitue plutôt un levier à court-terme, moins structurant pour une planification écologique. La logique peut aussi s’inverser : on observe généralement que des économies d’énergie liées à un système de chauffage plus intelligent sont généralement réinvesties par une augmentation de la température de chauffe du logement et donc un gain de confort (Belaïd et al, 2020), ce qui est un effet rebond direct classique. Toutefois, en pleine crise du coût de la vie et avec un prix du kWh plus élevé, il y a de fortes chances que cet effet rebond disparaisse à cause de budgets bien plus serrés dans les foyers. C’est cette grande ambivalence et cette grande exposition aux facteurs « contextuels » qui maintient en partie la numérisation comme un impensé de la transition écologique et explique la prudence du GIEC dans l’extrait cité en introduction. Ces grands chantiers de recherche ne font encore que commencer.

Gauthier Roussilhe, doctorant RMIT / page web perso

Bibliographie complète à télécharger ici

Publié le 05.04.2024 à 07:13

Vive les communs numériques !

Un des éditeurs de Binaire, Pierre Paradinas a lu le livre de Serge Abiteboul & François Bancilhon, Vive les communs numérique ! Il nous en dit quelques mots gentils. Binaire.

Vive les communs numériques ! - Logiciels libres, Wikipédia, le Web, la science ouverte, etc.

Le livre de Serge et François, Vive les communs numériques ! est un excellent livre -oui, je suis en conflit d’intérêts car les auteurs sont de bons copains.

C’est un livre facile et agréable à lire, mais sérieux et extrêmement bien documenté sur la question des communs numériques. En effet, nos deux collègues universitaires, scientifiques et entrepreneurs expliquent, explicitent et démontent les rouages des communs numériques.

Partant de l’exemple d’un champ partagé par les habitants d’un village, ils définissent les communs numériques et nous expliquent ce qu’ils sont, et pourquoi certains objets numériques (gratuits ou pas) ne peuvent pas être considérés comme des communs numériques. L’ensemble des communs numériques sont décrits, allant des données, au réseau en passant par l’information, les logiciels et la connaissance.

Une partie est consacré au « comment ça marche », qui nous donne des éléments sur les communautés au cœur du réacteur des communs numériques, sans oublier les licences qui doivent accompagner systématiquement un élément mis à disposition sous forme de commun numérique. Enfin, comme le diable est dans le détail, les auteurs nous expliquent la gouvernance des communs numériques et les vraies questions de gestion des communs numériques.

Le livre explore aussi les liens avec les entreprises des technologies informatiques -parfois très largement contributrices au logiciel libre-, comme Linux, les suites bureautiques ou les bases de données dont nos deux auteurs sont des spécialistes reconnus.

Le livre est enclin à un certain optimisme qui reposes sur les nombreuses opportunités offertes par les communs numériques. De même, on apprécie le point évoqué par les auteurs de la souveraineté numérique où les communs numériques sont analysés pour l’établir, la développer et la maintenir. Par de nombreux exemples, les communs numériques permettent une plus grande prise en compte des utilisateurs, ce qui devrait conduire à des solutions technologiques mieux adaptées.

Si vous voulez comprendre les communs numériques, courez vite l’acheter ! Si vous voulez compléter vos cours sur les données ouvertes et/ou le logiciel libre, c’est l’ouvrage de référence.

Le livre est très riche, il compte de nombreux encadrés, consacrés à des communs numériques ou à des personnalités ; il contient aussi un lexique, une bibliographie et une chronologie qui complètent l’ouvrage. Écrit avec passion, c’est un plaidoyer richement documenté. Vive les communs numériques !

Pierre Paradinas

PS : Le livre sera en accès ouvert à partir de décembre 2024

Publié le 01.04.2024 à 08:35

JO de Paris 2024 : une IA désignée pour chanter à l’inauguration

Le comité français olympique a tranché cédant à des pressions intenses et parfois contradictoires de l’Élysée. La chanson inaugurale des JO 2024 sera chantée par AÏcha (prononcer É-aille-cha) Chantouvère.

Mais qui est cette AÏcha apparue récemment dans les radars de la chanson française ? Une bot conçue et réalisée par le collectif d’enseignants-chercheurs parisiens, Chantouvère. L’entreprise française Mistral aurait procuré les moyens de calculs pour la génération de la chanson. Des équipes bordelaises d’Inria et du CNRS lui aurait donné un visage et un corps. Le visage de la bot a été généré artificiellement à partir des visages de plusieurs chercheuses issues de la diversité pour être « le plus inclusif » selon une source proche. Leur représentante nous a déclaré : « Nous ne comptons pas garder un centime. L’essentiel des royalties pour l’usage de cette nouvelle image ira au blog Binaire ! »

Nous avons demandé à Olive Commun-Nhume, porte-parole de Chantouvère, quelles difficultés particulières ils avaient rencontrées. Elle nous a expliqué que, d’abord, il a été compliqué de convaincre l’IA de ne pas mélanger la musique de La Marseillaise et les paroles de Kostís Palamás de l’hymne olympique. Elle a ajouté : « Ensuite, pour choisir entre plusieurs propositions de notre IA, nous avons voulu utiliser un panel d’ados sur TikTok. Ils n’ont cessé de nous proposer des alternatives qu’ils inventaient en argumentant sur le fait qu’ils les trouvaient bien meilleures que les chansons de notre IA. Finalement, nous avons utilisé un panel d’IA (plusieurs copies de notre logiciel) qui a plébiscité la chanson d’AÏcha Chantouvère que nous avons sélectionnée. »

Polémique de Palais

L’Élysée a beaucoup hésité sur le choix de cette chanson. Une partie des conseillers, que l’on pourrait qualifier d’ « aile gauche » penchait pour celle d’Aya Nakamura. L’aile droite poussait pour AÏcha Chantouvère. (Les mots « gauche » et « droite » ont ici un sens bien relatif.) Alors qu’on pensait qu’AÏcha avait été choisie, l’ « aile madame » (l’aile du palais réservée à la première dame) s’est mise à pousser pour Michel Sardou. Ce débat existentiel a été tranché au plus haut niveau.

Polémique politique

Les partis politiques se sont positionnés, la gauche pour Aya, les macroniens pour AÏcha, et la droite pour Michel. L’extrême droite s’est élevée violemment contre le choix d’AÏcha. Selon un représentant du Rassemblement national : « Son prénom est clairement à consonance pas vraiment française, voire limite maghrébine ». « La France est plurielle », s’est contentée de répondre la porte-parole de Chantouvère. Pour Reconquête, « Les chansons d’AÏcha Chantouvère ne sont pas plus en français que celles d’Aya Nakamura ». Selon Olive Commun-Nhume, « le panel d’ado a déclaré la chanson sélectionnée 100% française. Un d’entre eux a précisé que la bot parlait plutôt comme son daron ».

Polémique paillarde

Une polémique a enfin été soulevée par des internautes. En prenant les premières lettres de chaque mot, on obtient comme texte « De Profundis Morpionibus », le titre d’une chanson paillarde (*). Nous avons pu vérifier. Est-ce une facétie des chercheurs du collectif ou de l’IA ? Olive Commun-Nhume a refusé de commenter.

Pour conclure, nous devons avouer qu’à titre personnel nous ne sommes fans musicalement d’aucun des trois. Pourquoi pas Zaz ?

Serge Abiteboul, Ikram Chraibi Kaadoud, Marie-Agnès Enard

Le comité éditorial de Binaire s’oppose à la publication de cet article qui soutient clairement le choix d’AÏcha Chantouvère. Au sein du comité, certains ont déjà tranché, ils veulent entendre IA Nakamura et personne d’autre. Le seul point de consensus est qu’ils sont tous d’accord, et c’est assez rare pour le souligner, sur le fait qu’on souhaite entendre une femme.

(*) Cette chanson du XIXe siècle aurait été écrite par Théophile Gautier. Il en aurait refusé la paternité pour se présenter à l’Académie Française. Il est resté bien plus populaire pour cette chanson que pour son passage à l’académie.

Publié le 27.03.2024 à 06:23

Sarah et le virus de bioinformatique

Un nouvel entretien autour de l’informatique.

Sarah Cohen-Boulakia est bioinformaticienne, professeure à l’Université Paris Saclay et chercheuse au Laboratoire Interdisciplinaire des Sciences du Numérique. Elle est spécialiste en science des données, notamment de l’analyse et l’intégration de données biologiques et biomédicales. Pendant la crise du covid, elle a participé à l’intégration les résultats de milliers d’essais cliniques. Elle a obtenu en 2024 la médaille d’argent du CNRS. Elle est directrice adjointe sur les aspects formation de l’institut D ATAIA. Elle participe également au montage du réseau français de reproductibilité.

Binaire : Comment es-tu devenue informaticienne ?

SCB : Quand je suis entrée à l’Université, j’ai commencé par faire des maths. Et puis j’ai rencontré des informaticiennes, des enseignantes formidables comme Marie-Christine Rousset, Christine Froidevaux, ou Claire Mathieu, qui commençait ses cours en poussant les tables dans toute la salle, parce qu’elle disait que c’était comme ça qu’on pouvait mieux “travailler l’algo”. Elles étaient brillantes, passionnées ; certaines avaient même un côté un peu dingue qui me plaisait énormément. Je me suis mise à l’informatique.

J’avais de bons résultats, mais je n’aurais jamais osé penser que je pouvais faire une thèse. C’est encore une enseignante, Christine Paulin, qui m’a littéralement fait passer de la salle de réunion d’information sur les Masters Pro (DESS à l’époque) à celle pour les Master Recherche (DEA). Je l’ai écoutée, j’ai fait de belles rencontres, fini major de promo de mon DEA et j’ai décidé avec grand plaisir de faire une thèse.

Binaire : Tu cites des enseignantes. C’était important que ce soit des femmes ?

SCB : Oh oui ! Parce que c’était impressionnant en licence d’être seulement sept filles dans un amphi de 180 personnes. Elles m’ont montré qu’il y avait aussi une place pour nous. Mais j’ai eu aussi d’excellents enseignants masculins ! Grâce à elles et eux, j’ai mordu à la recherche. Pour moi, la science est un virus qui fait du bien. Les enseignants se doivent de transmettre ce virus. Maintenant, j’essaie à mon tour de le partager au maximum.

© Léa Castor / INS2I (Les décodeuses du numérique !)

Binaire : Tu travailles sur l’intégration de données biologiques. Qu’est-ce que ça veut dire ?

SCB : En biologie, on dispose de beaucoup de données, de points de vue différents, de formats très différents : des mesures, des diagrammes, des images, des textes, etc. L’intégration de données biologiques consiste à combiner ces données provenant de différentes sources pour en extraire des connaissances : l’évolution d’une maladie, la santé d’un patient ou d’une population…

Binaire : Où sont stockées ces données ?

SCB : Des données de santé sont collectées dans de grandes bases de données gérées par l’État, le Ministère de la Santé, la CNAM. Elles sont pseudonymisées : le nom du patient est remplacé par un pseudonyme qui permet de relier les données concernant le même patient mais en protégeant son identité. D’autres données sont obtenues par les hôpitaux pour tracer le parcours de soin. En plus de tout cela, il y a toutes les données de la recherche, comme les études sur une cohorte pour une pathologie donnée. Toutes ces données sont essentielles mais également sensibles. On ne peut pas faire n’importe quoi avec.

Binaire : Pourrais-tu nous donner un exemple de ton travail, un exemple de recherche en informatique sur ce qu’on peut faire avec ces données ?

SCB : Un médecin peut rechercher, par exemple, les gènes associés à une maladie. Avec un moteur de recherche médical, il tape le nom de la maladie qu’il étudie et il obtient une liste de gènes, triés dans l’ordre de pertinence. Le problème, c’est que la maladie peut être référencée sous plusieurs noms. Si le médecin tape un synonyme du nom de la maladie dans le moteur de recherche, la liste de gènes obtenus est sensiblement modifiée, de nouveaux gènes peuvent apparaître et leur ordre d’importance être différent. L’enjeu ici c’est à partir d’un ensemble de listes de gènes de construire une liste de gènes consensuelle : classant au début les gènes très bien classés dans un grand nombre de listes tout en minimisant les désaccords. Ce classement est bien plus riche en information pour les médecins que celui obtenu avec une simple recherche avec le nom commun de la maladie. Derrière cela, il y a un objet mathématique beaucoup étudié, les permutations.

Travailler sur les classements de résultats, c’est loin d’être simple algorithmiquement. Et ce problème est proche d’un autre problème dans une autre communauté : la théorie du vote. La situation est similaire, pour le vote, on a un grand nombre de votants (de milliers) qui votent pour un relativement petit nombre de candidats (une dizaine). Dans notre contexte biomédical, nous avons un grand nombre de gènes potentiellement associés à une maladie (des centaines) et un petit nombre de synonymes pour la maladie (une dizaine). Cela change un peu les choses, on reste dans un problème difficile et on peut s’inspirer de certaines solutions. Nous avons développé un outil basé sur ces recherches dans lequel les médecins mettent simplement le nom de la maladie à étudier, l’outil cherche automatiquement les synonymes dans les bases de synonymes, récupère les listes de gènes et fournit un classement consensuel. Avec notre outil, les médecins accèdent à une liste de gènes qui leur donne des informations plus complètes et plus fiables.

Binaire : Les données de santé sont évidemment essentielles. On parle beaucoup en ce moment du Health Data Hub. Pourrais-tu nous en dire quelques mots ?

SCB : Le Health Data Hub (HDH) propose un guichet d’entrée aux données de santé pour améliorer les soins, l’accompagnement des patients, et la recherche sur ces données. Le HDH a soulevé une polémique en choisissant un stockage dans Microsoft Azure, un service de cloud américain. Même si le stockage est conforme au RGPD, il pose un problème de souveraineté. Ce n’est pas une question d’impossibilité : d’autres données, de volume et complexité comparables sont sur des serveurs français. On espère que ce sera corrigé mais cela va sûrement durer au moins quelques années.

Binaire : Tu travailles sur les workflows scientifiques. Pourrais-tu expliquer cela aux lecteurs de binaire ?

SCB : Pour intégrer de gros volumes de données et les analyser, on est amené à combiner un assez grand nombre d’opérations avec différents logiciels, souvent des logiciels libres. On crée des chaînes de traitements parfois très complexes, en séquençant ou en menant en parallèle certains de ces traitements. Un workflow est une description d’un tel processus (souvent un code) pour s’en souvenir, le transmettre, peut-être le réaliser automatiquement. Pour les chercheurs, il tient un peu la place des cahiers de laboratoires d’antan.

Un workflow favorise la transparence, ce qui est fondamental en recherche. Définir du code informatique qui peut être réalisé par une machine mais également lu et compris par un humain permet de partager son travail, de travailler avec des collègues experts de différents domaines.

Binaire : Les workflows nous amènent à la reproductibilité, un sujet qui te tient particulièrement à cœur.

SCB : La reproductibilité d’une expérience permet à quelqu’un d’autre de réaliser la même expérience de nouveau, et d’obtenir, on l’espère, le même résultat. Compte tenu de la complexité d’une expérience et des variations de ses conditions de réalisation, c’est loin d’être évident. Nous avons toutes et tous vécu de grands moments de solitude en travaux pratiques de chimie quand on fait tout comme le prof a dit : on mélange, on secoue, c’est censé devenir bleu, et … ça ne se passe pas comme ça. Cela peut être pour de nombreuses raisons : parce qu’on n’est pas à la bonne température, que le mélange est mal fait, que le tube n’est pas propre, etc. Pour permettre la reproductibilité il faut préciser les conditions exactes qui font que l’expérience marche.

Le problème se pose aussi en informatique. Par exemple, on peut penser que si on fait tourner deux fois le même programme sur la même machine, on obtient le même résultat. La réponse courte c’est pas toujours ! Il suffit de presque rien, une mise à jour du compilateur du langage, du contexte d’exécution, d’un paramétrage un peu différent, et, par exemple, on obtient des arbres phylogénétiques complètement différents sur les mêmes données génétiques !

Binaire : Pourquoi est-il important d’être capable de reproduire les expériences ?

SCB : La science est cumulative. Le scientifique est un nain sur des épaules de géants. Il s’appuie sur les résultats des scientifiques avant lui pour ne pas tout refaire, ne pas tout réinventer. S’il utilise des résultats erronés, il peut partir sur une mauvaise piste, la science se fourvoie, le géant chancelle.

Des résultats peuvent être faux à cause de la fraude, parce que le scientifique a trafiqué ses résultats pour que son article soit publié. Ils peuvent être faux parce que le travail a été bâclé. Une étude de 2009 publiée par le New York Times a montré que la proportion de fraude varie peu, par contre le nombre de résultats faux a beaucoup augmenté. Les erreurs viennent d’erreurs de calcul statistiques, de mauvaises utilisations de modèles, parfois de calculs de logiciels mal utilisés. Cela arrive beaucoup en ce moment à cause d’une règle qui s’est imposée aux chercheurs : “publish or perish” (publie ou péris, en français) ; cette loi pousse les scientifiques à publier de façon massive au détriment de la qualité et de la vérification de leurs résultats.

La reproductibilité s’attache à combattre cette tendance. Il ne s’agit pas de rajouter des couches de processus lourds mais de les amener à une prise de conscience collective. Il faudrait aller vers moins de publications mais des publications beaucoup plus solides. Publier moins peut avoir des effets très positifs. Par exemple, en vérifiant un résultat, en cherchant les effets des variations de paramètres, on peut être conduit à bien mieux comprendre son résultat, ce qui fait progresser la science.

Binaire : Tu es directrice adjointe de l’institut DATAIA. Qu’est-ce que c’est ?

SCB : L’Université Paris-Saclay est prestigieuse, mais elle est aussi très grande. On y trouve de l’IA et des données dans de nombreux établissements et l’IA est utilisée dans de nombreuses disciplines. Dans l’institut DATAIA, nous essayons de coordonner la recherche, la formation et l’innovation à UPS dans ces domaines. Il s’agit en particulier de fédérer les expertises pluridisciplinaires des scientifiques de UPS pour développer une recherche de pointe en science des données en lien avec d’autres disciplines telles que la médecine, la physique ou les sciences humaines et sociales. En ce qui me concerne, je coordonne le volet formation à l’IA dans toutes les disciplines de l’université. Un de mes objectifs est d’attirer des talents plus variés dans l’IA, plus mixtes et paritaires.

Binaire : Tu travailles dans un domaine interdisciplinaire. Est-ce que, par exemple, les différences entre informaticiens et biologistes ne posent pas de problèmes particuliers ?

SCB : Je dis souvent pour provoquer que l’interdisciplinarité, “ça fait mal”… parce que les résultats sont longs à émerger. Il faut au départ se mettre d’accord sur le vocabulaire, les enjeux, les partages du travail et des résultats (qui profite de ce travail). Chaque discipline a sa conférence ou revue phare et ce qui est un objectif de résultat pour les uns ne l’est pas pour les autres. L’interdisciplinarité doit se construire comme un échange : en tant qu’informaticienne je dois parfois coder, implémenter des solutions assez classiques sur les données de mes collaborateurs mais en retour ces médecins et biologistes passent un temps long et précieux à annoter, interpréter les résultats que j’ai pu obtenir et ils me font avancer.

Depuis le début de ma carrière, j’ai toujours adoré les interactions interdisciplinaires avec les biologistes et les médecins. Grâce à ces échanges, on développe un algorithme nouveau qui répond à leur besoin, cet algorithme n’est pas juste un résultat dans un article, il est utilisé par eux. Parfois plus tard on se rend aussi compte que cet algorithme répond aux besoins d’autres disciplines.

Pendant la crise du covid, le CNRS m’a demandé de monter une équipe – collègues enseignants-chercheurs et ingénieurs – et ensemble nous sommes partis au feu pour aider des médecins à rapidement extraire les traitements prometteurs pour la Covid-19 à partir des données de l’OMS… Ces médecins travaillaient jours et nuits depuis plusieurs semaines… Nous les avons rejoints dans leurs nuits blanches pour les aider à automatiser leurs actions, pour intégrer ces données et proposer un cadre représentant tous les essais de façon uniforme. J’étais très heureuse de pouvoir les aider. Ils m’ont fait découvrir comment étaient gérés les essais cliniques au niveau international. A l’époque, je ne savais pas ce qu’était un essai clinique mais cela ressemblait fort à des données que je connaissais bien et j’avais l’habitude d’interagir avec des non informaticiens; maintenant je peux t’en parler pendant des heures. J’ai fait des rencontres incroyables avec des chercheurs passionnants.

Serge Abiteboul, Inria et ENS, Paris, Charlotte Truchet, Université de Nantes.

Les entretiens autour de l’informatique