LePartisan.info À propos Podcasts Fil web Écologie BLOGS Revues Médias
binaire
Souscrire à ce FLUX

BINAIRE

Société Informatique de France

Blogs Le Monde - L'informatique : science et technique au coeur du numérique

▸ les 20 dernières parutions

25.10.2024 à 07:56

Mon enfant, apprivoise l’IA !

binaire

Tu es au collège et tu te poses des questions sur les intelligences dites artificielles (au pluriel, oui oui), les fameuses IA dont tout le monde te cause. Un livre indispensable vient de sortir pour t’aider à y voir un peu plus clair. Binaire en parle. Chloé Mercier et Serge Abiteboul. On parle d’intelligences artificielles  …
Texte intégral (890 mots)
Tu es au collège et tu te poses des questions sur les intelligences dites artificielles (au pluriel, oui oui), les fameuses IA dont tout le monde te cause. Un livre indispensable vient de sortir pour t’aider à y voir un peu plus clair. Binaire en parle. Chloé Mercier et Serge Abiteboul.

On parle d’intelligences artificielles  génératives, qui produisent en quelques secondes du texte, des images et du contenu audio. Ce sont de vraies prouesses techniques, de gigantesques calculs statistiques. Bien  utilisées, ce sont des outils utiles dans de nombreux domaines, y compris de la vie des ados. Mal comprises, elles font peur. Mal utilisées, elles conduisent à de nombreuses erreurs.

Voici un guide malin et bienveillant pour découvrir comment fonctionne l’IA et à quoi elle sert, comment l’utiliser pour booster sa créativité. Il n’ignore pas les dangers de l’IA (fake news, deep fakes, etc.) et propose des pistes pour en garder le contrôle.

Un exemple ? Alors … plus besoin de faire ces devoirs avec l’IA ? 🙂
C’est une des premières choses que les élèves essayent et cela marche… mal ! D’abord, on reconnaît assez facilement que la façon de répondre n’est pas celle d’un·e élève, ensuite les réponses peuvent être absurdes comme on l’expérimente. Et surtout… eh bien on perd son temps ! Les devoirs sont faits pour  acquérir des compétences alors les faire faire par un humain ou un algorithme, ça se paye ensuite. En fait, quelque chose a changé profondément : avec ces algorithmes, il faut apprendre à faire ses devoirs autrement. C’est ce que nous explique ce joli livre très chouettement illustré. 

On le trouve partout y compris chez son éditeur.

Date de parution: 05 septembre 2024.
Editeur Nathan.
Collection C’est pas moi
Nombre de pages: 128
Auteurs:  Pierre-Yves OudeyerDidier RoyClémentine Latron.

Ikram Chraibi-Kaadoud et Thierry Viéville.

18.10.2024 à 08:35

Ils utilisent la lumière pour faire du calcul quantique

binaire

Un nouvel entretien autour de l’informatique. Pascale Senellart est physicienne, directrice de recherche au Laboratoire de photonique et nanostructures du CNRS de l’Université Paris-Saclay, professeure chargée de cours à l’École polytechnique. Ses travaux se concentrent sur les interactions lumière-matière avec des boîtes quantiques semi-conductrices dans des cavités optiques. Elle a reçu la médaille d’argent du …
Texte intégral (3602 mots)

Un nouvel entretien autour de l’informatique.

Pascale Senellart est physicienne, directrice de recherche au Laboratoire de photonique et nanostructures du CNRS de l’Université Paris-Saclay, professeure chargée de cours à l’École polytechnique. Ses travaux se concentrent sur les interactions lumière-matière avec des boîtes quantiques semi-conductrices dans des cavités optiques. Elle a reçu la médaille d’argent du CNRS (en 2014) parmi de nombreuses distinctions scientifiques. 

En 2017, Pascale a cofondé avec Valérian Giesz et Niccolo Somaschi la startup Quandela, d’abord pour commercialiser une source de photons uniques s’appuyant sur ses travaux de recherche au C2N, puis pour développer un ordinateur quantique à base de photons. 

Jean Senellart est informaticien, pionnier de la traduction automatique. Il a longtemps dirigé la R&D de Systran. Sous son impulsion, Systran a construit un des premiers moteurs de traduction basés sur un réseau de neurones et le framework opensource OpenNMT. Il a rejoint Quandela pour contribuer à son logiciel quantique.

Jean et Pascale Senellart, Crédit : Rebecca Rowe

 

Binaire : Pouvez-vous nous raconter votre parcours ?

Pascale Senellart : je suis directrice de recherche au CNRS, au centre de nanosciences et de nanotechnologies depuis 2002. Physicienne des semi-conducteurs, mon objectif était de reproduire dans ces matériaux des expériences fondamentales de la physique théorique. Cela avait été fait par Serge Haroche et d’autres avec des atomes, et je voulais le faire avec des outils de microélectronique. Il s’agit de développements technologiques basés sur l’étude des même matériaux que ceux étudiés pour réaliser de nombreux composants comme les pointeurs lasers. Mon équipe a ainsi développé de petits composants semi-conducteurs similaires à des LED, mais qui sont des composants émettant des photons un par un. 

Vers 2013, j’ai commencé à être contactée par des personnes souhaitant construire des ordinateurs quantiques. La technologie de mon équipe, bien qu’imparfaite, était dix fois plus efficace que ce dont ils disposaient. Idéalement, pour obtenir un photon, il devrait suffire d’appuyer sur un bouton ; l’efficacité de leurs outils était de 1 photon pour 100 essais ; nous en sommes maintenant à 60 photons pour 100.

 

Pour coder de l’information, on peut utiliser la polarisation du photon (suivant le sens de son champ électrique) ou sa couleur (par exemple bleue ou rouge) ou sa direction (suivant qu’il aille à droite ou à gauche). C’est donc un bit d’information. Mais on peut faire mieux en utilisant le fait qu’une particule peut être en deux endroits en même temps. Par exemple, le photon peut aller à la fois à droite et à gauche. C’est à la base du bit d’information quantique, appelé qubit.

Vers 2016, nous disposions de composants qui intéressaient énormément, en particulier, les laboratoires universitaires. En 2017, nous avons créé une startup, Quandela, pour les commercialiser. Au début, nos clients appartenaient au monde académique ; puis avec le boom international sur le quantique, nous avons eu comme clients des startups. Un spécialiste de l’algorithmique quantique, Shane Mansfield a rejoint l’aventure en 2020 pour porter aussi l’effort dans la direction de l’ordinateur quantique. Il y avait un gouffre entre le monde des algorithmes quantiques, des composants semiconducteurs et celui de l’informatique traditionnelle. L’arrivée de Jean en 2022 a permis de faire un pont entre ces trois mondes.

Jean Senellart : J’ai fait une thèse en informatique linguistique avec Maurice Gross au LADL (Laboratoire d’Automatique Documentaire et Linguistique). Je travaillais sur les aspects formels, puis j’ai fait de la traduction automatique et du développement logiciel industriel. Chez Systran, nous avons utilisé l’intelligence artificielle pour le traitement de la langue naturelle, et développé les premiers traducteurs automatiques basés sur des réseaux de neurones. Ensuite, nous avons même mis des transformers (une architecture d’apprentissage profond introduite par Google) en open source. Le domaine de la traduction automatique a beaucoup progressé, et il est aujourd’hui plutôt dans une phase de perfectionnement. C’est ce qui m’a poussé à chercher de nouveaux défis. L’informatique quantique m’est apparue comme un domaine prometteur où mes compétences en algorithmique et en traitement de données complexes pouvaient être valorisées d’une nouvelle manière. C’est ainsi que j’ai décidé de rejoindre le projet de Quandela de construire et de contrôler un ordinateur quantique.

Binaire : Qu’est-ce qu’un ordinateur quantique ? Qu’est-ce que ça pourrait changer ?

PS : L’ordinateur classique repose notamment sur des composants comme des transistors, qui exploitent déjà des propriétés de la physique quantique. Mais l’ordinateur quantique utilise un concept beaucoup plus puissant et fragile, à savoir, la « superposition quantique » : un photon peut être à droite et à gauche en même temps. Mais, dès que je fais une mesure, le photon est soit à droite soit à gauche, de manière aléatoire, avec la même probabilité alors qu’il était, avant la mesure, aux deux endroits en superposition. Et puis, un autre phénomène est essentiel : « l’intrication ». Si on lance deux pièces de monnaie en l’air, elles tombent chacune sur pile ou face ; en quantique, on peut créer un état intriqué des deux pièces ; elles tomberont toujours de manière aléatoire, mais toutes les deux sur pile, ou toutes les deux sur face et même toutes les deux sur la tranche mais exactement de la même façon. Deux photons, peut-être distants l’un de l’autre, peuvent ainsi être intriqués.

Grâce à la superposition et l’intrication, la physique quantique permet ainsi d’explorer plusieurs possibilités en même temps. Supposons que l’on cherche la sortie d’un labyrinthe. Quand on trouve un branchement, on peut explorer la branche de gauche puis l’autre. On pourrait trouver la sortie beaucoup plus vite si on explorait les deux en même temps. Du point de vue de l’information, on arrive à coder avec n particules une information qui correspondrait à un nombre exponentiel en n de bits.

Je travaille sur le hardware et la vraie difficulté à laquelle nous sommes confrontés est de garder les propriétés de superposition et d’intrication. Pour poursuivre avec l’analogie du labyrinthe, si je demande à l’explorateur du labyrinthe où il est, je perds la superposition et donc tout l’avantage apporté par le calcul quantique. Je fais donc en sorte de ne pas lui demander directement, mais si par exemple des cailloux se trouvent dans le labyrinthe et font trébucher l’explorateur, ces cailloux ont en quelque sorte « interrogé » l’explorateur et feront qu’il ne sera plus dans un état superposé mais uniquement à cet endroit du chemin. Ce phénomène illustre ce qu’on appelle la « décohérence » qui va être source d’erreur dans le calcul quantique. Cet exemple montre aussi que quand on veut programmer avec le quantique, on est conduit à penser différemment, à concevoir d’autres algorithmes – car on ne peut pas interroger le système en cours de calcul comme on le fait couramment avec un ordinateur classique. C’est un vrai défi. 

Binaire : Comment programme-t-on un ordinateur quantique ?

JS : Il vaut mieux ne pas être physicien [rire]. Il faut voir l’ordinateur quantique comme un moyen nouveau d’accélérer les calculs. Sur le plan théorique, on dispose de qubits (avec la superposition et l’intrication) qu’on doit pouvoir initialiser (créer des superpositions) et faire des opérations logiques (fabriquer l’intrication) et mesurer. Di Vincenzo d’IBM a ainsi défini les calculateurs quantiques. La première difficulté est de programmer le système physique qui permet de réaliser tout cela au travers de différentes couches logicielles.

En utilisant le photon pour fabriquer un ordinateur quantique, on va pouvoir utiliser les outils de la photonique intégrée pour créer la superposition et l’intrication. On va par exemple utiliser des puces où des guides d’onde qui dirigent les photons dans différentes directions. En changeant localement la température, on peut modifier l’indice de propagation de la lumière dans le verre et programmer la superposition de la particule qui passe à cet endroit-là. En montant en niveau, on va faire en sorte que deux photons se croisent sur la puce à divers endroits pour créer l’intrication. À un niveau supérieur, on utilise cette intrication pour réaliser des analogues quantiques des portes logiques qu’on trouve dans les ordinateurs classiques. Au-dessus de ce niveau, on implémente des algorithmes comme l’algorithme de Shor qui permet, avec un ordinateur quantique très sophistiqué, de décomposer un nombre en facteurs premiers.

Nous avons mis en place un petit ordinateur sur le cloud, avec 10 qubits aujourd’hui. Si nous arrivions à une centaine de qubits, nous pourrions réaliser des calculs actuellement plus vite que les supercalculateurs. Il nous manque donc juste un ordre de grandeur. Mais il ne faut pas sous-estimer la difficulté de passer de 10 à une centaine. Il ne suffit pas d’ajouter des qubits comme on rajoute des processeurs, il faut aussi être capable de les intriquer et ne pas ajouter de la décohérence quand on ajoute des qubits.

Avec quelques qubits, nous avons déjà réalisé de l’apprentissage machine (machine learning) quantique, ou calculé le niveau d’énergie de l’hydrogène avec une précision chimique. Ainsi, nous avons également classifié des images d’iris avec seulement 3 qubits. Le fait qu’avec 3 qubits nous puissions réaliser l’équivalent de ce que nous ferions avec un petit réseau d’une centaine de neurones classiques montre la puissance du calcul quantique en termes de complexité.

Binaire : Le but est de réaliser des calculs encore hors de notre portée. Et, y a-t-il d’autres possibilités pour le calcul quantique ?

PS : Oui, l’objectif est de réaliser des calculs qui ne sont pas accessibles aux ordinateurs classiques actuels. Un autre apport de l’ordinateur quantique pourrait être une consommation d’énergie moindre. En effet, on atteint des limites des ordinateurs classiques non seulement du fait de la taille des transistors qu’on ne peut plus réduire, mais aussi par leur production de chaleur. La dissipation de cette chaleur est un obstacle majeur pour aller vers plus de puissance de calcul. D’un point de vue fondamental, ce n’est pas le cas pour le calcul quantique, qui ne génère pas de chaleur au niveau le plus bas. Alors, il est vrai qu’aujourd’hui, on ne connaît pas de technologie de calcul quantique qui effectue des calculs à température ambiante. Pour générer nos photons, nous travaillons à 4 Kelvin, et cela demande de l’énergie pour faire descendre à cette température notre machine. Mais cette énergie initiale est très faible par rapport à l’économie d’énergie que l’utilisation de la superposition et de l’intrication quantique permet.

Binaire : OVH vous a acheté une machine. Qu’en font-ils ?

PS : Ils génèrent des nombres aléatoires certifiés. Actuellement, les processus de génération de nombres aléatoires en informatique classique sont en fait pseudo-aléatoires (pas vraiment aléatoires), tandis qu’en informatique quantique, nous pouvons générer de véritables nombres aléatoires pour lesquels nous pouvons démontrer qu’il n’y a pas d’information cachée. On a par exemple besoin de vrais nombres aléatoires en cryptographie.

Binaire : Peut-on simuler les ordinateurs quantiques ?

JS : Aujourd’hui, nous pouvons simuler jusqu’à environ 25 qubits photoniques avec des ordinateurs classiques. En utilisant les plus puissants supercalculateurs, il serait possible d’atteindre au maximum une centaine de qubits. Au-delà, comme la puissance de calcul quantique est exponentielle en nombre de qubits, les meilleurs supercalculateurs ne peuvent plus rien faire. Ces simulations sont cruciales pour le développement et la validation d’algorithmes quantiques, et leurs limitations souligne aussi l’importance de construire de véritables ordinateurs quantiques. En effet, dès que nous dépasserons la barre des 100-200 qubits avec des ordinateurs quantiques réels, nous entrerons dans un domaine où la simulation classique devient impossible, ouvrant la voie à de véritables avancées en calcul quantique.

Binaire : Peut-on s’attendre à une révolution avec l’informatique quantique ?

PS : De mon point de vue, nous sommes déjà au cœur d’une révolution technologique. Nous réalisons des avancées dans les laboratoires auxquelles nous n’aurions pas cru il y a 5 ans. Les progrès sont spectaculaires et rapides. Du point de vue des applications, nous en sommes encore aux prémices de l’histoire. Jusqu’à présent, cela restait essentiellement une affaire à des physiciens. Mais maintenant les informaticiens nous rejoignent.

C’est la construction de matériel qui prend du temps. Mais on y arrive. Le passage à l’informatique quantique est pour moi inévitable. Cela va se produire.

Binaire : Doit-on imaginer des machines qui seront uniquement quantiques ou un mélange ?

JS : Cela sera forcément un mélange des deux – tout comme on a ajouté des GPU aux ordinateurs actuels pour gagner en puissance de calcul sur certains problèmes. De la même façon, le quantique accélère certains types de problèmes, mais pas tous. Par exemple, la simulation de molécules complexes ou l’optimisation de grands systèmes sont des domaines où le quantique pourra apporter un avantage significatif. D’ailleurs, suivant les applications, certaines plateformes quantiques sont plus adaptées que d’autres selon les principes sur lesquels elles se fondent. Par exemple, les ordinateurs quantiques à base de qubits supraconducteurs ou de photons uniques ont chacun leurs forces pour différents types de calculs quantiques.

Binaire : Y a-t-il des besoins en matériaux spécifiques ?

PS : Dans les plateformes avec des qubits de silicium, il faut un silicium extrêmement pur, et très peu de pays dans le monde savent produire du silicium à ce degré de pureté. Dans les plateformes avec des photons, comme celle sur laquelle nous travaillons, pas tant que ça. C’est d’ailleurs le type de plateforme le mieux financé au niveau international. Les financements sont énormes aux États-Unis et en Chine, plus modestes en France et en Europe.

Les équipes chinoises du professeur Jan Wei Pan ont réalisé des démonstrations avec des plateformes à photons et ont effectué des calculs inaccessibles au monde classique.

Binaire : Que pouvez-vous dire à ceux qui ne croient pas en l’ordinateur quantique ?

PS : Certains scientifiques voient tous les défis technologiques qu’il faut résoudre pour obtenir un ordinateur quantique très puissant et sont dubitatifs. Pour moi, dire que ce n’est pas possible, ce n’est pas un point de vue scientifique. Regardons ce qui s’est passé sur la première révolution technologique du 20e siècle qui exploitait les concepts de base de la mécanique quantique. Qui aurait pu penser au début du transistor – quand celui-ci faisait la taille d’une ampoule – que ce composant permettrait de révolutionner notre quotidien ? Nous sommes dans une situation analogue – avec des composants permettant d’exploiter des concepts quantiques beaucoup plus puissants.

JS : Aujourd’hui, il est à la fois possible de démontrer théoriquement que certains algorithmes quantiques permettront de résoudre des problèmes que nous ne pouvons qu’approximer avec n’importe quel ordinateur actuel classique aussi puissant soit-il, et à la fois possible de démontrer pratiquement que ces algorithmes fonctionnent déjà à une petite échelle. Il n’est plus possible de ne plus croire au quantique, et ce n’est plus qu’une question de temps.

Binaire : Pascale, quand comptes-tu retourner à la recherche ?

PS : Je n’ai jamais autant fait de recherche. Je suis officiellement à 30% dans Quandela. Et même ma contribution à Quandela, c’est aussi de la recherche.

Binaire : Et toi Jean, les problèmes informatiques que tu rencontres sont-ils aussi intéressants que ceux que tu adressais avant, en apprentissage automatique ?

JS : L’algorithmique a toujours été ma passion. Tout comme ce qui s’est passé avec l’arrivée des réseaux de neurones à grande échelle, le quantique nous permet de revisiter des problèmes classiques avec un outil nouveau, et qui défie souvent l’intuition. Pour chaque problème considéré, trouver la manière de l’aborder avec des primitives quantiques est donc un défi chaque fois renouvelé : il faut être créatif en permanence. De plus, même si on a l’algorithme, la manière de l’exécuter sur un ordinateur quantique particulier est aussi souvent un problème ouvert  à part entière, donc oui : les problèmes informatiques existants et à venir sont tout aussi passionnants et stimulants intellectuellement que ceux que j’ai pu rencontrer dans le monde de l’apprentissage automatique et du traitement de la langue.

Serge Abiteboul, Inria et ENS, Paris, Claire Mathieu, CNRS et Université Paris Cité

Pour aller plus loin

Quandela, quand le quantique rencontre le HPC…,  Vie des entreprises, novembre 2022, P. Senellart et J. Senellart. 

Les entretiens autour de l’informatique

 

 

11.10.2024 à 07:47

Petite histoire du TO7

binaire

Michel LEDUC a participé à la création d’une des premiers ordinateurs personnels en France. En plus des foyers, cet ordinateur a aussi pénétré les écoles ce qui fait que ce petit TO7 est un peu connu.  Michel nous narre cette histoire à l’occasion de la sortie d’un livre sur cette aventure.  Pierre Paradinas et Benjamin …
Texte intégral (2050 mots)

Michel Leduc | Les auteurs | L'écritoireMichel LEDUC a participé à la création d’une des premiers ordinateurs personnels en France. En plus des foyers, cet ordinateur a aussi pénétré les écoles ce qui fait que ce petit TO7 est un peu connu.  Michel nous narre cette histoire à l’occasion de la sortie d’un livre sur cette aventure.  Pierre Paradinas et Benjamin Ninassi.

‌Binaire :  Comment es tu entré chez Thomson dans les années 1970 ?

Michel LEDUC : Diplômé de l’ESEO en 1973, je recherche du travail à la fin de mon service militaire pendant l’été 1974. Après CV et lettres de motivations, je passe un entretien à Paris pour un poste à Thomson Moulins. Ce fut, un entretien original avec une visite du LCR de Corbeville (le laboratoire de recherche du groupe Thomson) où je suis ébloui par la démonstration d’une maquette de vidéodisque et je suis séduit par l’équipe de chercheurs à l’origine de cette merveilleuse lampe d’Aladin qui permettait d’obtenir une image vidéo à partir d’un bout de plastique avec des milliards de micro-cuvettes ! Ce vidéodisque était la version Thomson du disque optique qui a vu le jour dans le grand public sous le nom de Laservision porté par l’alliance Sony Philips. La version de Thomson portait sur un disque transparent et souple alors que Philips défendait une version réflective sur un disque d’1mm d’épaisseur . L’absence de protection des micro cuvettes du disque Thomson a causé sa perte ainsi que la stratégie de Thomson mais le système de lecture étant similaire, c’est avec les brevets que Thomson a  gagné beaucoup d’argent sur tous les lecteurs de CD et de DVD vendus dans le monde. Ma mission était de récupérer le savoir-faire de l’équipe parisienne et de transformer leur maquette en un produit grand public pour la partie électronique. L’arrêt du projet de vidéodisque grand public m’amènera de manière fortuite à la création du TO7.

Binaire:  Thomson à l’époque, c’est quelle entreprise ?

ML : Thomson-Houston est déjà un grand groupe alliant électronique grand public (radio, électrophone, machine à laver, réfrigérateurs…), électronique professionnelle et militaire (Thomson CSF). Le LCR où naîtra le vidéodisque est le laboratoire de recherches de l’ensemble du groupe. La division grand public a de nombreuses usines en France : Angers et Saint Pierre Montlimart pour la télévision, Moulins pour l’audio, la Roche sur Yon (machine à laver le linge) et bien d’autres. Le groupe comprend plus de 40 000 personnes à l’époque et détient même une majorité des parts de CII-Honeywell. La situation évoluera avec la nationalisation du groupe en 1982.

Binaire:  Peux tu nous décrire le paysage de la micro informatique en France à cette époque ?

ML :  Quand on me demande en 1979 de choisir le micro-ordinateur que le groupe va revendre, je m’adresse aux fabricants américains car il n’existe pas de marché en France mais on commence à entendre parler d’Apple, de Commodore, d’Atari… Les dirigeants de Thomson et les équipes marketing ont entendu parler du phénomène qui se développe aux US avec l’arrivée de l’ordinateur individuel dans les foyers américains. L‘objectif principal était de suivre ce qui se passait aux Etats-Unis et d’être présent sur ce marché qui apparaissait prometteur aux US. Quand nous arrivons avec le TO7.  Quand le TO7 sortira, près de trois ans après, de nombreux concurrents se sont déjà positionnés sur le marché français mais le TO7 trouvera sa place grâce à son orientation éducative et les accords avec VIFI Nathan qui permettront au TO7 de passer la barrière habituelle que le public français crée à l’arrivée d’une nouvelle technologie !  Ce choix judicieux pour le marché français constituera un obstacle infranchissable pour adresser les autres marchés !
 
Binaire:  On fait comment pour fabriquer un PC dans les années 70 ?

 

Photo : Michel Leduc

 

ML :  À la fin du vidéodisque grand public, mon patron moulinois m’a proposé de rechercher un micro-ordinateur pour le revendre dans le réseau Thomson. La recherche se solda par un échec et poussé par l’équipe grenobloise de Thomson semi-conducteurs, nous avons proposé d’en fabriquer un !  Je partais de rien. Je me suis appuyé sur les conseils et la volonté de l’équipe de Grenoble de Thomson semi-conducteurs qui me poussaient vers les puces 6800 pour le microprocesseur et vers les chips de TV Antiope pour la vidéo. Ensuite faute d’expertise en logiciel, on a embauché José Henrard, chercheur en sociologie au CNRS, qui bricolait dans le labo de Mr Dupuis à Jussieu et qui avait développé une maquette basée sur un microprocesseur 4 bits. Il avait conçu le moniteur pour la faire fonctionner. Avec ces deux éléments, on a réalisé la première maquette wrappée du T07 avec un microprocesseur 6800, et une interface vidéo réalisée avec 70 circuits TTL. Le tout fonctionnait avec un moniteur et un crayon optique conçu que j’avais conçu.  Inutile de dire que cela n’a pas fonctionné du premier coup, mais à force de travail acharné de toute l’équipe on a pu réaliser une démonstration à la direction générale dans des conditions assez rocambolesques !

Binaire: quels rôles pour l’ADI, le centre mondial de l’informatique et l’éducation nationale dans cette aventure ?

ML :  Je suis mal placé pour juger du rôle du centre mondial de l’informatique car c’est plutôt José, situé à la SIMIV à Paris, qui avait les relations avec le monde politique. Tout ce que je sais c’est que les relations n’étaient pas les meilleures car JJSS poussait plus pour les produits Apple que vers les TO/MO. Il a, avec quelques autres acteurs du monde éducatif savonner la planche du plan informatique pour tous et a surtout œuvré pour qu’Apple soit l’ordinateur du plan IPT. Je pense qu’il y a eu un apport positif avec Seymour Papert et Logo que l’on utilisé sur le TO7.

Photo : Michel Leduc


Binaire:  quel est l’un de tes plus beau souvenir ?
ML :   J’en citerai plusieurs :

  • l’apparition de la première image sur l’écran et le pilotage par le crayon optique
  • le passage de la première pub (les rois mages) à la TV juste avant Noël

Binaire:  quelle est ta plus grande fierté ?

ML :   Il est clair que ma plus grande fierté a été de voir les TO7 dans les écoles  et de pouvoir en faire bénéficier les élèves des classes de mes enfants. De voir les yeux émerveillés des enfants dans la classe de mon fils  quand ils faisaient du dessin avec le logiciel PICTOR et le crayon optique. C’est aussi  de savoir que de nombreuses personnes sont devenus informaticiens ou tout au moins se sont initiés à l’informatique grâce à ces produits.

Le plus étonnant est de voir encore les fans (nombreux) jouer sur ces produits (ou émulateurs), créer de nouveaux jeux , faire des compétitions! Depuis la sortie du livre des témoignages touchants me racontent avec émotion la place qu’avait pris les TO7 dans leur enfance. Utilisations originales :  accord avec Légo pour piloter les moteurs de constructions Légo, pilotage d’outils de laboratoire via l’interface IEEE, la tortue Logo…..

Binaire:  des regrets ?

ML :  Au niveau stratégique, de ne pas avoir su commuter au bon moment vers le domaine du jeu (tant au niveau hardware que bien sûr logiciel) et ainsi de nous permettre de mieux nous positionner sur le marché européen, et d’avoir été un acteur, malgré moi, des premières délocalisations avec le transfert de la fabrication du TO8 vers la Corée et vers Daewoo!

Pour aller plus loin:

  • à propos du CMI : https://www.ina.fr/ina-eclaire-actu/video/cab8300029601/centre-mondial-informatique 
  • le  livre « Le Thomson T07, succès controversé de la microinformatique française« , chez L’écritoire
 

04.10.2024 à 07:39

La plus grande panne informatique de tous les temps, en attendant la prochaine

binaire

Qui mieux que Rachid Guerraoui, un ami de binaire, pour nous parler de la grande panne informatique. Rachid est professeur d’informatique à l’École Polytechnique Fédérale de Lausanne (EPFL) et membre du comité de pilotage du Collège of Computing à l’UM6P. Il a été chercheur aux laboratoires Hewlett Packard de la Silicon Valley et professeur invité …
Texte intégral (1614 mots)

Qui mieux que Rachid Guerraoui, un ami de binaire, pour nous parler de la grande panne informatique. Rachid est professeur d’informatique à l’École Polytechnique Fédérale de Lausanne (EPFL) et membre du comité de pilotage du Collège of Computing à l’UM6P. Il a été chercheur aux laboratoires Hewlett Packard de la Silicon Valley et professeur invité au MIT et au Collège de France. Serge Abiteboul et Pierre Paradinas.

Dans le film La Grande Vadrouille, Bourvil vole un uniforme de colonel allemand dans le hammam de la mosquée de Paris pour sauver un pilote britannique caché à l’opéra. Lors d’une représentation de Berlioz dirigée par De Funès devant les hauts gradés allemands, Bourvil, vêtu de son uniforme, accède aux coulisses sans être inquiété. La réalité dépasse parfois la fiction. En avril 2024, des malfrats ont dévalisé les habitants d’une petite commune française grâce à un stratagème ingénieux : l’un d’eux se faisait passer pour un plombier venu vérifier des fuites d’eau, puis ses complices, déguisés en policiers, prétendaient enquêter sur ce faux plombier pour accéder aux coffres des victimes.

Le monde numérique, lui, nous réserve des scénarios encore plus incroyables. Le vendredi 19 juillet 2024, des « policiers » virtuels ont pris la relève de leurs prédécesseurs pour mieux protéger les systèmes informatiques : aéroports, banques, hôpitaux, médias, administrations et entreprises. Leur mission : détecter d’éventuels intrus et les bloquer. Mais ces nouveaux « policiers », une fois introduits dans le cœur des systèmes, les ont bloqués au lieu de les protéger. Près de dix millions d’ordinateurs se sont arrêtés, entraînant un chaos mondial. Avant de tirer les leçons de cette panne informatique sans précédent, posons-nous quelques questions : Qui sont ces « policiers » ? Qui les a envoyés ? Pourquoi ont-ils remplacé les anciens systèmes qui semblaient fonctionner correctement ? Comment ont-ils pu pénétrer le cœur des systèmes et les bloquer à une telle échelle ?

Ces « policiers » sont des segments de programmes envoyés par des messages Internet aux systèmes Windows de Microsoft. Grâce à sa solution Office 365 (Word, Excel, PowerPoint, Outlook, Skype, Teams, etc.), Microsoft est le leader mondial de la bureautique, équipant plus d’un milliard d’utilisateurs. Windows, son système d’exploitation, fait tourner la majorité des ordinateurs de la planète. Les segments de programmes visent à renforcer la sécurité de Windows en s’intégrant au système existant pour contrôler son exécution.

Les messages contenant ces programmes sont envoyés automatiquement par le logiciel Falcon Sensor, hébergé sur le cloud pour le compte de Crowdstrike, un leader mondial de la cybersécurité. Crowdstrike s’est forgé une réputation grâce à ses enquêtes sur des cyberattaques majeures. Son logiciel Falcon Sensor analyse et bloque les attaques informatiques en s’adaptant de manière autonome aux nouvelles menaces, sans intervention humaine, ce qui a séduit Microsoft.

Ces mécanismes de défense jouissent de droits élevés (sous forme de « signatures »), et aucun autre logiciel ne peut les stopper. Ils s’introduisent au cœur du système Windows et s’exécutent avant les autres applications. Toutefois, le mécanisme envoyé le 19 juillet était défaillant. Une « erreur logique » dans un fichier de configuration critique a provoqué une « erreur physique » : des adresses mémoire ont été calculées incorrectement et affectées sans vérification, conduisant Windows à lancer sa procédure de blocage (« Blue Screen Of Death ») sur plus de 8 millions d’ordinateurs.

La panne a coûté plus d’un milliard de dollars. Elle aurait pu être pire, seulement 1 % des machines Windows ont été touchées, et l’envoi du mécanisme a été stoppé après 88 minutes. De nombreux vols ont été annulés, et des interventions médicales reportées, mais heureusement, aucune perte humaine n’est à déplorer.

Deux fausses bonnes idées ont été proposées par certains médias au lendemain de la panne :   

  1. Revenir au crayon et au papier pour se passer du numérique. C’est juste est irréaliste parce que le numérique fait désormais partie intégrante de notre quotidien.
  2. La souveraineté numérique n’aurait pas prévenu la panne. Les États-Unis, très autonomes dans ce domaine, ont été touchés. Le fait que certains pays, comme la Chine et la Russie, s’en soient mieux sortis tient simplement à ce qu’ils n’utilisent pas Windows et Crowdstrike.

Par contre, je retiendrais au moins trois leçons de la panne :

  1. Le numérique est un ensemble : les données, l’IA, les réseaux, les systèmes d’exploitation, la sécurité, etc., sont interconnectés et doivent être traités de manière globale. La conception d’un logiciel doit être vérifiée de bout en bout avec des méthodes de génie logiciel. Ajouter des segments de programmes à un logiciel certifié, sans revalider l’ensemble, est une faute grave.
  2. La probabilité d’erreur n’est jamais nulle, même avec des tests et vérifications. Il ne faut donc pas dépendre d’une seule infrastructure. Ici, des millions de machines cruciales étaient toutes sous le même système d’exploitation et logiciel de sécurité. Espérons que les infrastructures informatiques ne dépendront plus uniquement de Microsoft et Crowdstrike à l’avenir.
  3. Les architectures ouvertes et décentralisées sont essentielles. La plateforme blockchain de Bitcoin, attaquée régulièrement, fonctionne sans accroc majeur depuis 2009. Bien que le code soit accessible et modifiable par tous, il ne peut être déployé que s’il est accepté par la communauté, contrairement au code fermé de Falcon Sensor, déployé de manière non transparente.

En résumé, un logiciel devrait être considéré dans son intégralité et il faudrait vérifier ses algorithmes et tester sa mise en œuvre de bout en bout ; on ne doit pas dépendre d’un seul type de logiciel pour une infrastructure. critique ; et il faudrait privilégier les architectures ouvertes et décentralisées. Le législateur pourrait imposer aux sociétés informatiques d’ouvrir leurs logiciels et d’offrir des interfaces standards pour diversifier les fournisseurs. La résilience de l’infrastructure DNS, grâce à la diversité de ses implémentations, prouve que cet objectif est réalisable.

Rachid Guerraoui, EPFL

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

27.09.2024 à 07:09

IA générative et désinformation : quel impact sur les rapports de force existants en géopolitique ?

binaire

Alice, Clara et Ikram abordent dans cet article les sujets complexes que sont l’IA générative, la désinformation, les rapports de force et la géopolitique.  Ce travail pluridisciplinaire a été présenté à la journée scientifique “Société et IA” à PFIA 2024 à La Rochelle, et est disponible au lien HAL suivant.  Il se veut factuel et …
Texte intégral (7571 mots)

Alice, Clara et Ikram abordent dans cet article les sujets complexes que sont l’IA générative, la désinformation, les rapports de force et la géopolitique.  Ce travail pluridisciplinaire a été présenté à la journée scientifique “Société et IA” à PFIA 2024 à La Rochelle, et est disponible au lien HAL suivant.  Il se veut factuel et sans jugement quelconque vis-à-vis d’un pays ou d’une communauté, à des fins d’acculturation et de médiation scientifique pour le grand public et les chercheurs en IA. Les conflits abordés ici sont non-exhaustifs et ne reflètent aucunement un ordre d’importance dans leur présentation ou une vision manichéenne quelconque. Le choix a été réalisé selon la littérature et les expertises des autrices. Consciente qu’elles n’amènent pas forcément de réponses tant les sujets sont complexes et quelques lignes ne suffiraient pas à cela,  elles souhaitent cependant par ces même lignes, éveiller les esprits citoyens du monde sur un sujet qui va au-delà des frontières géographiques. Cet article engage les autrices – avec leurs propres biais socio-culturels – et uniquement elles. Aucunement les institutions citées. Thierry Viéville et Pascal Guitton.

 
Figure 1 : Deepfake de Zelensky appelant à déposer les armes, diffusée en Mars 2022 sur la chaîne de télévision Ukraine 24 suite à un piratage @France24
 
 

INTRODUCTION : Désinformation et Mésinformation, premier risque mondial en 2024

Janvier 2024. 19 000 électeurs taïwanais choisissent d’élire les candidats partisans de l’autonomie malgré le contexte de fortes pressions militaires de la part du Parti Communiste Chinois. Près de 15 000 contenus de désinformation auraient circulé sur les réseaux dans l’objectif d’influencer l’issue de ces élections. Au même moment sur le continent américain, Microsoft alerte sur l’utilisation d’IA générative à l’encontre des Etats-Unis par ses adversaires principaux dans l’échiquier mondial : la Corée du Nord, l’Iran, la Russie et la Chine.

L’IA générative semble permettre la création de nombreux narratifs de désinformation, de meilleure qualité et personnalisés. Mais de quelle manière influencent-ils les rapports de forces existants en géopolitique ?

Cette année plus de la moitié de la population mondiale est appelée aux urnes. Depuis plusieurs mois, les médias à travers le monde s’interrogent sur le risque pour nos démocraties et mettent en avant l’accessibilité et la facilité d’utilisation des outils d’IA générative qui circulent sur internet depuis la sortie de ChatGPT comme peut en témoigne la Figure 2.

Figure 2 : Capture d’écran d’un article du média en ligne “Courrier international” [1]

 

Or les journalistes ne sont pas les seuls à s’inquiéter, l’écosystème économique mondial également. En effet, un sondage réalisé par le Forum Économique mondial a placé début 2024 la désinformation et la mésinformation – qui seront défini plus tard – comme premier risque mondial à court terme, avant même les risques climatiques extrêmes (Figure 3).

Figure 3 : Résultats du sondage sur les menaces à court-terme réalisé par le Forum Économique mondial. Image reproduite en français [2]

 

A ce stade, il est légitime de se demander “Pourquoi est-ce que l’IA générative inquiète autant ?”

Fin 2023, on a observé en France un changement de paradigme sur la perception du grand public de l’IA générative : les journaux télévisés (JT) des chaînes de télévision françaises (TF1, M6, France Info) ont commencé à aborder l’IA générative de manière régulière et cela de manière ludique, avec par exemple l’utilisation d’une image du pape en doudoune (figure 4), alors que jusque là l’IA était majoritairement abordée que lors de reportages ou de moments spécialement dédiés à la technique ou l’innovation.

Cette survenue du sujet de l’IA générative dans les JT grand public a eu pour conséquence d’acculturer et d’informer le grand public de l’émergence et du développement de ces outils tout en les sensibilisant aux fait que ces mêmes outils peuvent être utilisés pour des arnaques très réalistes et de la désinformation. 

Par exemple, un exemple ludique serait l’image du Pape en doudoune. Si celle-ci peut prêter à sourire en France, elle peut paraître également vraisemblable et “fort probable” depuis l’étranger. Si par exemple, dans certains pays étrangers, 20 degrés est une température très fraîche qui nécessite un manteau chaud, il est alors possible de penser que le pape François a simplement eu froid un jour d’hiver et que la photo est vraie. 

 

Vraisemblable : 

  1. Qui a toutes les apparences du vrai ; plausible, par exemple, une explication vraisemblable.
  2. Qui a toutes les probabilités de se produire : Son succès est vraisemblable.

Définition Larousse 

 

Si cet exemple a en réalité peu d’impact sur la dimension géopolitique, il reflète néanmoins une réalité : celle qu’il est possible de profiter de la méconnaissance ou ignorance d’un public cible d’un sujet pour manipuler son comportement au travers d’une stratégie de désinformation.

Afin d’illustrer l’impact au niveau des sociétés, nous pouvons prendre l’exemple d’une image de la tour Eiffel en feu (Figure 4) diffusée sur les réseaux sociaux quelques semaines après l’incendie de notre dame de Paris. Si l’on se rappelle du contexte des manifestations des gilets jaunes quelques mois auparavant et comment elles ont été véhiculé à l’étranger, alors il est légitime de voir émerger une inquiétude hors de France  (voir même sur le sol Français) en lien avec cette image vraisemblable. Une conséquence possible : une baisse/annulation des réservations touristiques à Paris!

Figure 4 : Contenue généré par IA générative : à gauche, le pape en doudoune généré par le laboratoire de recherche indépendant Midjourney en mars 2023 et à droite, Image extraite de la vidéo de la tour eiffel en feu générée par IA et diffusé sur X ( ex-twitter) en Juillet 2023

 

Il existe donc un impact réel de l’IA générative au niveau individuel et par extension un impact réel au niveau des sociétés civiles, mais qu’en est-il au niveau de la géopolitique et des rapports de forces ? S’il est possible de véhiculer une information “vraisemblable” à l’étranger concernant une situation politique, militaire ou sociétale, cela peut-il impacter les dynamiques entre les pays au niveau politique ? Cela peut-il changer les rapports de force en géopolitique? 

Une rapide revue de la littérature réalisée au premier semestre 2024  – beaucoup de littérature et d’analyse d’experts autour de la question du rôle et de l’impact de l’IA générative sur la diffusion de désinformation ont émergé durant cette période là – laisse entendre que deux courants se distinguent lorsqu’il s’agit d’évaluer l’impact en géopolitique :  (i) ceux qui considèrent que l’IA générative est une source de danger en matière de désinformation et (ii) ceux qui considèrent que  l’arrivée des systèmes génératifs ne change pas fondamentalement la donne, ni sur le plan qualitatif, ni sur le plan quantitatif.

C’est dans ce contexte que nous avons souhaité aborder la problématique suivante : Quelle est l’instrumentalisation de l’IA générative dans les dynamiques de désinformations mondiales et son impact sur les rapports de forces existants ?

Afin d’apporter des éléments de réponse à notre questionnement, nous partageons une analyse factuelle préliminaire autour de 3 rapport de forces, ainsi que la guerre de l’information sous-jacente en lien avec l’utilisation de l’IA générative et la désinformation : La Chine vs Taïwan, les États-unis vs leurs adversaires et enfin la Russie vs l’Ukraine.

Mais avant cela, il semble nécessaire de poser un cadre au travers de quelques définitions.

IA générative & désinformation, définitions

Une IA générative désigne l’ensemble de modèles de deep learning capables de générer du texte, des images et d’autres contenus de haute qualité à partir des données sur lesquelles elles ont été formées [3]. Deux caractéristiques importantes à saisir des IA génératives sont : (1) leur pouvoir de générer du contenu vraisemblable, à savoir plausible; (2) leur simplicité d’utilisation et d’accès pour tous les profils et toutes les intentions. Et c’est justement au croisement de ces deux dimensions que se trouve le danger ! 

La désinformation est définie comme l’acte de répandre intentionnellement une information fausse ou manipulée dans le but d’alimenter ou miner une idéologie, concernant des enjeux sociétaux, des débats politiques ou encore des conflits sociaux [1]. Se distinguant de la mésinformation et de la malinformation (figure 5) – qui consiste, respectivement en la diffusion d’informations incorrectes mais sans intention malveillante et en la diffusion délibérée de vraies informations dans un but nuisible – , la désinformation peut s’inscrire dans une dynamique de guerre de l’information.

Cette dernière est considérée comme la conduite d’« efforts ciblés » visant à entraver la prise de décision d’un adversaire en portant atteinte à l’information dans son aspect quantitatif (collecte ou entrave à la collecte d’information) aussi bien que qualitatif (propagation ou dégradation) [4]. 

Dans cette guerre de l’information, des rapports de force existent : ils représentent l’équilibre des pouvoirs dans le système international face aux États les plus puissants. Ils peuvent être internes par le biais de la construction de sa propre force étatique, et externes avec la recherche d’alliances. 

Figure 5 : Éducation à la littératie médiatique : Désinformation, Mésinformation et Malformation, des concepts entre falsification et intention. Institut supérieur de formation au journalisme (dernier accès : 26/08/2024)

Chine vs Taiwan : Le “système immunitaire” de Taiwan

Les outils d’IA génératives démocratisent la création de désinformation de meilleure qualité et en grande quantité. 

La quantité et la qualité des narratifs sont certainement des arguments cherchant à prouver l’impact de l’IA générative dont vous avez déjà entendu parler.

Mais pour Simon, Altay et Mercier, ces arguments peuvent tout de même être nuancés [5].

“La consommation de désinformation est principalement limitée par la demande et non par l’offre.”

Il existe déjà une quantité énorme de narratifs de désinformation accessibles à tous sur internet, et ce bien avant le boum de l’IA générative. Manipuler des images, cibler des populations, créer des vidéos entretenant le flou entre réalité et fiction… Tous ces usages font déjà partie intégrante de la guerre de l’information. 

Pourtant une large partie de ces contenus n’est pas consommée et une majorité d’entre nous n’y sommes pas exposés. Pourquoi cela ? car la consommation de désinformation est fonction de la demande et non pas de l’offre. Simon, Altay et Mercier argumentent leur proposition en mettant en avant, entre autres, les travaux de recherche autour de l’attention cognitive : notre capacité d’attention étant finie, le nombre de contenus pouvant devenir viraux sur internet l’est aussi.

Par ailleurs, pour que les effets de l’IA générative fassent pencher la balance en faveur de la désinformation, il faudrait une augmentation de l’attrait de la désinformation 20 à 100 fois plus importante que l’augmentation de l’attrait des contenus fiables. 

Un élément clé mis en avant par les études de sciences humaines et sociales est que les consommateurs  de désinformation ne sont pas plus exposés à la désinformation mais sont surtout plus enclins à la croire. 

Le problème n’est pas que les gens n’ont pas accès à de l’information de qualité mais qu’ils la rejettent.

Si le fait d’être enclin à croire ou pas en la désinformation, donc d’y avoir été sensibilisé, représente un rempart contre l’efficacité de l’IA générative dans le domaine, Taïwan l’illustre avec son exposition régulière à la désinformation et le développement en interne d’un système immunitaire de réaction

Figure 6 : Chine et Taiwan (crédit:@ClaraFontaineSa)

Ce système immunitaire de l’île a pu être mis à l’épreuve lors des élections présidentielles de janvier 2024.  Malgrè un volume important d’environ 15 000 fausses informations propagées par la Chine, celles-ci n’ont pas eu d’incidence majeure. Cela s’explique par un contexte particulier avec des tensions historiques et une population qui s’attendait aux velléités d’ingérence chinoise. 

De plus, ces élections ont été particulières non seulement pour l’enjeu considérable en pleine tension avec le Parti Communiste Chinois, mais également pour l’aspect tripartite des candidatures. Un nouveau parti, le Parti populaire taïwanais, apprécié par la jeunesse, a fait son apparition dans la course au pouvoir. Se présentant comme une alternative aux partis traditionnels bleu et vert, il promeut une vision s’alignant avec le Kuomintang, le Parti nationaliste chinois à propos d’un rapprochement économique avec la Chine, les opposant ainsi avec le Parti démocrate progressiste, parti sortant qui s’est révélé victorieux. Le candidat de ce dernier, William Lai, a été l’objet de nombre d’attaques à but de désinformation au préalable des élections. L’une d’entre elles, provenant d’une chaîne YouTube relayant du contenu politique, a posté une vidéo où le candidat du camp présidentiel fait l’éloge d’une alliance entre bleu et blanc, indiquant qu’un binôme qui en serait issu, “qu’importe lequel est président ou vice-président, n’importe quelle combinaison peut être une bonne équipe.”[6]

La volonté de la Chine est également d’amener l’opinion publique taïwanaise vers l’unification voulue par le Parti avec la diffusion de narratifs visant à dépeindre un portrait négatif des États-Unis. Dans les thématiques de ces narratifs générés par IA (audios et vidéos) on peut citer : les politiques gouvernementales, les relations entre les deux rives du détroit et la suspicion à l’égard des États-Unis. La puissance américaine est désignée comme un ennemi, une tactique de propagande traditionnelle, ce qui fait que si l’IA exacerbe effectivement des dynamiques de désinformations existantes, elle n’en change pas fondamentalement les mécaniques. Si l’IA générative n’augmente pas la demande de désinformation, alors l’augmentation de l’offre ne peut avoir que peu d’impact. 

La stratégie longue-termiste de la Chine passe notamment par TikTok pour atteindre les jeunes générations taïwanaises. Si l’IA générative permet ici d’exacerber des dynamiques de désinformations, ces dernières étaient déjà existantes. Cette technologie ne semble donc pas changer fondamentalement les mécaniques existantes de la désinformation[4]. C’est l’alliance de l’IA générative et des plate-formes de diffusion, ou médias alternatifs, qui joue un rôle important dans la propagation rapide et efficace de cette désinformation. 

Les États-Unis vs leur adversaires : La guerre des bots

Les narratifs de désinformation, qu’importe leur qualité et leur quantité, ne pourraient trouver leur public cible sans moyens de diffusion. Au-delà de médias plus ou moins affiliés à des Etats, les plateformes en elles-mêmes représentent des actrices à part entière d’évènements sociaux et politiques, comme lors du Printemps arabe, des Gilets Jaunes ou plus récemment l’assaut du Capitole. 

Les préoccupations quant à leur responsabilisation, notamment dans la propagation des informations, étaient présentes bien avant que l’IA générative ne soit démocratisée.

Les inquiétudes s’intensifient face à la nouveauté de la technologie et aux nombreux enjeux électoraux de cette année mais ces plateformes ont toujours agit comme des “caisses de résonance” pour les vidéos émotionnelles qui y deviennent virales. Lors des élections de 2016 opposant Hillary Clinton à Donald Trump, une guerre d’influence se menait hors des plateaux télévisés. Des messages postés en masse par des bots – logiciels qui exécutent des tâches automatisées, répétitives et prédéfinies sur les réseaux sociaux ont été répandus en faveur des deux candidats, profitant notamment des bulles d’activité des internautes sur les sujets de politiques après des débats diffusés. Leur activité et réactivité intensives se mêlent donc aux fervents soutiens des partis opposés, facilitant l’intrusion de fausses informations entre deux opinions. Leur viralité sur les réseaux sociaux, en plus de servir des causes politiques, peuvent également générer du trafic profitable pour les plateformes, dont une modération accentuée est attendue de leur part sur ces sujets[7].

On y retrouve les dynamiques propres à la guerre de l’information dans son aspect qualitatif, notamment à travers la collaboration entre plateformes et États, un exemple notoire étant la surveillance de masse initiée par les agences gouvernementales américaines. En ce sens, on décèle des rapports de force autant dans le volet offensif que défensif, bien qu’ils soient de nature asymétrique dans leur portée. Au sein des instances occidentales, TikTok alarme par son lien étroit avec le Parti Communiste Chinois, qui fait de la plateforme une caisse de résonance considérable face à la popularité des plateformes américaines. 

Figure 7 : Les Etats-unis et leurs ”adversaires” (crédit:@ClaraFontaineSay)

A l’inverse, Microsoft avait alerté en début d’année sur l’utilisation d’IA générative à l’encontre des Etats-Unis par ses adversaires principaux dans l’échiquier mondial : la Corée du Nord, l’Iran, la Russie et la Chine[8]. De par leur importance primordiale dans le paysage numérique et géopolitique, les plateformes possèdent une influence tentaculaire, dont les algorithmes facilitent la propagation de l’information ainsi que la personnalisation et le ciblage. 

Russie vs Ukraine : Zelensky appelle à déposer les armes

La diffusion massive de désinformation s’est illustrée également par la multiplicité de deepfakes qui est apparue dans les guerres d’informations de toutes natures, mais qui prend également part dans le conflit armé qui oppose la Russie à l’Ukraine.

Un deepfake correspond à du contenu multimédia (vidéo, image ou audio) généré par IA pour des canulars ou des infox. Par définition, un deepfake véhicule un contenu faux mais de haute qualité lui donnant un aspect vraisemblable. Parmi les exemples les plus connus se trouve la vidéo de 2018 de Barack Obama critiquant Donald Trump, et celle du pape qui fait de la magie.

Dans le contexte du conflit Ukraine-Russie, le deepfake du président ukrainien appelant à déposer les armes (Figure 1), rapidement débunké et désormais supprimé, illustre la diffusion massive de désinformation comme extension de l’effort de guerre. Dans ce conflit où le monde occidental prend parti, la personnalisation de la désinformation russe s’est également étendue à des publics différents. Notamment en Afrique et au Moyen-Orient, où une désinformation traditionnelle est également propagée, en attribuant par exemple l’insécurité alimentaire aux sanctions occidentales. La différence ici est la démocratisation du deepfake combinée à des technologies de ciblage dans le but d’éroder la confiance dans une institution ou une personnalité politique, mais véhiculant finalement les mêmes narratifs dans le prolongement des stratégies existantes de désinformation. 

Figure 8 : Russie et Ukraine (crédit:@ClaraFontaineSa)

Par ailleurs, dans le cas du conflit russo-ukrainien, la diffusion massive de désinformation russe a été personnalisée pour atteindre différents publics en Afrique et au Moyen Orient. Ici c’est l’alliance des deepfakes et des technologies de ciblage dans le but d’éroder la confiance dans une institution ou une personnalité politique qui est à relever, en permettant de donner une réalité aux narratifs des stratégies existantes de désinformation. 

Sur les réseaux sociaux, on trouve 15 à 20% de personnes persuadées pour ou contre une information et les 60% restants sont indécis. Ce sont eux qui vont être ciblé avec l’objectif soit de les faire changer d’avis soit de figer leur opinion, leur retirant ainsi leur capacité à prendre une décision face à l’information.

Un enjeu que l’on peut également mettre en lumière est celui du timing : par exemple, en France, des faux documents fuités la veille des élections présidentielles de 2017 cherchant à incriminer Emmanuel Macron, n’ont pas eu d’incidence majeure sur les élections de par leur caractère relativement ennuyeux et le fait qu’en France, la couverture médiatique des élections est interdite 44 heures avant le vote. Mais un deepfake partagé sur les réseaux sociaux moins de 44 h avant des élections auraient pu avoir des conséquences importantes.

Zoom sur “Inde vs Inde : un rapport de force entre ethnies?”

  Mot des autrices : Les rapports de force et les problématiques de géopolitique associées peuvent également aussi être identifiés au sein d’un même pays si celui-ci possède en interne les caractéristiques nécessaires. Faisons un zoom sur l’Inde, un pays complexe aux multiples cultures, langues et religions.  

En Inde, citoyens et politiciens ont bien compris l’intérêt de l’IA générative et l’ont pleinement intégrée dans leurs stratégies de campagne électorale. Parmi les utilisations recensées, on trouve : (i) des messages passés, personnalisés et relayés dans les différents dialectes par les candidats, (ii) des appels automatiques avec la voix des candidats pour encourager les votants en leur faveur, et (iii) une résurrection numérique d’anciens chefs d’Etat décédés pour soutenir leurs successeurs politiques. Les deepfakes ici ne sont pas perçus d’un prisme négatif et accompagnent les ambitions et la volonté de toucher une large audience. 

Leur utilisation prend ses racines à travers le cinéma bollywoodien qui cultive les mêmes motivations (i.e. large public et multilingue), allant jusqu’à créer des métiers spécialisés dans la production de fausses images et faux sons. Ces derniers ont été approchés par des partis candidats dans plusieurs buts : répandre de la désinformation à propos d’adversaires politiques mais aussi d’altérer leurs propres vidéos, en remplaçant par exemple le visage d’un candidat sur une vidéo véridique par ce même candidat afin d’altérer les caractéristiques de la vidéo (les méta-données). L’objectif ? Inciter l’opposition à partager la vidéo altérée avant de la déclarer falsifiée — et donc miner leur crédibilité. De ce fait, ces candidats anticipent la désinformation à leur égard en contrôlant — à peu près — ce qui est faux ou non, afin de s’ériger en victime et mieux contrôler l’opinion publique.

Ces dynamiques révèlent non seulement une véritable adaptation professionnelle et presque institutionnalisée des deepfakes, mais également de véritables stratégies allant au-delà d’une propagation offensive et d’un debunk défensif. C’est la raison pour laquelle le gouvernement de Narendra Modi, premier Ministre Indien, a déclaré une volonté de réguler l’IA en amont des élections législatives indiennes qui ont eu lieu cette année, revenant sur sa position de ne pas intervenir dans le secteur. 

Ce sursaut est-il à percevoir comme une crainte de perturbation électorale qui pourrait desservir son maintien au pouvoir ou comme une véritable volonté d’éviter une démocratisation de la désinformation ? 

Soulignons que ces plans de régulation ont été annoncés suite à la réponse positive de Gemini, le chatbot de Google, concernant une question portant sur le caractère fasciste de Modi (Figure 9).

 
Figure 9 : Capture d’écran twitter de Dr Ranjan concernant la réponse apportée par le chatbot Gemini. Src @X (ex-Twitter)
 

Pour en savoir plus : https://www.bbc.com/news/world-asia-india-68918330 ; https://www.wired.com/story/indian-elections-ai-deepfakes/ ; https://www.youtube.com/watch?v=V_NN13Eu8yc 

Peut-on lutter contre la désinformation ?

En résumé, à ce stade de l’étude, il semblerait que bien que ces systèmes d’IA générative n’affectent pas directement les rapports de force mondiaux, ils restent indéniablement un outil de la Guerre de l’information.

En Europe, la protection des citoyens repose en très grande partie sur la richesse et la complexité des réseaux médiatiques et la prise à bras le corps du sujet par les pouvoirs publics. 

Par exemple en France, le ministère de la culture écrit : “Les médias traditionnels, presse, radio, télévision, traversent le temps, fascinent et occupent une place à part dans nos vies. Ils sont les garants d’une information fiable dans un monde où chacun semble asséner ses vérités et ses contre-vérités.

Autrement dit, à l’heure ou les réseaux sociaux s’érigent en plateformes simplifiées d’accès instantané à une connaissance démocratisée pour le grand public – voir à tous types de connaissances, vérifié ou non, scientifique ou non -, il y a une volonté de mettre en lumière les médias traditionnels comme force et acteur d’une information “vérifiée/validée”.

Mais est-ce réellement le cas ? Les médias traditionnels sont-ils à l’abri de la désinformation par l’IA générative ? Sont-ils la solution?

Malheureusement ce n’est pas aussi simple. Du fait que les journalistes sont aussi des humains dotés de ressources cognitives limitées et de biais cognitifs, ils ne sont pas à l’abri de ne pas repérer l’information erronée ou vraisemblable cachée parmi la masse (des milliers) de contenus existants pour un sujet donné.

Or le travail de vérification – appelé aussi fact-checking en anglais- de la véracité des faits, ou d’une information, des sources de celle-ci, de sa temporalité est une partie inhérente du métier de journaliste : nécessaire, chronophage et énergivore. Des cellules spécialisées dans le repérage de la désinformation se sont de plus en plus  développées dans les rédactions de médias traditionnels afin de garantir l’information.  Mais la aussi, elles sont submergées de travail depuis déjà plusieurs années.

Sans compter que plus un sujet est complexe avec un impact sociétal important plus il nécessite de la vigilance –  elle même coûteuse au niveau cognitif – et du temps ou des moyens humains et techniques.

Face à ce sujet titanesque de recherche d’erreurs et de mensonges dans la masse d’informations diffusées chaque jour sur l’ensemble des plateformes, des partenariats journalistes-chercheuses/chercheurs se sont développés pour doter ce corps de métier d’outils d’IA et de science des données spécialisée dans la catégorisation et labellisation les contenus trouvés sur internet pour réaliser leur travail.

Si ces outils ne permettent pas d’atteindre 100% de précisions des informations, et que l’humain est toujours le paramètre incontournable et nécessaire, ils représentent néanmoins une aide précieuse pour les journalistes débutants et plus expérimentés pour s’adapter à cette ère de la consommation rapide et multi-plateforme de l’information.

Le risque de désinformation est-il écarté une fois le deepfake détecté ? 

Malheureusement, là aussi ce n’est pas aussi simple. 

Un deepfake détecté implique sa non utilisation par les médias traditionnels voir sa labellisation officielle “d’information fausse” via une communication officielle par des autorités compétentes.

Mais cela n’implique nullement sa suppression d’internet. Au contraire, cela peut renforcer dans certaines communautés, le caractère “vérité” du deepfake et certains discours complotistes. Cela peut même contribuer à leur propagation.

Autrement dit, les deepfakes qui ne sont pas assez viraux pour être immédiatement démystifiés, démenties, influencent tout de même l’opinion du public simplement parce qu’ils ne font pas la une des journaux et autres médias traditionnels. Ils peuvent donc avoir un impact immédiat sur la confiance des citoyens dans les médias et les autorités publiques. 

Les mettre de côté peut contribuer à les renforcer, ainsi que les utiliser… ils occupent ainsi le paysage médiatique et suscite le débat… Et c’est en cela qu’ils sont dangereux.

En attendant, l’organisation NewsGuard, dédiée à l’évaluation et la certification des sites web d’information,  et spécialisé dans l’analyse le degré de crédibilité et de transparence des sites d’information, conseille de procéder directement par source afin d’éviter les goulots d’étranglement dans le traitement du fact checking par articles. En 2022, l’organisation alertait sur le financement par Google de sites internet (116 identifiés) propageant des fausses informations sur la guerre en Ukraine : La situation a depuis été traitée par Google, qui affirme avoir arrêté de monétiser les médias financés par l’Etat russe sur ses plateformes et mis en pause Google Ads en Russie.

Ce financement de sites de désinformation n’est pas volontaire car les bannières publicitaires sont placées par des algorithmes, néanmoins il reflète une réalité : la vitesse des transactions et des instructions sur internet, allié à la masse de l’information à traiter font que les algorithmes peuvent promouvoir, ou ici financer de la désinformation. Selon NewsGuard, chaque année, près de 2,6 milliards de dollars (2,38 milliards d’euros) de revenus publicitaires viennent gonfler les poches des sites de désinformation.

Un des objectifs pourrait donc de faire évoluer la publicité programmatique, pratique consistant à créer des publicités numériques à l’aide d’algorithmes et à automatiser l’achat de médias, afin qu’elle puisse prendre en compte les sites de désinformation.

Que conclure?

Il faut penser la désinformation comme un problème politique, sociétal, d’éducation au numérique et non uniquement technologique.

Johan Farkas, professeur adjoint en études des médias à l’université de Copenhague, prône que « considérer l’IA comme une menace retire la responsabilité de la désinformation au système politique »

Or les guerres d’informations découlent de rapports de force complexes entre de plusieurs acteurs politiques, sociétaux et technologiques. Ils sont du fait d’acteurs bien humains car ils se caractérisent par la quantité, la qualité et la personnalisation de la désinformation, tel qu’illustré à travers les trois cas d’études cités. Une intention avec un objectif clairement établi guide les stratégies dans les contextes de guerre de l’information or l’intention, à l’heure actuelle, est une caractéristique encore très humaine.

Pour l’ensemble de ces raisons, et en accord avec la thèse de Simon, Altay et Mercier [5], l’IA générative, bien qu’elle soit un bouleversement dans nos sociétés, peut être considérée comme un nouvel outil au service de la désinformation certes, mais un outil qui ne change pas les rapports de force existants. En effet, les parties politiques et les gouvernements impliqués ont su s’adapter et intégrer cette nouvelle famille d’outils dans leur procédés et stratégies.

Alors que faire à ce stade en tant que citoyens et citoyennes d’un monde ultra-connecté face à ce risque de désinformation ?

A défaut d’apporter ou de trouver une réponse claire, nous synthétisons les résultats de nos recherches par un triptyque Éduquer les plus jeunes, Acculturer le grand public et Former les formateurs (enseignants, professionnels, etc)” à l’IA, son impact sociétal, mais également aux biais cognitifs, biais culturels dans l’information, à la littératie médiatique (désinformation, malinformation, deepfake) et à garder son esprit critique même lorsque l’information est vraisemblable!

En créant, ensemble une culture générale pluridisciplinaire accessible – avec de la médiation scientifique par exemple 😉comme avec Binaire –  au croisement du numérique et des sciences humaines et sociales, il serait alors peut-être possible de préserver les individus et sociétés sur les échiquiers des rapports de force en géopolitique.

Références 

[1] Courrier international. “Élections. IA et désinformation, le cocktail explosif à l’assaut de nos démocraties”, 2024  (date accès : 27/08/2024) URL : https://www.courrierinternational.com/article/elections-ia-et-desinformation-le-cocktail-explosif-a-l-assaut-de-nos-democraties

[2] The World Economic Forum. Global risks report 2024, 2024. 

[3] W Bennett and Steven Livingston. The disinformation age. Cambridge University Press, 2020. 

[4] Dragan Z Damjanovic. Types of information warfare ´ and examples of malicious programs of information warfare. Vojnotehnicki glasnik/Military Technical Courier, 65(4) :1044–1059, 2017. 

[5] Felix M Simon, Sacha Altay, and Hugo Mercier. Misinformation reloaded ? fears about the impact of generative ai on misinformation are overblown. Harvard Kennedy School Misinformation Review, 4(5), 2023. 

[6]   « Seeing is not believing—deepfakes and cheap fakes spread during the 2024 presidential election in Taiwan » . 台灣事實查核中心, 25 décembre 2023, tfc-taiwan.org.tw/articles/10025.

[7]  Silva, Leo Kelion &. Shiroma. « Pro-Clinton bots “fought back but outnumbered in second debate” » . BBC News, 19 octobre 2016, www.bbc.com/news/technology-37703565.

[8]  Intelligence, Microsoft Threat. « Staying ahead of threat actors in the age of AI » . Microsoft Security Blog, 3 juillet 2024, www.microsoft.com/en-us/security/blog/2024/02/14/staying-ahead-of-threat-actors-in-the-age-of-ai.

[9] Citron, D. K., & Chesney, R. (2019). Deepfakes and the new disinformation war. Foreign Affairs.https://perma.cc/TW6Z-Q97D 

Les autrices en quelques mots :

Alice Maranne est Chargée de projets européens et collaboratifs et créatrice de contenu de médiation scientifique et technologique. Clara Fontaine-Say est étudiante en géopolitique et cybersécurité, elle crée également du contenu sur ces sujets d’un point de vue sociétal.  Ikram Chraibi Kaadoud, Ambassadrice WomenTechMaker de Google,  est chercheuse en IA explicable centrée-Humain et Chargée de projet européen IA de confiance passionnée de médiation scientifique. 

 

20.09.2024 à 07:02

Le grand moissonnage des données personnelles

binaire

Solove et Hartzog viennent de publier un excellent article sur le moissonnage massif des données sur le web (« web scraping » en anglais) pour l’entraînement des systèmes d’Intelligence Artificielle et les tensions que cela génère avec les principes de la protection des données personnelles1. Cet article nous permet de revisiter la problématique du moissonnage …
Texte intégral (2769 mots)
Solove et Hartzog viennent de publier un excellent article sur le moissonnage massif des données sur le web (« web scraping » en anglais) pour l’entraînement des systèmes d’Intelligence Artificielle et les tensions que cela génère avec les principes de la protection des données personnelles1. Cet article nous permet de revisiter la problématique du moissonnage massif des données et de rappeler les travaux et consultations menés par la CNIL sur ce sujet depuis plusieurs mois2. Serge Abiteboul, Antoine Rousseau et Ikram Chraibi-Kaadoud

L’IA, en particulier l’IA générative, nécessite de vastes quantités de données pour son entraînement. Certaines de ces données sont collectées directement auprès des individus, tandis que d’autres sont obtenues via une interface de programmation d’application (API) conçue pour une extraction et un partage consensuel des données. Toutefois, la majorité des données sont obtenues par moissonnage. Le moissonnage des données sur Internet consiste à utiliser des logiciels automatisés pour extraire des informations à partir de sites web ou de réseaux sociaux.

1 https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4884485
2 https://www.cnil.fr/fr/technologies/intelligence-artificielle-ia

Moissonnage et Intelligence Artificielle

Le moissonnage de données est un outil essentiel pour les chercheurs et les journalistes qui leur permet d’accéder à des informations cruciales pour leurs projets. En collectant rapidement des données issues de multiples sources, il facilite des recherches et des études qui seraient autrement impossibles. Cette collecte massive des données semble également être essentielle pour le développement et l’amélioration des modèles d’IA, car elle fournit les vastes quantités de données nécessaires à l’entraînement des algorithmes. Par ailleurs, en diversifiant les sources de données à travers différentes régions et cultures, le moissonnage peut aussi aider à éviter les biais dans les modèles d’IA.

Il est par ailleurs souvent avancé que ce moissonnage permet aux petites entreprises de rivaliser avec les grandes plateformes en facilitant l’accès à des informations, ce qui stimule la concurrence, l’innovation et la diversité technologique. Comme le souligne l’autorité de la concurrence dans son rapport sur l’IA générative3, les données, qu’elles soient textuelles, visuelles ou vidéo, sont essentielles pour les modèles de langage et proviennent principalement de sources publiques comme les pages web ou les archives web telles que Common Crawl4.

3 https://www.autoritedelaconcurrence.fr/fr/communiques-de-presse/intelligence-artificielle-generative-lautorite-rend-son-avis-sur-le
4 https://foundation.mozilla.org/en/research/library/generative-ai-training-data/common-crawl/

Moissonnage et vie privée

Bien que le moissonnage offre des avantages importants, il pose de nombreuses questions : protection du secret des affaires, secret industriel, propriété intellectuelle, rétribution des ayants droits et vie privée.

En ce qui concerne la protection de la vie privée, qui nous intéresse ici, le vaste moissonnage des données personnelles soulève des questions inédites. Comme le rappelle la CNIL, “La généralisation des pratiques de moissonnage a ainsi opéré un changement de nature quant à l’utilisation d’internet, dans la mesure où toutes les données publiées en ligne par une personne sont désormais susceptibles d’être lues, collectées et réutilisées par des tiers, ce qui constitue un risque important et inédit pour les personnes5.”

En effet, l’ampleur de ce moissonnage est sans précédent – la quantité de données, notamment de données personnelles, collectées par chaque moissonneur est stupéfiante.
Par exemple, OpenAI a certainement moissonné une partie non négligeable du Web et utilisé ces données pour entraîner les modèles GPT qui sous-tendent notamment ChatGPT. Des entreprises comme ClearviewAI et PimEyes ont moissonné des milliards de photos pour alimenter des outils de reconnaissance faciale. De nouvelles entreprises d’IA apparaissent à un rythme effarant, chacune ayant un appétit vorace pour les données.

Il est important de rappeler que, dans la plupart des juridictions et notamment en Europe, les données personnelles « publiquement disponibles » sur internet sont soumises aux lois sur la protection des données et la vie privée, notamment le RGPD (règlement général sur la protection des données). Les individus et les entreprises qui moissonnent ces informations personnelles ont donc la responsabilité de s’assurer qu’ils respectent les réglementations applicables. Par ailleurs, les entreprises de médias sociaux et les opérateurs d’autres sites web qui hébergent des données personnelles accessibles au public ont également des obligations de protection des données en ce qui concerne le moissonnage par des tiers sur leurs sites.

5 https://www.cnil.fr/fr/focus-interet-legitime-collecte-par-moissonnage

La consultation de la CNIL

La CNIL a régulièrement souligné la nécessité de vigilance concernant les pratiques de moissonnage et a formulé des recommandations pour leur mise en œuvre6. Elle a également demandé à plusieurs reprises un cadre législatif spécifique pour ces pratiques qui permettrait de sécuriser les organismes utilisant ces pratiques, de les encadrer, et de protéger les données personnelles accessibles en ligne7. La CNIL a parfois jugé ces pratiques illégales en l’absence d’un cadre juridique, par exemple lorsque utilisées par des autorités pour détecter des infractions ou lorsque des données sensibles sont collectées8. Cependant, elles ont été acceptées dans certains cas, comme la recherche de fuites d’informations sur Internet, à condition de mettre en place des garanties solides9. En attendant un cadre juridique spécifique, la CNIL rappelle les obligations des responsables de traitement et les conditions à respecter pour le développement de systèmes d’IA.

6 https://www.cnil.fr/fr/focus-interet-legitime-collecte-par-moissonnage
7 https://www.legifrance.gouv.fr/jorf/id/JORFTEXT000047624863
8 https://www.cnil.fr/fr/reconnaissance-faciale-sanction-de-20-millions-deuros-lencontre-de-clearview-ai
9 https://www.cnil.fr/fr/la-recherche-sur-internet-de-fuites-dinformations-rifi

Alors que certains chercheurs, comme Solove et Hartzog, proposent de limiter le moissonnage uniquement aux projets d’intérêt public, le RGPD autorise, sous certaines
conditions, le moissonnage en cas d’intérêt légitime du moissonneur10. Le recours à cette base légale suppose que les intérêts (commerciaux, de sécurité des biens, etc.)
poursuivis par l’organisme traitant les données ne créent pas de déséquilibre au détriment des droits et intérêts des personnes dont les données sont traitées11. Le responsable du traitement doit notamment mettre en place des garanties supplémentaires pour protéger les droits et libertés des individus. La CNIL, dans sa fiche sur l’utilisation de l’intérêt légitime pour développer des systèmes d’IA, souligne que les mesures appropriées varient selon l’usage de l’IA et son impact sur les personnes concernées12. Elle recommande d’exclure la collecte de données à partir de sites sensibles ou s’opposant au moissonnage, et de créer une « liste repoussoir » permettant aux individus de s’opposer à la collecte de leurs données. La collecte doit se limiter aux données librement accessibles et rendues publiques intentionnellement.
De plus, il est conseillé d’anonymiser ou de pseudonymiser les données immédiatement après leur collecte, de diffuser largement les informations relatives à la collecte et aux droits des personnes, et de prévenir le recoupement des données en utilisant des pseudonymes aléatoires propres à chaque contenu.

10 D’autres bases légales, comme le consentement ou la mission d’intérêt public, sont aussi envisageables.
11 https://www.cnil.fr/fr/les-bases-legales/interet-legitime
12 https://www.cnil.fr/fr/focus-interet-legitime-collecte-par-moissonnage

Rendre le moissonnage techniquement plus difficile

Comme mentionné précédemment, les hébergeurs de données personnelles accessibles au public ont également des obligations de protection des données en ce qui concerne le moissonnage. Par exemple, plusieurs autorités de protection des données (APD) du monde entier ont soutenu, dans une déclaration conjointe sur le moissonnage, que les entreprises devraient mettre en œuvre des contrôles techniques et procéduraux multicouches pour atténuer les risques associés à cette pratique13. Ces APD indiquent que les sites web devraient mettre en œuvre des contrôles techniques et procéduraux multicouches pour atténuer les risques. Une combinaison de ces contrôles devrait être utilisée en fonction de la sensibilité des informations. Certaines de ces mesures de protection seraient la limitation du nombre de visites par heure ou par jour pour un seul compte, la surveillance des activités inhabituelles pouvant indiquer un moissonnage frauduleux et la limitation de l’accès en cas de détection, la prise de mesures affirmatives pour détecter et limiter les bots, comme l’implémentation de CAPTCHAs et le blocage des adresses IP, ainsi que la menace ou la prise de mesures légales appropriées et la notification des individus concernés. Des recommandations similaires ont récemment été faites par la CNIL Italienne14. Bien entendu, les grandes plateformes telles que Facebook, X (anciennement Twitter), Reddit, LinkedIn, n’ont pas attendu ces recommandations pour mettre en place des mesures pour limiter le moissonnage. Par exemple, récemment X a constaté des « niveaux extrêmes de moissonnage de données » et a pris des mesures pour le limiter aux moissonneurs connectés15.

13 https://ico.org.uk/media/about-the-ico/documents/4026232/joint-statement-data-scraping-202308.pdf
14 https://www.garanteprivacy.it/home/docweb/-/docweb-display/docweb/10019984#english
15 https://www.socialmediatoday.com/news/twitter-implements-usage-limits-combat-data-scrapers/

Pour Conclure…

Le moissonnage de données est un sujet complexe qui suscite de nombreuses questions et débats. Dans ce contexte, la consultation de la CNIL est cruciale, et il est essentiel que chacun puisse s’exprimer sur ce sujet sensible. Comme le souligne cet article, il est difficile de tout interdire ou de tout autoriser sans discernement.

La clé réside dans un compromis basé sur la transparence et le respect des droits des individus. Il est indispensable que les utilisateurs soient clairement informés des campagnes de moissonnage, de leurs objectifs et de leur droit de s’y opposer. A cette fin, la CNIL propose, dans sa dernière consultation, l’idée de créer un registre sur son site où les organisations utilisant des données collectées par moissonnage pour le développement de systèmes d’IA pourraient s’inscrire. Par ailleurs, chacun a un rôle à jouer en contrôlant les informations qu’il publie en ligne, ce qui souligne le besoin d’une éducation et d’une sensibilisation accrues sur la gestion des données personnelles.

Pour reprendre les mots de Solove et Hartzog, le moissonnage de données devrait être perçu comme un « privilège » qui impose des responsabilités aux moissonneurs. Cela signifie qu’une attention particulière doit être portée au principe de la minimisation des données si cher au RGPD16, à la sécurité des données collectées et au respect des droits des utilisateurs. Une telle approche permettra de trouver un équilibre juste et équitable, garantissant à la fois la protection de la vie privée et le développement responsable de l’Intelligence Artificielle. Finalement, le développement de « l’IA frugale17 » qui consiste à développer des plus petits modèles, utilisant notamment moins de données d’entrainement mais de meilleure qualité, apporte des perspectives intéressantes en termes de protection de nos données.

Claude Castelluccia, Directeur de recherche chez Inria, au sein de l’équipe Privatics de Grenoble, et commissaire à la CNIL en charge de l’Intelligence Artificielle.

16 https://www.cnil.fr/fr/reglement-europeen-protection-donnees/chapitre2#Article5
17 https://www.univ-grenoble-alpes.fr/actualites/the-conversation/sciences/the-conversation-l-ia-peut-elle-vraiment-etre-frugale–1428627.kjsp

La Fenaison, Julien Dupré, ©domaine public,  dont de Justina G. Catlin en mémoire de son mari, Daniel Catlinau St. Louis Art Museum, partagé par sur https://www.slam.org/collection/objects/10758 Contrairement au moissonnage des céréales qui est un bien rival, nos données personnelles peuvent être moissonnées indéfiniment. Il est donc légitime de garder un contrôle sur leur usage, y compris quand ces données sont disponibles en ligne.
12 / 20
 Persos A à L
Mona CHOLLET
Anna COLIN-LEBEDEV
Julien DEVAUREIX
Cory DOCTOROW
EDUC.POP.FR
Marc ENDEWELD
Michel GOYA
Hubert GUILLAUD
Gérard FILOCHE
Alain GRANDJEAN
Hacking-Social
Samuel HAYAT
Dana HILLIOT
François HOUSTE
Tagrawla INEQQIQI
Infiltrés (les)
Clément JEANNEAU
Paul JORION
Michel LEPESANT
Frédéric LORDON
Blogs persos du Diplo
LePartisan.info
 
 Persos M à Z
Henri MALER
Christophe MASUTTI
Romain MIELCAREK
Richard MONVOISIN
Corinne MOREL-DARLEUX
Fabrice NICOLINO
Timothée PARRIQUE
Emmanuel PONT
VisionsCarto
Yannis YOULOUNTAS
Michaël ZEMMOUR
 
  Numérique
Binaire [Blogs Le Monde]
Christophe DESCHAMPS
Louis DERRAC
Olivier ERTZSCHEID
Olivier EZRATY
Framablog
Francis PISANI
Pixel de Tracking
Irénée RÉGNAULD
Nicolas VIVANT
 
  Collectifs
Arguments
Bondy Blog
Dérivation
Dissidences
Mr Mondialisation
Palim Psao
Paris-Luttes.info
ROJAVA Info
 
  Créatifs / Art / Fiction
Nicole ESTEROLLE
Julien HERVIEUX
Alessandro PIGNOCCHI
XKCD
🌓