Blogs Le Monde - L'informatique : science et technique au coeur du numérique
04.10.2024 à 07:39
La plus grande panne informatique de tous les temps, en attendant la prochaine
binaire
Texte intégral (1614 mots)
Qui mieux que Rachid Guerraoui, un ami de binaire, pour nous parler de la grande panne informatique. Rachid est professeur d’informatique à l’École Polytechnique Fédérale de Lausanne (EPFL) et membre du comité de pilotage du Collège of Computing à l’UM6P. Il a été chercheur aux laboratoires Hewlett Packard de la Silicon Valley et professeur invité au MIT et au Collège de France. Serge Abiteboul et Pierre Paradinas.
Dans le film La Grande Vadrouille, Bourvil vole un uniforme de colonel allemand dans le hammam de la mosquée de Paris pour sauver un pilote britannique caché à l’opéra. Lors d’une représentation de Berlioz dirigée par De Funès devant les hauts gradés allemands, Bourvil, vêtu de son uniforme, accède aux coulisses sans être inquiété. La réalité dépasse parfois la fiction. En avril 2024, des malfrats ont dévalisé les habitants d’une petite commune française grâce à un stratagème ingénieux : l’un d’eux se faisait passer pour un plombier venu vérifier des fuites d’eau, puis ses complices, déguisés en policiers, prétendaient enquêter sur ce faux plombier pour accéder aux coffres des victimes.
Le monde numérique, lui, nous réserve des scénarios encore plus incroyables. Le vendredi 19 juillet 2024, des « policiers » virtuels ont pris la relève de leurs prédécesseurs pour mieux protéger les systèmes informatiques : aéroports, banques, hôpitaux, médias, administrations et entreprises. Leur mission : détecter d’éventuels intrus et les bloquer. Mais ces nouveaux « policiers », une fois introduits dans le cœur des systèmes, les ont bloqués au lieu de les protéger. Près de dix millions d’ordinateurs se sont arrêtés, entraînant un chaos mondial. Avant de tirer les leçons de cette panne informatique sans précédent, posons-nous quelques questions : Qui sont ces « policiers » ? Qui les a envoyés ? Pourquoi ont-ils remplacé les anciens systèmes qui semblaient fonctionner correctement ? Comment ont-ils pu pénétrer le cœur des systèmes et les bloquer à une telle échelle ?
Ces « policiers » sont des segments de programmes envoyés par des messages Internet aux systèmes Windows de Microsoft. Grâce à sa solution Office 365 (Word, Excel, PowerPoint, Outlook, Skype, Teams, etc.), Microsoft est le leader mondial de la bureautique, équipant plus d’un milliard d’utilisateurs. Windows, son système d’exploitation, fait tourner la majorité des ordinateurs de la planète. Les segments de programmes visent à renforcer la sécurité de Windows en s’intégrant au système existant pour contrôler son exécution.
Les messages contenant ces programmes sont envoyés automatiquement par le logiciel Falcon Sensor, hébergé sur le cloud pour le compte de Crowdstrike, un leader mondial de la cybersécurité. Crowdstrike s’est forgé une réputation grâce à ses enquêtes sur des cyberattaques majeures. Son logiciel Falcon Sensor analyse et bloque les attaques informatiques en s’adaptant de manière autonome aux nouvelles menaces, sans intervention humaine, ce qui a séduit Microsoft.
Ces mécanismes de défense jouissent de droits élevés (sous forme de « signatures »), et aucun autre logiciel ne peut les stopper. Ils s’introduisent au cœur du système Windows et s’exécutent avant les autres applications. Toutefois, le mécanisme envoyé le 19 juillet était défaillant. Une « erreur logique » dans un fichier de configuration critique a provoqué une « erreur physique » : des adresses mémoire ont été calculées incorrectement et affectées sans vérification, conduisant Windows à lancer sa procédure de blocage (« Blue Screen Of Death ») sur plus de 8 millions d’ordinateurs.
La panne a coûté plus d’un milliard de dollars. Elle aurait pu être pire, seulement 1 % des machines Windows ont été touchées, et l’envoi du mécanisme a été stoppé après 88 minutes. De nombreux vols ont été annulés, et des interventions médicales reportées, mais heureusement, aucune perte humaine n’est à déplorer.
Deux fausses bonnes idées ont été proposées par certains médias au lendemain de la panne :
- Revenir au crayon et au papier pour se passer du numérique. C’est juste est irréaliste parce que le numérique fait désormais partie intégrante de notre quotidien.
- La souveraineté numérique n’aurait pas prévenu la panne. Les États-Unis, très autonomes dans ce domaine, ont été touchés. Le fait que certains pays, comme la Chine et la Russie, s’en soient mieux sortis tient simplement à ce qu’ils n’utilisent pas Windows et Crowdstrike.
Par contre, je retiendrais au moins trois leçons de la panne :
- Le numérique est un ensemble : les données, l’IA, les réseaux, les systèmes d’exploitation, la sécurité, etc., sont interconnectés et doivent être traités de manière globale. La conception d’un logiciel doit être vérifiée de bout en bout avec des méthodes de génie logiciel. Ajouter des segments de programmes à un logiciel certifié, sans revalider l’ensemble, est une faute grave.
- La probabilité d’erreur n’est jamais nulle, même avec des tests et vérifications. Il ne faut donc pas dépendre d’une seule infrastructure. Ici, des millions de machines cruciales étaient toutes sous le même système d’exploitation et logiciel de sécurité. Espérons que les infrastructures informatiques ne dépendront plus uniquement de Microsoft et Crowdstrike à l’avenir.
- Les architectures ouvertes et décentralisées sont essentielles. La plateforme blockchain de Bitcoin, attaquée régulièrement, fonctionne sans accroc majeur depuis 2009. Bien que le code soit accessible et modifiable par tous, il ne peut être déployé que s’il est accepté par la communauté, contrairement au code fermé de Falcon Sensor, déployé de manière non transparente.
En résumé, un logiciel devrait être considéré dans son intégralité et il faudrait vérifier ses algorithmes et tester sa mise en œuvre de bout en bout ; on ne doit pas dépendre d’un seul type de logiciel pour une infrastructure. critique ; et il faudrait privilégier les architectures ouvertes et décentralisées. Le législateur pourrait imposer aux sociétés informatiques d’ouvrir leurs logiciels et d’offrir des interfaces standards pour diversifier les fournisseurs. La résilience de l’infrastructure DNS, grâce à la diversité de ses implémentations, prouve que cet objectif est réalisable.
Rachid Guerraoui, EPFL
27.09.2024 à 07:09
IA générative et désinformation : quel impact sur les rapports de force existants en géopolitique ?
binaire
Texte intégral (7571 mots)
Alice, Clara et Ikram abordent dans cet article les sujets complexes que sont l’IA générative, la désinformation, les rapports de force et la géopolitique. Ce travail pluridisciplinaire a été présenté à la journée scientifique “Société et IA” à PFIA 2024 à La Rochelle, et est disponible au lien HAL suivant. Il se veut factuel et sans jugement quelconque vis-à-vis d’un pays ou d’une communauté, à des fins d’acculturation et de médiation scientifique pour le grand public et les chercheurs en IA. Les conflits abordés ici sont non-exhaustifs et ne reflètent aucunement un ordre d’importance dans leur présentation ou une vision manichéenne quelconque. Le choix a été réalisé selon la littérature et les expertises des autrices. Consciente qu’elles n’amènent pas forcément de réponses tant les sujets sont complexes et quelques lignes ne suffiraient pas à cela, elles souhaitent cependant par ces même lignes, éveiller les esprits citoyens du monde sur un sujet qui va au-delà des frontières géographiques. Cet article engage les autrices – avec leurs propres biais socio-culturels – et uniquement elles. Aucunement les institutions citées. Thierry Viéville et Pascal Guitton.
INTRODUCTION : Désinformation et Mésinformation, premier risque mondial en 2024
Janvier 2024. 19 000 électeurs taïwanais choisissent d’élire les candidats partisans de l’autonomie malgré le contexte de fortes pressions militaires de la part du Parti Communiste Chinois. Près de 15 000 contenus de désinformation auraient circulé sur les réseaux dans l’objectif d’influencer l’issue de ces élections. Au même moment sur le continent américain, Microsoft alerte sur l’utilisation d’IA générative à l’encontre des Etats-Unis par ses adversaires principaux dans l’échiquier mondial : la Corée du Nord, l’Iran, la Russie et la Chine.
L’IA générative semble permettre la création de nombreux narratifs de désinformation, de meilleure qualité et personnalisés. Mais de quelle manière influencent-ils les rapports de forces existants en géopolitique ?
Cette année plus de la moitié de la population mondiale est appelée aux urnes. Depuis plusieurs mois, les médias à travers le monde s’interrogent sur le risque pour nos démocraties et mettent en avant l’accessibilité et la facilité d’utilisation des outils d’IA générative qui circulent sur internet depuis la sortie de ChatGPT comme peut en témoigne la Figure 2.
Or les journalistes ne sont pas les seuls à s’inquiéter, l’écosystème économique mondial également. En effet, un sondage réalisé par le Forum Économique mondial a placé début 2024 la désinformation et la mésinformation – qui seront défini plus tard – comme premier risque mondial à court terme, avant même les risques climatiques extrêmes (Figure 3).
A ce stade, il est légitime de se demander “Pourquoi est-ce que l’IA générative inquiète autant ?”
Fin 2023, on a observé en France un changement de paradigme sur la perception du grand public de l’IA générative : les journaux télévisés (JT) des chaînes de télévision françaises (TF1, M6, France Info) ont commencé à aborder l’IA générative de manière régulière et cela de manière ludique, avec par exemple l’utilisation d’une image du pape en doudoune (figure 4), alors que jusque là l’IA était majoritairement abordée que lors de reportages ou de moments spécialement dédiés à la technique ou l’innovation.
Cette survenue du sujet de l’IA générative dans les JT grand public a eu pour conséquence d’acculturer et d’informer le grand public de l’émergence et du développement de ces outils tout en les sensibilisant aux fait que ces mêmes outils peuvent être utilisés pour des arnaques très réalistes et de la désinformation.
Par exemple, un exemple ludique serait l’image du Pape en doudoune. Si celle-ci peut prêter à sourire en France, elle peut paraître également vraisemblable et “fort probable” depuis l’étranger. Si par exemple, dans certains pays étrangers, 20 degrés est une température très fraîche qui nécessite un manteau chaud, il est alors possible de penser que le pape François a simplement eu froid un jour d’hiver et que la photo est vraie.
Vraisemblable :
|
Si cet exemple a en réalité peu d’impact sur la dimension géopolitique, il reflète néanmoins une réalité : celle qu’il est possible de profiter de la méconnaissance ou ignorance d’un public cible d’un sujet pour manipuler son comportement au travers d’une stratégie de désinformation.
Afin d’illustrer l’impact au niveau des sociétés, nous pouvons prendre l’exemple d’une image de la tour Eiffel en feu (Figure 4) diffusée sur les réseaux sociaux quelques semaines après l’incendie de notre dame de Paris. Si l’on se rappelle du contexte des manifestations des gilets jaunes quelques mois auparavant et comment elles ont été véhiculé à l’étranger, alors il est légitime de voir émerger une inquiétude hors de France (voir même sur le sol Français) en lien avec cette image vraisemblable. Une conséquence possible : une baisse/annulation des réservations touristiques à Paris!
Il existe donc un impact réel de l’IA générative au niveau individuel et par extension un impact réel au niveau des sociétés civiles, mais qu’en est-il au niveau de la géopolitique et des rapports de forces ? S’il est possible de véhiculer une information “vraisemblable” à l’étranger concernant une situation politique, militaire ou sociétale, cela peut-il impacter les dynamiques entre les pays au niveau politique ? Cela peut-il changer les rapports de force en géopolitique?
Une rapide revue de la littérature réalisée au premier semestre 2024 – beaucoup de littérature et d’analyse d’experts autour de la question du rôle et de l’impact de l’IA générative sur la diffusion de désinformation ont émergé durant cette période là – laisse entendre que deux courants se distinguent lorsqu’il s’agit d’évaluer l’impact en géopolitique : (i) ceux qui considèrent que l’IA générative est une source de danger en matière de désinformation et (ii) ceux qui considèrent que l’arrivée des systèmes génératifs ne change pas fondamentalement la donne, ni sur le plan qualitatif, ni sur le plan quantitatif.
C’est dans ce contexte que nous avons souhaité aborder la problématique suivante : Quelle est l’instrumentalisation de l’IA générative dans les dynamiques de désinformations mondiales et son impact sur les rapports de forces existants ?
Afin d’apporter des éléments de réponse à notre questionnement, nous partageons une analyse factuelle préliminaire autour de 3 rapport de forces, ainsi que la guerre de l’information sous-jacente en lien avec l’utilisation de l’IA générative et la désinformation : La Chine vs Taïwan, les États-unis vs leurs adversaires et enfin la Russie vs l’Ukraine.
Mais avant cela, il semble nécessaire de poser un cadre au travers de quelques définitions.
IA générative & désinformation, définitions
Une IA générative désigne l’ensemble de modèles de deep learning capables de générer du texte, des images et d’autres contenus de haute qualité à partir des données sur lesquelles elles ont été formées [3]. Deux caractéristiques importantes à saisir des IA génératives sont : (1) leur pouvoir de générer du contenu vraisemblable, à savoir plausible; (2) leur simplicité d’utilisation et d’accès pour tous les profils et toutes les intentions. Et c’est justement au croisement de ces deux dimensions que se trouve le danger !
La désinformation est définie comme l’acte de répandre intentionnellement une information fausse ou manipulée dans le but d’alimenter ou miner une idéologie, concernant des enjeux sociétaux, des débats politiques ou encore des conflits sociaux [1]. Se distinguant de la mésinformation et de la malinformation (figure 5) – qui consiste, respectivement en la diffusion d’informations incorrectes mais sans intention malveillante et en la diffusion délibérée de vraies informations dans un but nuisible – , la désinformation peut s’inscrire dans une dynamique de guerre de l’information.
Cette dernière est considérée comme la conduite d’« efforts ciblés » visant à entraver la prise de décision d’un adversaire en portant atteinte à l’information dans son aspect quantitatif (collecte ou entrave à la collecte d’information) aussi bien que qualitatif (propagation ou dégradation) [4].
Dans cette guerre de l’information, des rapports de force existent : ils représentent l’équilibre des pouvoirs dans le système international face aux États les plus puissants. Ils peuvent être internes par le biais de la construction de sa propre force étatique, et externes avec la recherche d’alliances.
Chine vs Taiwan : Le “système immunitaire” de Taiwan
Les outils d’IA génératives démocratisent la création de désinformation de meilleure qualité et en grande quantité.
La quantité et la qualité des narratifs sont certainement des arguments cherchant à prouver l’impact de l’IA générative dont vous avez déjà entendu parler.
Mais pour Simon, Altay et Mercier, ces arguments peuvent tout de même être nuancés [5].
“La consommation de désinformation est principalement limitée par la demande et non par l’offre.”
Il existe déjà une quantité énorme de narratifs de désinformation accessibles à tous sur internet, et ce bien avant le boum de l’IA générative. Manipuler des images, cibler des populations, créer des vidéos entretenant le flou entre réalité et fiction… Tous ces usages font déjà partie intégrante de la guerre de l’information.
Pourtant une large partie de ces contenus n’est pas consommée et une majorité d’entre nous n’y sommes pas exposés. Pourquoi cela ? car la consommation de désinformation est fonction de la demande et non pas de l’offre. Simon, Altay et Mercier argumentent leur proposition en mettant en avant, entre autres, les travaux de recherche autour de l’attention cognitive : notre capacité d’attention étant finie, le nombre de contenus pouvant devenir viraux sur internet l’est aussi.
Par ailleurs, pour que les effets de l’IA générative fassent pencher la balance en faveur de la désinformation, il faudrait une augmentation de l’attrait de la désinformation 20 à 100 fois plus importante que l’augmentation de l’attrait des contenus fiables.
Un élément clé mis en avant par les études de sciences humaines et sociales est que les consommateurs de désinformation ne sont pas plus exposés à la désinformation mais sont surtout plus enclins à la croire.
Le problème n’est pas que les gens n’ont pas accès à de l’information de qualité mais qu’ils la rejettent.
Si le fait d’être enclin à croire ou pas en la désinformation, donc d’y avoir été sensibilisé, représente un rempart contre l’efficacité de l’IA générative dans le domaine, Taïwan l’illustre avec son exposition régulière à la désinformation et le développement en interne d’un système immunitaire de réaction.
Ce système immunitaire de l’île a pu être mis à l’épreuve lors des élections présidentielles de janvier 2024. Malgrè un volume important d’environ 15 000 fausses informations propagées par la Chine, celles-ci n’ont pas eu d’incidence majeure. Cela s’explique par un contexte particulier avec des tensions historiques et une population qui s’attendait aux velléités d’ingérence chinoise.
De plus, ces élections ont été particulières non seulement pour l’enjeu considérable en pleine tension avec le Parti Communiste Chinois, mais également pour l’aspect tripartite des candidatures. Un nouveau parti, le Parti populaire taïwanais, apprécié par la jeunesse, a fait son apparition dans la course au pouvoir. Se présentant comme une alternative aux partis traditionnels bleu et vert, il promeut une vision s’alignant avec le Kuomintang, le Parti nationaliste chinois à propos d’un rapprochement économique avec la Chine, les opposant ainsi avec le Parti démocrate progressiste, parti sortant qui s’est révélé victorieux. Le candidat de ce dernier, William Lai, a été l’objet de nombre d’attaques à but de désinformation au préalable des élections. L’une d’entre elles, provenant d’une chaîne YouTube relayant du contenu politique, a posté une vidéo où le candidat du camp présidentiel fait l’éloge d’une alliance entre bleu et blanc, indiquant qu’un binôme qui en serait issu, “qu’importe lequel est président ou vice-président, n’importe quelle combinaison peut être une bonne équipe.”[6]
La volonté de la Chine est également d’amener l’opinion publique taïwanaise vers l’unification voulue par le Parti avec la diffusion de narratifs visant à dépeindre un portrait négatif des États-Unis. Dans les thématiques de ces narratifs générés par IA (audios et vidéos) on peut citer : les politiques gouvernementales, les relations entre les deux rives du détroit et la suspicion à l’égard des États-Unis. La puissance américaine est désignée comme un ennemi, une tactique de propagande traditionnelle, ce qui fait que si l’IA exacerbe effectivement des dynamiques de désinformations existantes, elle n’en change pas fondamentalement les mécaniques. Si l’IA générative n’augmente pas la demande de désinformation, alors l’augmentation de l’offre ne peut avoir que peu d’impact.
La stratégie longue-termiste de la Chine passe notamment par TikTok pour atteindre les jeunes générations taïwanaises. Si l’IA générative permet ici d’exacerber des dynamiques de désinformations, ces dernières étaient déjà existantes. Cette technologie ne semble donc pas changer fondamentalement les mécaniques existantes de la désinformation[4]. C’est l’alliance de l’IA générative et des plate-formes de diffusion, ou médias alternatifs, qui joue un rôle important dans la propagation rapide et efficace de cette désinformation.
Les États-Unis vs leur adversaires : La guerre des bots
Les narratifs de désinformation, qu’importe leur qualité et leur quantité, ne pourraient trouver leur public cible sans moyens de diffusion. Au-delà de médias plus ou moins affiliés à des Etats, les plateformes en elles-mêmes représentent des actrices à part entière d’évènements sociaux et politiques, comme lors du Printemps arabe, des Gilets Jaunes ou plus récemment l’assaut du Capitole.
Les préoccupations quant à leur responsabilisation, notamment dans la propagation des informations, étaient présentes bien avant que l’IA générative ne soit démocratisée.
Les inquiétudes s’intensifient face à la nouveauté de la technologie et aux nombreux enjeux électoraux de cette année mais ces plateformes ont toujours agit comme des “caisses de résonance” pour les vidéos émotionnelles qui y deviennent virales. Lors des élections de 2016 opposant Hillary Clinton à Donald Trump, une guerre d’influence se menait hors des plateaux télévisés. Des messages postés en masse par des bots – logiciels qui exécutent des tâches automatisées, répétitives et prédéfinies – sur les réseaux sociaux ont été répandus en faveur des deux candidats, profitant notamment des bulles d’activité des internautes sur les sujets de politiques après des débats diffusés. Leur activité et réactivité intensives se mêlent donc aux fervents soutiens des partis opposés, facilitant l’intrusion de fausses informations entre deux opinions. Leur viralité sur les réseaux sociaux, en plus de servir des causes politiques, peuvent également générer du trafic profitable pour les plateformes, dont une modération accentuée est attendue de leur part sur ces sujets[7].
On y retrouve les dynamiques propres à la guerre de l’information dans son aspect qualitatif, notamment à travers la collaboration entre plateformes et États, un exemple notoire étant la surveillance de masse initiée par les agences gouvernementales américaines. En ce sens, on décèle des rapports de force autant dans le volet offensif que défensif, bien qu’ils soient de nature asymétrique dans leur portée. Au sein des instances occidentales, TikTok alarme par son lien étroit avec le Parti Communiste Chinois, qui fait de la plateforme une caisse de résonance considérable face à la popularité des plateformes américaines.
A l’inverse, Microsoft avait alerté en début d’année sur l’utilisation d’IA générative à l’encontre des Etats-Unis par ses adversaires principaux dans l’échiquier mondial : la Corée du Nord, l’Iran, la Russie et la Chine[8]. De par leur importance primordiale dans le paysage numérique et géopolitique, les plateformes possèdent une influence tentaculaire, dont les algorithmes facilitent la propagation de l’information ainsi que la personnalisation et le ciblage.
Russie vs Ukraine : Zelensky appelle à déposer les armes
La diffusion massive de désinformation s’est illustrée également par la multiplicité de deepfakes qui est apparue dans les guerres d’informations de toutes natures, mais qui prend également part dans le conflit armé qui oppose la Russie à l’Ukraine.
Un deepfake correspond à du contenu multimédia (vidéo, image ou audio) généré par IA pour des canulars ou des infox. Par définition, un deepfake véhicule un contenu faux mais de haute qualité lui donnant un aspect vraisemblable. Parmi les exemples les plus connus se trouve la vidéo de 2018 de Barack Obama critiquant Donald Trump, et celle du pape qui fait de la magie.
Dans le contexte du conflit Ukraine-Russie, le deepfake du président ukrainien appelant à déposer les armes (Figure 1), rapidement débunké et désormais supprimé, illustre la diffusion massive de désinformation comme extension de l’effort de guerre. Dans ce conflit où le monde occidental prend parti, la personnalisation de la désinformation russe s’est également étendue à des publics différents. Notamment en Afrique et au Moyen-Orient, où une désinformation traditionnelle est également propagée, en attribuant par exemple l’insécurité alimentaire aux sanctions occidentales. La différence ici est la démocratisation du deepfake combinée à des technologies de ciblage dans le but d’éroder la confiance dans une institution ou une personnalité politique, mais véhiculant finalement les mêmes narratifs dans le prolongement des stratégies existantes de désinformation.
Par ailleurs, dans le cas du conflit russo-ukrainien, la diffusion massive de désinformation russe a été personnalisée pour atteindre différents publics en Afrique et au Moyen Orient. Ici c’est l’alliance des deepfakes et des technologies de ciblage dans le but d’éroder la confiance dans une institution ou une personnalité politique qui est à relever, en permettant de donner une réalité aux narratifs des stratégies existantes de désinformation.
Sur les réseaux sociaux, on trouve 15 à 20% de personnes persuadées pour ou contre une information et les 60% restants sont indécis. Ce sont eux qui vont être ciblé avec l’objectif soit de les faire changer d’avis soit de figer leur opinion, leur retirant ainsi leur capacité à prendre une décision face à l’information.
Un enjeu que l’on peut également mettre en lumière est celui du timing : par exemple, en France, des faux documents fuités la veille des élections présidentielles de 2017 cherchant à incriminer Emmanuel Macron, n’ont pas eu d’incidence majeure sur les élections de par leur caractère relativement ennuyeux et le fait qu’en France, la couverture médiatique des élections est interdite 44 heures avant le vote. Mais un deepfake partagé sur les réseaux sociaux moins de 44 h avant des élections auraient pu avoir des conséquences importantes.
Zoom sur “Inde vs Inde : un rapport de force entre ethnies?”
En Inde, citoyens et politiciens ont bien compris l’intérêt de l’IA générative et l’ont pleinement intégrée dans leurs stratégies de campagne électorale. Parmi les utilisations recensées, on trouve : (i) des messages passés, personnalisés et relayés dans les différents dialectes par les candidats, (ii) des appels automatiques avec la voix des candidats pour encourager les votants en leur faveur, et (iii) une résurrection numérique d’anciens chefs d’Etat décédés pour soutenir leurs successeurs politiques. Les deepfakes ici ne sont pas perçus d’un prisme négatif et accompagnent les ambitions et la volonté de toucher une large audience. Leur utilisation prend ses racines à travers le cinéma bollywoodien qui cultive les mêmes motivations (i.e. large public et multilingue), allant jusqu’à créer des métiers spécialisés dans la production de fausses images et faux sons. Ces derniers ont été approchés par des partis candidats dans plusieurs buts : répandre de la désinformation à propos d’adversaires politiques mais aussi d’altérer leurs propres vidéos, en remplaçant par exemple le visage d’un candidat sur une vidéo véridique par ce même candidat afin d’altérer les caractéristiques de la vidéo (les méta-données). L’objectif ? Inciter l’opposition à partager la vidéo altérée avant de la déclarer falsifiée — et donc miner leur crédibilité. De ce fait, ces candidats anticipent la désinformation à leur égard en contrôlant — à peu près — ce qui est faux ou non, afin de s’ériger en victime et mieux contrôler l’opinion publique. Ces dynamiques révèlent non seulement une véritable adaptation professionnelle et presque institutionnalisée des deepfakes, mais également de véritables stratégies allant au-delà d’une propagation offensive et d’un debunk défensif. C’est la raison pour laquelle le gouvernement de Narendra Modi, premier Ministre Indien, a déclaré une volonté de réguler l’IA en amont des élections législatives indiennes qui ont eu lieu cette année, revenant sur sa position de ne pas intervenir dans le secteur. Ce sursaut est-il à percevoir comme une crainte de perturbation électorale qui pourrait desservir son maintien au pouvoir ou comme une véritable volonté d’éviter une démocratisation de la désinformation ? Soulignons que ces plans de régulation ont été annoncés suite à la réponse positive de Gemini, le chatbot de Google, concernant une question portant sur le caractère fasciste de Modi (Figure 9). Pour en savoir plus : https://www.bbc.com/news/world-asia-india-68918330 ; https://www.wired.com/story/indian-elections-ai-deepfakes/ ; https://www.youtube.com/watch?v=V_NN13Eu8yc |
Peut-on lutter contre la désinformation ?
En résumé, à ce stade de l’étude, il semblerait que bien que ces systèmes d’IA générative n’affectent pas directement les rapports de force mondiaux, ils restent indéniablement un outil de la Guerre de l’information.
En Europe, la protection des citoyens repose en très grande partie sur la richesse et la complexité des réseaux médiatiques et la prise à bras le corps du sujet par les pouvoirs publics.
Par exemple en France, le ministère de la culture écrit : “Les médias traditionnels, presse, radio, télévision, traversent le temps, fascinent et occupent une place à part dans nos vies. Ils sont les garants d’une information fiable dans un monde où chacun semble asséner ses vérités et ses contre-vérités.”
Autrement dit, à l’heure ou les réseaux sociaux s’érigent en plateformes simplifiées d’accès instantané à une connaissance démocratisée pour le grand public – voir à tous types de connaissances, vérifié ou non, scientifique ou non -, il y a une volonté de mettre en lumière les médias traditionnels comme force et acteur d’une information “vérifiée/validée”.
Mais est-ce réellement le cas ? Les médias traditionnels sont-ils à l’abri de la désinformation par l’IA générative ? Sont-ils la solution?
Malheureusement ce n’est pas aussi simple. Du fait que les journalistes sont aussi des humains dotés de ressources cognitives limitées et de biais cognitifs, ils ne sont pas à l’abri de ne pas repérer l’information erronée ou vraisemblable cachée parmi la masse (des milliers) de contenus existants pour un sujet donné.
Or le travail de vérification – appelé aussi fact-checking en anglais- de la véracité des faits, ou d’une information, des sources de celle-ci, de sa temporalité est une partie inhérente du métier de journaliste : nécessaire, chronophage et énergivore. Des cellules spécialisées dans le repérage de la désinformation se sont de plus en plus développées dans les rédactions de médias traditionnels afin de garantir l’information. Mais la aussi, elles sont submergées de travail depuis déjà plusieurs années.
Sans compter que plus un sujet est complexe avec un impact sociétal important plus il nécessite de la vigilance – elle même coûteuse au niveau cognitif – et du temps ou des moyens humains et techniques.
Face à ce sujet titanesque de recherche d’erreurs et de mensonges dans la masse d’informations diffusées chaque jour sur l’ensemble des plateformes, des partenariats journalistes-chercheuses/chercheurs se sont développés pour doter ce corps de métier d’outils d’IA et de science des données spécialisée dans la catégorisation et labellisation les contenus trouvés sur internet pour réaliser leur travail.
Si ces outils ne permettent pas d’atteindre 100% de précisions des informations, et que l’humain est toujours le paramètre incontournable et nécessaire, ils représentent néanmoins une aide précieuse pour les journalistes débutants et plus expérimentés pour s’adapter à cette ère de la consommation rapide et multi-plateforme de l’information.
Le risque de désinformation est-il écarté une fois le deepfake détecté ?
Malheureusement, là aussi ce n’est pas aussi simple.
Un deepfake détecté implique sa non utilisation par les médias traditionnels voir sa labellisation officielle “d’information fausse” via une communication officielle par des autorités compétentes.
Mais cela n’implique nullement sa suppression d’internet. Au contraire, cela peut renforcer dans certaines communautés, le caractère “vérité” du deepfake et certains discours complotistes. Cela peut même contribuer à leur propagation.
Autrement dit, les deepfakes qui ne sont pas assez viraux pour être immédiatement démystifiés, démenties, influencent tout de même l’opinion du public simplement parce qu’ils ne font pas la une des journaux et autres médias traditionnels. Ils peuvent donc avoir un impact immédiat sur la confiance des citoyens dans les médias et les autorités publiques.
Les mettre de côté peut contribuer à les renforcer, ainsi que les utiliser… ils occupent ainsi le paysage médiatique et suscite le débat… Et c’est en cela qu’ils sont dangereux.
En attendant, l’organisation NewsGuard, dédiée à l’évaluation et la certification des sites web d’information, et spécialisé dans l’analyse le degré de crédibilité et de transparence des sites d’information, conseille de procéder directement par source afin d’éviter les goulots d’étranglement dans le traitement du fact checking par articles. En 2022, l’organisation alertait sur le financement par Google de sites internet (116 identifiés) propageant des fausses informations sur la guerre en Ukraine : La situation a depuis été traitée par Google, qui affirme avoir arrêté de monétiser les médias financés par l’Etat russe sur ses plateformes et mis en pause Google Ads en Russie.
Ce financement de sites de désinformation n’est pas volontaire car les bannières publicitaires sont placées par des algorithmes, néanmoins il reflète une réalité : la vitesse des transactions et des instructions sur internet, allié à la masse de l’information à traiter font que les algorithmes peuvent promouvoir, ou ici financer de la désinformation. Selon NewsGuard, chaque année, près de 2,6 milliards de dollars (2,38 milliards d’euros) de revenus publicitaires viennent gonfler les poches des sites de désinformation.
Un des objectifs pourrait donc de faire évoluer la publicité programmatique, pratique consistant à créer des publicités numériques à l’aide d’algorithmes et à automatiser l’achat de médias, afin qu’elle puisse prendre en compte les sites de désinformation.
Que conclure?
Il faut penser la désinformation comme un problème politique, sociétal, d’éducation au numérique et non uniquement technologique.
Johan Farkas, professeur adjoint en études des médias à l’université de Copenhague, prône que « considérer l’IA comme une menace retire la responsabilité de la désinformation au système politique » .
Or les guerres d’informations découlent de rapports de force complexes entre de plusieurs acteurs politiques, sociétaux et technologiques. Ils sont du fait d’acteurs bien humains car ils se caractérisent par la quantité, la qualité et la personnalisation de la désinformation, tel qu’illustré à travers les trois cas d’études cités. Une intention avec un objectif clairement établi guide les stratégies dans les contextes de guerre de l’information or l’intention, à l’heure actuelle, est une caractéristique encore très humaine.
Pour l’ensemble de ces raisons, et en accord avec la thèse de Simon, Altay et Mercier [5], l’IA générative, bien qu’elle soit un bouleversement dans nos sociétés, peut être considérée comme un nouvel outil au service de la désinformation certes, mais un outil qui ne change pas les rapports de force existants. En effet, les parties politiques et les gouvernements impliqués ont su s’adapter et intégrer cette nouvelle famille d’outils dans leur procédés et stratégies.
Alors que faire à ce stade en tant que citoyens et citoyennes d’un monde ultra-connecté face à ce risque de désinformation ?
A défaut d’apporter ou de trouver une réponse claire, nous synthétisons les résultats de nos recherches par un triptyque “Éduquer les plus jeunes, Acculturer le grand public et Former les formateurs (enseignants, professionnels, etc)” à l’IA, son impact sociétal, mais également aux biais cognitifs, biais culturels dans l’information, à la littératie médiatique (désinformation, malinformation, deepfake) et à garder son esprit critique même lorsque l’information est vraisemblable!
En créant, ensemble une culture générale pluridisciplinaire accessible – avec de la médiation scientifique par exemple comme avec Binaire – au croisement du numérique et des sciences humaines et sociales, il serait alors peut-être possible de préserver les individus et sociétés sur les échiquiers des rapports de force en géopolitique.
Références
[1] Courrier international. “Élections. IA et désinformation, le cocktail explosif à l’assaut de nos démocraties”, 2024 (date accès : 27/08/2024) URL : https://www.courrierinternational.com/article/elections-ia-et-desinformation-le-cocktail-explosif-a-l-assaut-de-nos-democraties
[2] The World Economic Forum. Global risks report 2024, 2024.
[3] W Bennett and Steven Livingston. The disinformation age. Cambridge University Press, 2020.
[4] Dragan Z Damjanovic. Types of information warfare ´ and examples of malicious programs of information warfare. Vojnotehnicki glasnik/Military Technical Courier, 65(4) :1044–1059, 2017.
[5] Felix M Simon, Sacha Altay, and Hugo Mercier. Misinformation reloaded ? fears about the impact of generative ai on misinformation are overblown. Harvard Kennedy School Misinformation Review, 4(5), 2023.
[6] « Seeing is not believing—deepfakes and cheap fakes spread during the 2024 presidential election in Taiwan » . 台灣事實查核中心, 25 décembre 2023, tfc-taiwan.org.tw/articles/10025.
[7] Silva, Leo Kelion &. Shiroma. « Pro-Clinton bots “fought back but outnumbered in second debate” » . BBC News, 19 octobre 2016, www.bbc.com/news/technology-37703565.
[8] Intelligence, Microsoft Threat. « Staying ahead of threat actors in the age of AI » . Microsoft Security Blog, 3 juillet 2024, www.microsoft.com/en-us/security/blog/2024/02/14/staying-ahead-of-threat-actors-in-the-age-of-ai.
[9] Citron, D. K., & Chesney, R. (2019). Deepfakes and the new disinformation war. Foreign Affairs.https://perma.cc/TW6Z-Q97D
Les autrices en quelques mots :
Alice Maranne est Chargée de projets européens et collaboratifs et créatrice de contenu de médiation scientifique et technologique. Clara Fontaine-Say est étudiante en géopolitique et cybersécurité, elle crée également du contenu sur ces sujets d’un point de vue sociétal. Ikram Chraibi Kaadoud, Ambassadrice WomenTechMaker de Google, est chercheuse en IA explicable centrée-Humain et Chargée de projet européen IA de confiance passionnée de médiation scientifique.
20.09.2024 à 07:02
Le grand moissonnage des données personnelles
binaire
Continuer la lecture de « Le grand moissonnage des données personnelles »
Texte intégral (2769 mots)
L’IA, en particulier l’IA générative, nécessite de vastes quantités de données pour son entraînement. Certaines de ces données sont collectées directement auprès des individus, tandis que d’autres sont obtenues via une interface de programmation d’application (API) conçue pour une extraction et un partage consensuel des données. Toutefois, la majorité des données sont obtenues par moissonnage. Le moissonnage des données sur Internet consiste à utiliser des logiciels automatisés pour extraire des informations à partir de sites web ou de réseaux sociaux.
1 https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4884485
2 https://www.cnil.fr/fr/technologies/intelligence-artificielle-ia
Moissonnage et Intelligence Artificielle
Le moissonnage de données est un outil essentiel pour les chercheurs et les journalistes qui leur permet d’accéder à des informations cruciales pour leurs projets. En collectant rapidement des données issues de multiples sources, il facilite des recherches et des études qui seraient autrement impossibles. Cette collecte massive des données semble également être essentielle pour le développement et l’amélioration des modèles d’IA, car elle fournit les vastes quantités de données nécessaires à l’entraînement des algorithmes. Par ailleurs, en diversifiant les sources de données à travers différentes régions et cultures, le moissonnage peut aussi aider à éviter les biais dans les modèles d’IA.
Il est par ailleurs souvent avancé que ce moissonnage permet aux petites entreprises de rivaliser avec les grandes plateformes en facilitant l’accès à des informations, ce qui stimule la concurrence, l’innovation et la diversité technologique. Comme le souligne l’autorité de la concurrence dans son rapport sur l’IA générative3, les données, qu’elles soient textuelles, visuelles ou vidéo, sont essentielles pour les modèles de langage et proviennent principalement de sources publiques comme les pages web ou les archives web telles que Common Crawl4.
3 https://www.autoritedelaconcurrence.fr/fr/communiques-de-presse/intelligence-artificielle-generative-lautorite-rend-son-avis-sur-le
4 https://foundation.mozilla.org/en/research/library/generative-ai-training-data/common-crawl/
Moissonnage et vie privée
Bien que le moissonnage offre des avantages importants, il pose de nombreuses questions : protection du secret des affaires, secret industriel, propriété intellectuelle, rétribution des ayants droits et vie privée.
En ce qui concerne la protection de la vie privée, qui nous intéresse ici, le vaste moissonnage des données personnelles soulève des questions inédites. Comme le rappelle la CNIL, “La généralisation des pratiques de moissonnage a ainsi opéré un changement de nature quant à l’utilisation d’internet, dans la mesure où toutes les données publiées en ligne par une personne sont désormais susceptibles d’être lues, collectées et réutilisées par des tiers, ce qui constitue un risque important et inédit pour les personnes5.”
En effet, l’ampleur de ce moissonnage est sans précédent – la quantité de données, notamment de données personnelles, collectées par chaque moissonneur est stupéfiante.
Par exemple, OpenAI a certainement moissonné une partie non négligeable du Web et utilisé ces données pour entraîner les modèles GPT qui sous-tendent notamment ChatGPT. Des entreprises comme ClearviewAI et PimEyes ont moissonné des milliards de photos pour alimenter des outils de reconnaissance faciale. De nouvelles entreprises d’IA apparaissent à un rythme effarant, chacune ayant un appétit vorace pour les données.
Il est important de rappeler que, dans la plupart des juridictions et notamment en Europe, les données personnelles « publiquement disponibles » sur internet sont soumises aux lois sur la protection des données et la vie privée, notamment le RGPD (règlement général sur la protection des données). Les individus et les entreprises qui moissonnent ces informations personnelles ont donc la responsabilité de s’assurer qu’ils respectent les réglementations applicables. Par ailleurs, les entreprises de médias sociaux et les opérateurs d’autres sites web qui hébergent des données personnelles accessibles au public ont également des obligations de protection des données en ce qui concerne le moissonnage par des tiers sur leurs sites.
5 https://www.cnil.fr/fr/focus-interet-legitime-collecte-par-moissonnage
La consultation de la CNIL
La CNIL a régulièrement souligné la nécessité de vigilance concernant les pratiques de moissonnage et a formulé des recommandations pour leur mise en œuvre6. Elle a également demandé à plusieurs reprises un cadre législatif spécifique pour ces pratiques qui permettrait de sécuriser les organismes utilisant ces pratiques, de les encadrer, et de protéger les données personnelles accessibles en ligne7. La CNIL a parfois jugé ces pratiques illégales en l’absence d’un cadre juridique, par exemple lorsque utilisées par des autorités pour détecter des infractions ou lorsque des données sensibles sont collectées8. Cependant, elles ont été acceptées dans certains cas, comme la recherche de fuites d’informations sur Internet, à condition de mettre en place des garanties solides9. En attendant un cadre juridique spécifique, la CNIL rappelle les obligations des responsables de traitement et les conditions à respecter pour le développement de systèmes d’IA.
6 https://www.cnil.fr/fr/focus-interet-legitime-collecte-par-moissonnage
7 https://www.legifrance.gouv.fr/jorf/id/JORFTEXT000047624863
8 https://www.cnil.fr/fr/reconnaissance-faciale-sanction-de-20-millions-deuros-lencontre-de-clearview-ai
9 https://www.cnil.fr/fr/la-recherche-sur-internet-de-fuites-dinformations-rifi
Alors que certains chercheurs, comme Solove et Hartzog, proposent de limiter le moissonnage uniquement aux projets d’intérêt public, le RGPD autorise, sous certaines
conditions, le moissonnage en cas d’intérêt légitime du moissonneur10. Le recours à cette base légale suppose que les intérêts (commerciaux, de sécurité des biens, etc.)
poursuivis par l’organisme traitant les données ne créent pas de déséquilibre au détriment des droits et intérêts des personnes dont les données sont traitées11. Le responsable du traitement doit notamment mettre en place des garanties supplémentaires pour protéger les droits et libertés des individus. La CNIL, dans sa fiche sur l’utilisation de l’intérêt légitime pour développer des systèmes d’IA, souligne que les mesures appropriées varient selon l’usage de l’IA et son impact sur les personnes concernées12. Elle recommande d’exclure la collecte de données à partir de sites sensibles ou s’opposant au moissonnage, et de créer une « liste repoussoir » permettant aux individus de s’opposer à la collecte de leurs données. La collecte doit se limiter aux données librement accessibles et rendues publiques intentionnellement.
De plus, il est conseillé d’anonymiser ou de pseudonymiser les données immédiatement après leur collecte, de diffuser largement les informations relatives à la collecte et aux droits des personnes, et de prévenir le recoupement des données en utilisant des pseudonymes aléatoires propres à chaque contenu.
10 D’autres bases légales, comme le consentement ou la mission d’intérêt public, sont aussi envisageables.
11 https://www.cnil.fr/fr/les-bases-legales/interet-legitime
12 https://www.cnil.fr/fr/focus-interet-legitime-collecte-par-moissonnage
Rendre le moissonnage techniquement plus difficile
Comme mentionné précédemment, les hébergeurs de données personnelles accessibles au public ont également des obligations de protection des données en ce qui concerne le moissonnage. Par exemple, plusieurs autorités de protection des données (APD) du monde entier ont soutenu, dans une déclaration conjointe sur le moissonnage, que les entreprises devraient mettre en œuvre des contrôles techniques et procéduraux multicouches pour atténuer les risques associés à cette pratique13. Ces APD indiquent que les sites web devraient mettre en œuvre des contrôles techniques et procéduraux multicouches pour atténuer les risques. Une combinaison de ces contrôles devrait être utilisée en fonction de la sensibilité des informations. Certaines de ces mesures de protection seraient la limitation du nombre de visites par heure ou par jour pour un seul compte, la surveillance des activités inhabituelles pouvant indiquer un moissonnage frauduleux et la limitation de l’accès en cas de détection, la prise de mesures affirmatives pour détecter et limiter les bots, comme l’implémentation de CAPTCHAs et le blocage des adresses IP, ainsi que la menace ou la prise de mesures légales appropriées et la notification des individus concernés. Des recommandations similaires ont récemment été faites par la CNIL Italienne14. Bien entendu, les grandes plateformes telles que Facebook, X (anciennement Twitter), Reddit, LinkedIn, n’ont pas attendu ces recommandations pour mettre en place des mesures pour limiter le moissonnage. Par exemple, récemment X a constaté des « niveaux extrêmes de moissonnage de données » et a pris des mesures pour le limiter aux moissonneurs connectés15.
13 https://ico.org.uk/media/about-the-ico/documents/4026232/joint-statement-data-scraping-202308.pdf
14 https://www.garanteprivacy.it/home/docweb/-/docweb-display/docweb/10019984#english
15 https://www.socialmediatoday.com/news/twitter-implements-usage-limits-combat-data-scrapers/
Pour Conclure…
Le moissonnage de données est un sujet complexe qui suscite de nombreuses questions et débats. Dans ce contexte, la consultation de la CNIL est cruciale, et il est essentiel que chacun puisse s’exprimer sur ce sujet sensible. Comme le souligne cet article, il est difficile de tout interdire ou de tout autoriser sans discernement.
La clé réside dans un compromis basé sur la transparence et le respect des droits des individus. Il est indispensable que les utilisateurs soient clairement informés des campagnes de moissonnage, de leurs objectifs et de leur droit de s’y opposer. A cette fin, la CNIL propose, dans sa dernière consultation, l’idée de créer un registre sur son site où les organisations utilisant des données collectées par moissonnage pour le développement de systèmes d’IA pourraient s’inscrire. Par ailleurs, chacun a un rôle à jouer en contrôlant les informations qu’il publie en ligne, ce qui souligne le besoin d’une éducation et d’une sensibilisation accrues sur la gestion des données personnelles.
Pour reprendre les mots de Solove et Hartzog, le moissonnage de données devrait être perçu comme un « privilège » qui impose des responsabilités aux moissonneurs. Cela signifie qu’une attention particulière doit être portée au principe de la minimisation des données si cher au RGPD16, à la sécurité des données collectées et au respect des droits des utilisateurs. Une telle approche permettra de trouver un équilibre juste et équitable, garantissant à la fois la protection de la vie privée et le développement responsable de l’Intelligence Artificielle. Finalement, le développement de « l’IA frugale17 » qui consiste à développer des plus petits modèles, utilisant notamment moins de données d’entrainement mais de meilleure qualité, apporte des perspectives intéressantes en termes de protection de nos données.
Claude Castelluccia, Directeur de recherche chez Inria, au sein de l’équipe Privatics de Grenoble, et commissaire à la CNIL en charge de l’Intelligence Artificielle.
16 https://www.cnil.fr/fr/reglement-europeen-protection-donnees/chapitre2#Article5
17 https://www.univ-grenoble-alpes.fr/actualites/the-conversation/sciences/the-conversation-l-ia-peut-elle-vraiment-etre-frugale–1428627.kjsp
13.09.2024 à 08:26
Garoutzia arrive à Paris
binaire
Lire la suite (467 mots)
Après Avignon et d’autres villes de régions, « Qui a hacké Garoutzia ? » arrive à Paris. Binaire ne peut que vous conseiller d’y aller.
06.09.2024 à 07:00
[DA]vid contre Gol[IA]th : Quelle est la place de la créativité humaine dans le paysage de l’intelligence artificielle générative ?
binaire
Texte intégral (6689 mots)
Billet d’introduction: L’expression “David contre Goliath” n’a jamais semblé aussi pertinente que lorsqu’il faut décrire le combat des artistes contre les GAFAM. Cette expression souvent utilisée pour décrire un combat entre deux parties prenantes de force inégale souligne une réalité : celle de la nécessité qu’ont ressenti des artistes de différents milieux et pays de se défendre face à des géants de la tech de l’IA générative pour protéger leur oeuvres, leur passion et leur métier, pour eux et pour les générations futures. Si la Direction Artistique porte le nom de [DA]vid, alors l’IA sera notre Gol[IA]th… C’est parti pour une épopée 5.0 !
Julie Laï-Pei, femme dans la tech, a à cœur de créer un pont entre les nouvelles technologies et le secteur Culturel et Créatif, et d’en animer la communauté. Elle nous partage ici sa réflexion au croisement de ces deux domaines.
Chloé Mercier, Thierry Vieville et Ikram Chraibi Kaadoud
Comment les artistes font-ils face au géant IA, Gol[IA]th ?
A l’heure d’internet, les métiers créatifs ont connu une évolution significative de leur activité. Alors que nous sommes plus que jamais immergés dans un monde d’images, certains artistes évoluent et surfent sur la vague, alors que d’autres reviennent à des méthodes de travail plus classiques. Cependant tous se retrouvent confrontés aux nouvelles technologies et à leurs impacts direct et indirect dans le paysage de la créativité artistique.
Si les artistes, les graphistes, les animateurs devaient faire face à une concurrence sévère dans ce domaine entre eux et face à celle de grands acteurs du milieu, depuis peu (on parle ici de quelques mois), un nouveau concurrent se fait une place : l’Intelligence artificielle générative, la Gen-IA !
C’est dans ce contexte mitigé, entre écosystème mondial de créatifs souvent isolés et puissances économiques démesurées que se posent les questions suivantes :
Quelle est la place de la création graphique dans cet océan numérique ? Comment sont nourris les gros poissons de l’intelligence artificielle pour de la création et quelles en sont les conséquences ?
L’évolution des modèles d’entraînement des IA pour aller vers la Gen-AI que l’on connaît aujourd’hui
Afin qu’une intelligence artificielle soit en capacité de générer de l’image, elle a besoin de consommer une quantité importante d’images pour faire le lien entre la perception de “l’objet” et sa définition nominale. Par exemple, à la question “Qu’est-ce qu’un chat ?” En tant qu’humain, nous pouvons facilement, en quelques coup d’œil, enfant ou adulte, comprendre qu’un chat n’est pas un chien, ni une table ou un loup. Or cela est une tâche complexe pour une intelligence artificielle, et c’est justement pour cela qu’elle a besoin de beaucoup d’exemples !
Ci dessous une frise chronologique de l’évolution des modèles d’apprentissage de l’IA depuis les premiers réseaux de neurones aux Gen-IA :
En 74 ans, les modèles d’IA ont eu une évolution fulgurante, d’abord cantonnée aux sphères techniques ou celle d’entreprises très spécialisées, à récemment en quelques mois en 2023, la société civile au sens large et surtout au sens mondial.
Ainsi, en résumé, si notre IA Gol[IA]th souhaite générer des images de chats, elle doit avoir appris des centaines d’exemples d’images de chat. Même principe pour des images de voitures, des paysages, etc.
Le problème vient du fait que, pour ingurgiter ces quantités d’images pour se développer, Gol[IA]th mange sans discerner ce qu’il engloutit… que ce soit des photos libres de droit, que ce soit des oeuvres photographiques, des planches d’artwork, ou le travail d’une vie d’un artiste, Gol[IA]th ne fait pas de différence, tout n’est “que” nourriture…
Dans cet appétit gargantuesque, les questions d’éthique et de propriétés intellectuelles passent bien après la volonté de développer la meilleure IA générative la plus performante du paysage technologique. Actuellement, les USA ont bien de l’avance sur ce sujet, créant de véritables problématiques pour les acteurs de la création, alors que l’Europe essaie de normer et d’encadrer l’éthique des algorithmes, tout en essayant de mettre en place une réglementation et des actions concrètes dédiées à la question de la propriété intellectuelle, qui est toujours une question en cours à ce jour.
Faisons un petit détour auprès des différents régimes alimentaires de ce géant…
Comment sont alimentées les bases de données d’image pour les Gen-AI ?
L’alimentation des IA génératives en données d’images est une étape cruciale pour leur entraînement et leur performance. Comme tout bon géant, son régime alimentaire est varié et il sait se sustenter par différents procédés… Voici les principales sources et méthodes utilisées pour fournir les calories nécessaires de données d’images aux IA génératives :
-
Les bases de données publiques
Notre Gol[IA]th commence généralement par une alimentation saine, basée sur un des ensembles de données les plus vastes et les plus communément utilisés: par exemple, ImageNet qui est une base de données d’images annotées produite par l’organisation du même nom, à destination des travaux de recherche en vision par ordinateur. Cette dernière représente plus de 14 millions d’images annotées dans des milliers de catégories. Pour obtenir ces résultats, c’est un travail fastidieux qui demande de passer en revue chaque image pour la qualifier, en la déterminant d’après des descriptions, des mot-clefs, des labels, etc…
Entre autres, MNIST, un ensemble de données de chiffres manuscrits, couramment utilisé pour les tâches de classification d’images simples.
Dans ces ensembles de données publics, on retrouve également COCO (à comprendre comme Common Objects in COntext) qui contient plus de 330 000 images d’objets communs dans un contexte annotées, pour l’usage de la segmentation d’objets, la détection d’objets, de la légendes d’image, etc…
Plus à la marge, on retrouve la base de données CelebA qui contient plus de 200 000 images de visages célèbres avec des annotations d’attributs.
-
La collecte de données en ligne (web scraping)
Plus discutable, Gol[IA]th peut également chasser sa pitance… Pour ce faire, il peut utiliser le web scraping. Il s’agit d’un procédé d’extraction automatique d’images à partir de sites web, moteurs de recherche d’images, réseaux sociaux, et autres sources en ligne. Concrètement, au niveau technique, il est possible d’utiliser des APIs (Application Programming Interfaces) pour accéder à des bases de données d’images: il s’agit d’interfaces logicielles qui permettent de “connecter” un logiciel ou un service à un autre logiciel ou service afin d’échanger des données et des fonctionnalités. Il en existe pour Flickr, pour Google Images, et bien d’autres.
Ce procédé pose question sur le plan éthique, notamment au sujet du consentement éclairé des utilisateurs de la toile numérique : Est-ce qu’une IA a le droit d’apprendre de tout, absolument tout, ce qu’il y a en ligne ? Et si un artiste a choisi de partager ses créations sur internet, son œuvre reste-t-elle sa propriété ou devient-elle, en quelque sorte, la propriété de tous ?
Ces questions soulignent un dilemme omniprésent pour tout créatif au partage de leur œuvre sur internet : sans cette visibilité, il n’existe pas, mais avec cette visibilité, ils peuvent se faire spolier leur réalisation sans jamais s’en voir reconnaître la maternité ou paternité.
Il y a en effet peu de safe-places pour les créatifs qui permettent efficacement d’être mis en lumière tout en se prémunissant contre les affres de la copie et du vol de propriété intellectuelle et encore moins de l’appétit titanesque des géants de l’IA.
C’est à cause de cela et notamment de cette méthode arrivée sans fanfare que certains créatifs ont choisi de déserter certaines plateformes/réseaux sociaux: les vannes de la gloutonnerie de l’IA générative avaient été ouvertes avant même que les internautes et les créatifs ne puissent prendre le temps de réfléchir à ces questions. Cette problématique a été aperçue, entre autres, sur Artstation, une plateforme de présentation jouant le rôle de vitrine artistique pour les artistes des jeux, du cinéma, des médias et du divertissement. mais également sur Instagram et bien d’autres : parfois ces plateformes assument ce positionnement ouvertement, mais elles sont rares ; la plupart préfèrent enterrer l’information dans les lignes d’interminables conditions d’utilisation qu’il serait bon de commencer à lire pour prendre conscience de l’impact que cela représente sur notre “propriété numérique”.
-
Les bases de données spécialisées
Dans certains cas, Gol[IA]th peut avoir accès à des bases de données spécialisées, comprenant des données médicales (comme les scans radiographiques, IRM, et autres images médicales disponibles via des initiatives comme ImageCLEF) ou des données satellites (fournies par des agences spatiales comme la NASA et des entreprises privées pour des images de la Terre prises depuis l’espace).
-
Les données synthétiques
Au-delà des images tirées du réel, l’IA peut également être alimentée à partir d’images générées par ordinateur. La création d’images synthétiques par des techniques de rendu 3D permet de simuler des scénarios spécifiques (par exemple, de la simulation d’environnements de conduite pour entraîner des systèmes de conduite autonome), ainsi que des modèles génératifs pré-entraînés. En effet, les images générées par des modèles peuvent également servir pour l’entraînement d’un autre modèle. Mais les ressources peuvent également provenir d’images de jeux vidéo ou d’environnement de réalité virtuelle pour créer des ensembles de données (on pense alors à Unreal Engine ou Unity).
-
Les caméras et les capteurs
L’utilisation de caméras pour capturer des images et des vidéos est souvent employée dans les projets de recherche et développement, et dans une volonté de sources plus fines, de capteurs pour obtenir des images dans des conditions spécifiques, comme des caméras infrarouges pour la vision nocturne, des LIDAR pour la cartographie 3D, etc.
Toutes ces différentes sources d’approvisionnement pour Gol[IA]th sont généralement prétraitées avant d’être utilisées pour l’entraînement : normalisation, redimensionnement, augmentation des données, sont des moyens de préparation des images.
En résumé, il faut retenir que les IA génératives sont alimentées par une vaste gamme de sources de données d’images, allant des ensembles de données publiques aux données collectées en ligne, en passant par les images synthétiques et les captures du monde réel. La diversité et la qualité des données sont essentielles pour entraîner des modèles génératifs performants et capables de produire des images réalistes et variées. Cependant cette performance ne se fait pas toujours avec l’accord éclairé des auteurs des images. Il est en effet compliqué – certains diront impossible – de s’assurer que la gloutonnerie de Gol[IA]th s’est faite dans les règles avec le consentement de tous les créatifs impliqués… Un sujet d’éducation à la propriété numérique est à considérer!
Mais alors, comment [DA]vid et ses créatifs subissent cette naissance monstrueuse ?
Les métiers créatifs voient leur carnet de commande diminuer, les IA se démocratisant à une vitesse folle. [DA]vid, au delà de perdre des revenus en n’étant plus employé par des revues pour faire la couverture du magazine, se retrouve face à une concurrence déloyale : l’image générée a le même style… voir “son style”… Or pour un créatif, le style est l’œuvre du travail d’une vie, un facteur différenciant dans le paysage créatif, et le moteur de compétitivité dans le secteur… Comment faire pour maintenir son statut d’acteur de la compétitivité de l’économie alors que les clients du secteur substituent leur commande par des procédés éthiquement questionnables pour faire des économies ?
Gol[IA]th mange sans se sentir rompu, qu’il s’agisse de données libres ou protégées par des droits d’auteur, la saveur ne change pas. L’espoir de voir les tribunaux s’animer, pays après pays, sur des questionnements de violation, ou non, des lois protégeant les auteurs, s’amenuise dans certaines communautés. En attendant, les [DA]vid créatifs se retrouvent livrés à eux-mêmes, lentement dépossédés de l’espoir de pouvoir échapper au géant Gol[IA]th. Alors que l’inquiétude des artistes et des créateurs grandit à l’idée de voir une série d’algorithmes reproduire et s’accaparer leur style artistique, jusqu’à leur carrière, certains s’organisent pour manifester en occupant l’espace médiatique comme l’ont fait les acteurs en grève à Hollywood en 2023, et d’autres choisissent d’attaquer le sujet directement au niveau informatique en contactant Ben Zhao et Heather Zheng, deux informaticiens de l’Université de Chicago qui ont créé un outil appelé “Fawkes”, capable de modifier des photographies pour déjouer les IA de reconnaissance faciale.
La question s’imposant étant alors :
“Est-ce que Fawkes peut protéger notre style contre des modèles de génération d’images comme Midjourney ou Stable Diffusion ?”
Bien que la réponse immédiate soit “non”, la réflexion a guidé vers une autre solution…
“Glaze”, un camouflage en jus sur une oeuvre
Les chercheurs de l’Université de Chicago se sont penchés sur la recherche d’une option de défense des utilisateurs du web face aux progrès de l’IA. Ils ont mis au point un produit appelé “Glaze”, en 2022, un outil de protection des œuvres d’art contre l’imitation par l’IA. L’idée de postulat est simple : à l’image d’un glacis ( une technique de la peinture à l’huile consistant à poser, sur une toile déjà sèche, une fine couche colorée transparente et lisse) déposer pour désaturer les pigments “Glaze” est un filtre protecteur des créations contre les IAs.
“Glaze” va alors se positionner comme un camouflage numérique : l’objectif est de brouiller la façon dont un modèle d’IA va “percevoir” une image en la laissant inchangée pour les yeux humains.
Ce programme modifie les pixels d’une image de manière systématique mais subtile, de sorte à ce que les modifications restent discrètes pour l’homme, mais déconcertantes pour un modèle d’IA. L’outil tire parti des vulnérabilités de l’architecture sous-jacente d’un modèle d’IA, car en effet, les systèmes de Gen-AI sont formés à partir d’une quantité importante d’images et de textes descriptifs à partir desquels ils apprennent à faire des associations entre certains mots et des caractéristiques visuelles (couleurs, formes). “Ces associations cryptiques sont représentées dans des « cartes » internes massives et multidimensionnelles, où les concepts et les caractéristiques connexes sont regroupés les uns à côté des autres. Les modèles utilisent ces cartes comme guide pour convertir les textes en images nouvellement générées.” (- Lauren Leffer, biologiste et journaliste spécialisée dans les sciences, la santé, la technologie et l’environnement.)
“Glaze” va alors intervenir sur ces cartes internes, en associant des concepts à d’autres, sans qu’il n’y ait de liens entre eux. Pour parvenir à ce résultat, les chercheurs ont utilisé des “extracteurs de caractéristiques” (programmes analytiques qui simplifient ces cartes hypercomplexes et indiquent les concepts que les modèles génératifs regroupent et ceux qu’ils séparent). Les modifications ainsi faites, le style d’un artiste s’en retrouve masqué : cela afin d’empêcher les modèles de s’entraîner à imiter le travail des créateurs. “S’il est nourri d’images « glacées » lors de l’entraînement, un modèle d’IA pourrait interpréter le style d’illustration pétillante et caricatural d’un artiste comme s’il s’apparentait davantage au cubisme de Picasso. Plus on utilise d’images « glacées » pour entraîner un modèle d’imitation potentiel, plus les résultats de l’IA seront mélangés. D’autres outils tels que Mist, également destinés à défendre le style unique des artistes contre le mimétisme de l’IA, fonctionnent de la même manière.” explique M Heather Zheng, un des deux créateurs de cet outil.
Plus simplement, la Gen-AI sera toujours en capacité de reconnaître les éléments de l’image (un arbre, une toiture, une personne) mais ne pourra plus restituer les détails, les palettes de couleurs, les jeux de contrastes qui constituent le “style”, i.e., la “patte” de l’artiste.
Bien que cette méthode soit prometteuse, elle présente des limites techniques et dans son utilisation.
Face à Gol[IA]th, les [DA]vid ne peuvent que se cacher après avoir pris conscience de son arrivée : dans son utilisation, la limite de “Glaze” vient du fait que chaque image que va publier un créatif ou un artiste doit passer par le logiciel avant d’être postée en ligne.. Les œuvres déjà englouties par les modèles d’IA ne peuvent donc pas bénéficier, rétroactivement, de cette solution. De plus, au niveau créatif, l’usage de cette protection génère du bruit sur l’image, ce qui peut détériorer sa qualité et s’apercevoir sur des couleurs faiblement saturées. Enfin au niveau technique, les outils d’occultation mise à l’œuvre ont aussi leurs propres limites et leur efficacité ne pourra se maintenir sur le long terme.
En résumé, à la vitesse à laquelle évoluent les Gen-AI, “Glaze” ne peut être qu’un barrage temporaire, et malheureusement non une solution : un pansement sur une jambe gangrenée, mais c’est un des rares remparts à la créativité humaine et sa préservation.
Il faut savoir que le logiciel a été téléchargé 720 000 fois, et ce, à 10 semaines de sa sortie, ce qui montre une véritable volonté de la part des créatifs de se défendre face aux affronts du géant.
La Gen-AI prend du terrain sur la toile, les [DA]vid se retrouvent forcés à se cacher… Est-ce possible pour eux de trouver de quoi charger leur fronde ? Et bien il s’avère que la crainte a su faire naître la colère et les revendications, et les créatifs et les artistes ont décidé de se rebeller face à l’envahisseur… L’idée n’est plus de se cacher, mais bien de contre-attaquer Gol[IA]th avec les armes à leur disposition…
“Nightshade”, lorsque la riposte s’organise ou comment empoisonner l’IA ?
Les chercheurs de l’Université de Chicago vont pousser la réflexion au delà de “Glaze”, au delà de bloquer le mimétisme de style, “Nightshade” est conçu comme un outil offensif pour déformer les représentations des caractéristiques à l’intérieur même des modèles de générateurs d’image par IA…
« Ce qui est important avec Nightshade, c’est que nous avons prouvé que les artistes n’ont pas à être impuissants », déclare Zheng.
Nightshade ne se contente pas de masquer la touche artistique d’une image, mais va jusqu’à saboter les modèles de Gen-AI existants. Au-delà de simplement occulter l’intégrité de l’image, il la transforme en véritable “poison” pour Gol[IA]th en agissant directement sur l’interprétation de celui-ci. Nightshade va agir sur l’association incorrecte des idées et des images fondamentales. Il faut imaginer une image empoisonnée par “Nightshade” comme une goutte d’eau salée dans un récipient d’eau douce. Une seule goutte n’aura pas grand effet, mais chaque goutte qui s’ajoute va lentement saler le récipient. Il suffit de quelques centaines d’images empoisonnées pour reprogrammer un modèle d’IA générative. C’est en intervenant directement sur la mécanique du modèle que “Nightshade” entrave le processus d’apprentissage, en le rendant plus lent ou plus coûteux pour les développeurs. L’objectif sous-jacent serait, théoriquement, d’inciter les entreprises d’IA à payer les droits d’utilisation des images par le biais des canaux officiels plutôt que d’investir du temps dans le nettoyage et le filtrage des données d’entraînement sans licence récupérée sur le Web.
Ce qu’il faut comprendre de « Nightshade » :
- Empoisonnement des données: Nightshade fonctionne en ajoutant des modifications indétectables mais significatives aux images. Ces modifications sont introduites de manière à ne pas affecter la perception humaine de l’image mais à perturber le processus de formation des modèles d’IA. Il en résulte un contenu généré par l’IA qui s’écarte de l’art prévu ou original.
- Invisibilité: Les altérations introduites par Nightshade sont invisibles à l’œil humain. Cela signifie que lorsque quelqu’un regarde l’image empoisonnée, elle apparaît identique à l’originale. Cependant, lorsqu’un modèle d’IA traite l’image empoisonnée, il peut générer des résultats complètement différents, pouvant potentiellement mal interpréter le contenu.
- Impact: L’impact de l’empoisonnement des données de Nightshade peut être important. Par exemple, un modèle d’IA entraîné sur des données empoisonnées pourrait produire des images dans lesquelles les chiens ressemblent à des chats ou les voitures à des vaches. Cela peut rendre le contenu généré par l’IA moins fiable, inexact et potentiellement inutilisable pour des applications spécifiques.
Voici alors quelques exemples après de concepts empoisonnés :
Plus précisément, « Nightshade transforme les images en échantillons ’empoisonnés’, de sorte que les modèles qui s’entraînent sur ces images sans consentement verront leurs modèles apprendre des comportements imprévisibles qui s’écartent des normes attendues, par exemple une ligne de commande qui demande l’image d’une vache volant dans l’espace pourrait obtenir à la place l’image d’un sac à main flottant dans l’espace », indiquent les chercheurs.
Le « Data Poisoning » est une technique largement répandue. Ce type d’attaque manipule les données d’entraînement pour introduire un comportement inattendu dans le modèle au moment de l’entraînement. L’exploitation de cette vulnérabilité rend possible l’introduction de résultats de mauvaise classification.
« Un nombre modéré d’attaques Nightshade peut déstabiliser les caractéristiques générales d’un modèle texte-image, rendant ainsi inopérante sa capacité à générer des images significatives », affirment-ils.
Cette offensive tend à montrer que les créatifs peuvent impacter les acteurs de la technologie en rendant contre-productif l’ingestion massive de données sans l’accord des ayant-droits.
Plusieurs plaintes ont ainsi émané d’auteurs, accusant OpenAI et Microsoft d’avoir utilisé leurs livres pour entraîner ses grands modèles de langage. Getty Images s’est même fendu d’une accusation contre la start-up d’IA Stability AI connue pour son modèle de conversion texte-image Stable Diffusion, en Février 2023. Celle-ci aurait pillé sa banque d’images pour entraîner son modèle génératif Stable Diffusion. 12 millions d’œuvres auraient été « scrappées » sans autorisation, attribution, ou compensation financière. Cependant, il semble que ces entreprises ne puissent pas se passer d’oeuvres soumises au droit d’auteur, comme l’a récemment révélé OpenAI, dans une déclaration auprès de la Chambre des Lords du Royaume-Uni concernant le droit d’auteur, la start-up a admis qu’il était impossible de créer des outils comme le sien sans utiliser d’œuvres protégées par le droit d’auteur. Un aveu qui pourrait servir dans ses nombreux procès en cours…
Ainsi, quelle est la place de la créativité humaine dans le paysage de l’intelligence artificielle générative ?
En résumé, dans sa gloutonnerie, Gol[IA]th a souhaité engloutir les [DA]vid qui nous entourent, qui ont marqué l’histoire et ceux qui la créent actuellement, dans leur entièreté et leur complexité : en cherchant à dévorer ce qui fait leur créativité, leur style, leur patte, au travers d’une analyse de caractéristiques et de pixels, Gol[IA]th a transformé la créativité humaine qui était sa muse, son idéal à atteindre, en un ensemble de données sans sémantique, ni histoire, ni passion sous-jacente.
C’est peut être un exemple d’amour nocif à l’heure de l’IA, tel que vu par l’IA ?
Sans sous-entendre que les personnes à l’origine de l’écriture des IA génératives ne sont pas des créatifs sans passion, il est probable que la curiosité, la prouesse et l’accélération technologique ont peu à peu fait perdre le fil sur les impacts que pourrait produire un tel engouement.
A l’arrivée de cette technologie sur le Web, les artistes et les créatifs n’avaient pas de connaissance éclairée sur ce qui se produisait à l’abri de leurs regards. Cependant, les modèles d’apprentissage ont commencé à être alimentés en données à l’insu de leur ayant-droits. La protection juridique des ayant-droits n’évoluant pas à la vitesse de la technologie, les créatifs ont rapidement été acculés, parfois trop tard, les Gen-AI ayant déjà collecté le travail d’une vie. Beaucoup d’artistes se sont alors “reclus”, se retirant des plateformes et des réseaux sociaux pour éviter les vols, mais ce choix ne fut pas sans conséquence pour leur visibilité et la suite de leur carrière.
Alors que les réseaux jouaient l’opacité sur leurs conditions liées à la propriété intellectuelle, le choix a été de demander aux créatifs de se “manifester s’ils refusaient que leurs données soient exploitées”, profitant de la méconnaissance des risques pour forcer l’acceptation de condition, sans consentement éclairé. Mais la grogne est montée dans le camp des créatifs, qui commencent à être excédés par l’abus qu’ils subissent. “Glaze” fut une première réaction, une protection pour conserver l’intégrité visuelle de leur œuvre, mais face à une machine toujours plus gloutonne, se protéger semble rapidement ne pas suffire. C’est alors que “Nightshade” voit le jour, avec la volonté de faire respecter le droit des artistes, et de montrer qu’ils ne se laisseraient pas écraser par la pression des modèles.
Il est important de suivre l’évolution des droits des différents pays et de la perception des sociétés civiles dans ces pays de ce sujet car le Web, l’IA et la créativité étant sans limite géographique, l’harmonisation juridique concernant les droits d’auteur, la réglementation autour de la propriété intellectuelle, et l’éducation au numérique pour toutes et tous, vont être – ou sont peut-être déjà – un enjeu d’avenir au niveau mondial.
Rendons à César ce qui est à césar
L’équipe du « Glaze Project »
Profil X du Glaze project
Lien officiel : https://glaze.cs.uchicago.edu/
Pour avoir davantage d’informations sur Glaze et Nightshade : page officielle
Article Glaze : Shan, S., Cryan, J., Wenger, E., Zheng, H., Hanocka, R., & Zhao, B. Y. (2023). Glaze: Protecting artists from style mimicry by {Text-to-Image} models. In 32nd USENIX Security Symposium (USENIX Security 23) (pp. 2187-2204). arXiv preprint arXiv:2302.04222
Article Nightshade : Shan, S., Ding, W., Passananti, J., Zheng, H., & Zhao, B. Y. (2023). Prompt-specific poisoning attacks on text-to-image generative models. arXiv preprint arXiv:2310.13828.
A propos de l’autrice : Julie Laï-Pei, après une première vie dans le secteur artistique et narratif, a rejoint l’émulation de l’innovation en Nouvelle-Aquitaine, en tant que responsable de l’animation d’une communauté technologique Numérique auprès d’un pôle de compétitivité. Femme dans la tech et profondément attachée au secteur Culturel et Créatif, elle a à coeur de partager le résultat de sa veille et de ses recherches sur l’impact des nouvelles technologies dans le monde de la créativité.
30.08.2024 à 07:58
La vision par ordinateur à votre service
binaire
Continuer la lecture de « La vision par ordinateur à votre service »
Texte intégral (3106 mots)
Un nouvel entretien autour de l’informatique.
Gérard Medioni est un informaticien, professeur émérite d’informatique à l’université de Californie du Sud, vice-président et scientifique distingué d’Amazon. Il a des contributions fondamentales à la vision par ordinateur, en particulier à la détection 3D, à la reconstruction de surfaces et à la modélisation d’objets. Il a travaillé sur des questions fondamentales comme : Comment déduire des descriptions d’objets à partir d’images ? Comment « reconnaître » des objets que nous n’avons jamais vus ? Ses recherches ont inspiré nombre d’inventions qu’il a porté dans des startups puis chez Amazon.
Binaire : Peux-tu nous raconter brièvement comment tu es devenu professeur d’informatique à l’Université de Californie du Sud ?
GM : J’ai un parcours classique en France, en passant par le lycée Saint-Louis puis Télécom Paris. J’ai découvert l’informatique à Télécom. J’y ai écrit mon premier programme sur un ordinateur, un Iris 80. Il dessinait des figures de Moiré. J’ai découvert alors que les images pouvaient parler à tous.
Figure de Moiré, Wikipédia Commons (cliquer sur le lien pour voir l’animation)
J’étais attiré par la Californie, un peu à l’image de la chanson de Julien Clerc. J’ai candidaté dans des universités californiennes. J’ai été accepté à l’Université de Californie du Sud, à Los Angeles, dans le département d’Electrical Engineering. J’ai eu une bourse du gouvernement français. Quand je suis arrivé, le département d’informatique, minuscule alors avec seulement 3 professeurs, est venu me proposer de rejoindre ce département en tant qu’assistant.
Je me suis retrouvé assistant du Professeur Nevatia, pour le cours d’Intelligence Artificielle, un sujet qui m’était totalement étranger. J’avais deux semaines d’avance sur les étudiants. J’ai découvert alors que le meilleur moyen d’apprendre un sujet était de l’enseigner. De fil en aiguille, je suis devenu prof dans ce département.
Binaire : Peux-tu nous parler de ta recherche académique à l’Université de Californie du Sud ?
GM : Quand j’étais à Télécom, un grand professeur américain, King-Sun Fu, est venu faire un séminaire. Il nous a présenté l’image d’un cube, et nous a demandé comment un ordinateur pouvait comprendre cette image. Je ne comprenais même pas la question. Et puis, en y réfléchissant, j’ai fini par réaliser la distance qui existe entre une image, un tableau de pixels, et notre perception d’une scène en tant qu’éléments sémantiques, objets, personnes et relations ; nous reconnaissons peut-être un objet, un animal. Comment notre cerveau réalise-t-il cela ? Comment un algorithme peut-il le faire ? J’ai passé ma vie à répondre à ces questions. Elle est assez complexe pour me garantir à vie des sujets de recherche passionnants.
Le sujet est donc la vision par ordinateur qui s’intéresse à donner du sens à des images, des films, à comprendre la sémantique présente dans des nuages de points. Pour y arriver, on a développé toute une gamme de techniques. Par exemple, en observant une même scène en stéréo avec deux caméras qui capturent des images en deux dimensions à partir de points de vue légèrement différents, on peut essayer de reconstruire la troisième dimension.
Binaire : l’intelligence artificielle a-t-elle transformé ce domaine ?
GM : Elle l’a véritablement révolutionné. La vision par ordinateur obtenait de beaux résultats jusqu’en 2012, mais dans des domaines restreints, dans des environnements particuliers. Et puis, on a compris que le deep learning* ouvrait des possibilités fantastiques. Depuis, on a obtenu des résultats extraordinaires en vision par ordinateur. Je pourrais parler de cela quand on arrivera à mon travail sur Just walk out d’Amazon.
Binaire : Tu fais une belle recherche, plutôt fondamentale, avec de superbes résultats. Tu aurais pu en rester là. Qu’est-ce qui te motive pour travailler aussi sur des applications ?
GM : On voit souvent un professeur d’université comme quelqu’un qui invente un problème dans sa tour d’ivoire, et lui trouve une solution. Au final, son problème et sa solution n’intéressent pas grand monde. Ce n’est pas mon truc. J’ai toujours été attiré par les vrais problèmes. Quand les ingénieurs d’une équipe industrielle sont bloqués par un problème, qu’ils n’arrivent pas à le résoudre, ce n’est pas parce qu’ils sont médiocres, c’est souvent parce que le problème est un vrai défi, et que le cœur du sujet est un verrou scientifique. Et là, ça m’intéresse.
Pour prendre un exemple concret, j’ai travaillé plusieurs années sur l’aide à la navigation de personnes aveugles. Le système consistait en une caméra pour étudier l’environnement et de micro-moteurs dans les vestes des personnes pour leur transmettre des signaux. On a réalisé un proof of concept (preuve de concept), et cela a été un franc succès. Et puis, j’ai reçu un courriel d’une personne aveugle qui me demandait quand elle pourrait utiliser le système. Je n’ai pas pu lui répondre et j’ai trouvé cela hyper déprimant. Je voulais aller jusqu’au produit final. Pour faire cela, il fallait travailler directement avec des entreprises.
Binaire : Cela t’a donc conduit à travailler souvent avec des entreprises. Pourrais-tu nous parler de certains de tes travaux ?
GM : J’ai beaucoup travaillé avec des entreprises américaines, israéliennes, ou françaises. J’ai participé au dépôt de nombreux brevets. Une de mes grandes fiertés est d’avoir participé au développement d’une camera 3D qui se trouve aujourd’hui dans des millions de téléphones. J’ai travaillé, pour une entreprise qui s’appelait Primesense, sur une caméra très bon marché qui équipait un produit que vous connaissez peut-être, le Microsoft Kinect. Kinect est rentré dans le Guinness des records comme le consumer electronics device (appareil électronique grand public) le plus rapidement vendu massivement. Primesense a été rachetée ensuite par Apple, et aujourd’hui cette technologie équipe les caméras des Iphones. Je suis fier d’avoir participé au développement de cette technologie !
Et puis, un jour Amazon m’a contacté pour me proposer de m’embaucher pour un projet sur lequel ils ne pouvaient rien me dire. Je leur ai répondu que j’aimais mon travail de prof et que je ne cherchais pas autre chose. Ils ont insisté. Je les ai rencontrés. Et ils ont fini par me parler d’Amazon Go, des boutiques sans caissier. C’était techniquement fou, super complexe. C’était évidemment tentant. Je leur ai posé sans trop y croire des conditions dingues comme de pouvoir recruter plein de chercheurs, de monter un labo de R&D en Israël. Ils ont dit oui à tout. Je bosse pour Amazon depuis 10 ans, et j’aime ce que j’y fais.
Binaire : Pourrais-tu nous en dire un peu plus sur Amazon Go, et sur le projet suivant Just Walk Out ? Quelles étaient les difficultés ?
GM : Avec Amazon Go, le client entre dans un magasin, prend ce qu’il veut et ressort. Il ne s’arrête pas à la caisse pour payer. Les vidéos de caméras placées dans tout le magasin sont analysées en permanence. Le client présente un mode de paiement à l’entrée, auquel une signature visuelle est associée. Ainsi, le système permet de le localiser dans le magasin, de détecter quand il prend ou qu’il pose un objet, quel est cet objet. Un reçu virtuel est mis à jour automatiquement. Quand le client sort du magasin, le reçu virtuel devient un reçu définitif et le paiement s’effectue. On a testé Amazon Go en 2017 dans des magasins pour les employés d’Amazon, et puis on a ouvert au public en 2018.
Une difficulté est qu’il faut que ça fonctionne tout le temps, et pour tous les clients, avec un très bon niveau de précision. On a très peu droit à l’erreur si on ne veut pas perdre la confiance des clients.
Plutôt que de créer des magasins avec tout le métier que cela représente, Amazon a choisi dans un deuxième temps de proposer cette techno à des magasins existants pour les équiper. On est passé à Just Walk Out, il y a deux ans. On équipe aujourd’hui plus de 160 points de vente, notamment dans des stades et des aéroports.
Binaire : Pourrait-on parler maintenant du deep learning et de sa place dans ce projet ?
GM : Au début du projet, Amazon Go n’utilisait pas le deep learning. Et autour de 2012, nous avons été convaincus que cette techno apporterait des améliorations considérables. Cela a un peu été comme de changer le moteur de l’avion en plein vol. Nos équipes travaillaient avant sur des modules séparés que l’on combinait. Mais chaque modification d’un module était lourde à gérer. On est passé avec le deep learning et le end-to-end learning** à un seul module. L’apprentissage permet d’améliorer toutes les facettes de ce module en même temps. Cela n’a pas été simple de faire évoluer toutes les équipes. On y est arrivé, et cela fonctionne bien mieux, plus efficacement.
Binaire : Pourquoi cette technologie ne s’est-elle pas installée sur plus de supermarchés ?
GM : Un problème est que, dans des grandes surfaces, certains produits sont difficiles à gérer : les fruits et légumes au poids, les fleurs, le vrac… La techno s’est donc déployée dans des domaines où l’attente des clients est un vrai problème comme les évènements sportifs et culturels.
Binaire : Tu participes ensuite à la création du service d’identité biométrique Amazon One, pour faciliter le paiement et d’autres fonctions. Pourrais-tu nous dire en quoi cela consiste ?
GM : À Amazon, un souci constant est de résoudre les problèmes de nos clients. Pour Just Walk Out, c’était très clair, personne n’aime faire la queue à la caisse. Avec Amazon One, le problème est celui de valider son identité. Pour faire cela, de nombreuses méthodes peuvent être considérées : ADN, empreinte digitale, iris, etc. Nous avons choisi d’utiliser la paume de la main. On est arrivé à faire plus que de la vérification : de l’identification. On peut trouver une personne parmi des millions dans une base de données, ou détecter qu’elle n’y est pas.
Pour réaliser cela, on prend deux images : une de la surface de la paume de la main et une autre en infrarouge du réseau sanguin. Ces informations indépendantes se complémentent et identifient une personne avec une surprenante précision, 1000 fois plus précis que le visage, et 100 fois plus que les 2 iris des yeux !
Binaire : En vieillissant, ma paume ne va-t-elle pas changer ?
GM : Oui, lentement et progressivement. Mais, à chaque fois que vous utilisez le service, la signature est mise à jour. Si vous ne vous servez pas du service pendant deux ans, on vous demande de vous réidentifier.
Binaire : Et aujourd’hui, sur quoi travailles-tu ?
GM : Je travaille pour le service Prime Video d’Amazon. Nous cherchons à créer de nouvelles expériences vidéos pour le divertissement.
Binaire : Tu es resté lié à des chercheurs français. Pourrais-tu nous dire comment tu vois la différence entre la recherche en informatique aux US et en France ?
GM : L’éducation française est extraordinaire ! La qualité des chercheurs en informatique en France est excellente. Mais l’intelligence artificielle change la donne. La France avec des startups comme Mistral est à la pointe du domaine. Mais, pour rester dans la course, une infrastructure énorme est indispensable. Cela exige d’énormes investissements. Est-ce qu’ils sont là ?
Les talents existent en France. Il faut arriver à construire un cadre, des écosystèmes, dans lesquels ils puissent s’épanouir pour créer de la valeur technologique.
Binaire : Aurais-tu un conseil pour les jeunes chercheurs ?
GM : Le monde de la publication a changé fondamentalement. Les publications dans des journaux ont perdu de leur importance, car elles prennent trop de temps. Et même aujourd’hui, une publication dans une conférence arrive tard. Si on ne suit pas les prépublications comme sur arXiv, on n’est plus dans le coup.
Personne n’avait vu venir le deep learning, les large language models… On vit une révolution technologique incroyable de l’informatique et de l’intelligence artificielle. La puissance des outils qu’on développe est fantastique. Tous les domaines sont impactés, médecine, transport, agriculture, etc.
Les chercheurs vont pouvoir faire plus, beaucoup plus vite. Les jeunes chercheurs vont pouvoir obtenir des résultats dingues. Mais, il va leur falloir être très agiles !
Serge Abiteboul, Inria, & Ikram Chraibi Kaadoud, Inria
(Serge Abiteboul a étudié avec Gérard Médioni à Télécom et USC. Ils sont amis depuis.)
Pour aller plus loin
(*) Le deep learning ou « apprentissage profond » est un sous-domaine de l’intelligence artificielle qui utilise des réseaux neuronaux pour résoudre des tâches complexes.
(**) L’end-to-end learning ou « apprentissage de bout en bout » est un type de processus d’apprentissage profond dans lequel tous les paramètres sont mis au point en même temps, plutôt que séparément.
https://www.lemonde.fr/blog/binaire/les-entretiens-de-la-sif/
- Persos A à L
- Mona CHOLLET
- Anna COLIN-LEBEDEV
- Julien DEVAUREIX
- Cory DOCTOROW
- EDUC.POP.FR
- Marc ENDEWELD
- Michel GOYA
- Hubert GUILLAUD
- Gérard FILOCHE
- Alain GRANDJEAN
- Hacking-Social
- Samuel HAYAT
- Dana HILLIOT
- François HOUSTE
- Tagrawla INEQQIQI
- Infiltrés (les)
- Clément JEANNEAU
- Paul JORION
- Michel LEPESANT
- Frédéric LORDON
- Blogs persos du Diplo
- LePartisan.info
- Persos M à Z
- Henri MALER
- Christophe MASUTTI
- Romain MIELCAREK
- Richard MONVOISIN
- Corinne MOREL-DARLEUX
- Fabrice NICOLINO
- Timothée PARRIQUE
- Emmanuel PONT
- VisionsCarto
- Yannis YOULOUNTAS
- Michaël ZEMMOUR
- Numérique
- Binaire [Blogs Le Monde]
- Christophe DESCHAMPS
- Louis DERRAC
- Olivier ERTZSCHEID
- Olivier EZRATY
- Framablog
- Francis PISANI
- Pixel de Tracking
- Irénée RÉGNAULD
- Nicolas VIVANT
- Collectifs
- Arguments
- Bondy Blog
- Dérivation
- Dissidences
- Mr Mondialisation
- Palim Psao
- Paris-Luttes.info
- ROJAVA Info
- Créatifs / Art / Fiction
- Nicole ESTEROLLE
- Julien HERVIEUX
- Alessandro PIGNOCCHI
- XKCD