LePartisan.info

Comprendre la société des calculs

18.10.2024 à 07:30

Acculés dans les stéréotypes

Hubert Guillaud

Les images produites par l'IA sont la somme de toutes nos représentations qu'elles renforcent. Alors que beaucoup d'entre nous souhaiteraient mettre fin aux stéréotypes, les machinent les ravivent comme nulles autres. Reste à savoir si cela va nous servir à mieux identifier les clichés ou à nous submerger sous le conformisme.

Texte intégral (2465 mots)

Les émulations d’images produites par l’IA sont en passe de ne plus pouvoir être distinguées de celles prises depuis un appareil photo – d’autant que ceux-ci permettent également de tronquer la réalité qu’ils sont sensés saisir –, explique le photographe et historien de l’art Julian Stallabrass dans un saisissant article pour la New Left Review.

Des images pour produire le monde tel qu’il devrait être

Dans le domaine culturel, le capitalisme encourage depuis longtemps un fort conformisme, allant de formats standards à des représentations avec des variations mineures. Nous sommes cernés par une uniformité de contenus et de tons, une « faible entropie », une forme de grande « prévisibilité culturelle », qui consacre le cliché, le stéréotype, la narration sur la réalité. Les photographies numériques que nous prenons sont déjà très largement régies par des processus intégrant de l’IA. L’image ressemble de plus en plus à une fusion d’images et d’effets. Le théoricien des médias, Lev Manovich parlait très justement d’une « manipulation des surfaces » qui ressemble aux portraits de l’ère soviétique, mi-photographies mi-peintures, comme un effet de débruitage réalisés par les algorithmes pour adapter les images, la netteté, les couleurs… mais également les motifs et le sens. Dans les « améliorations » des images que produit l’IA, il n’y a pas que la forme qui est altérée, le fond aussi. Dans les innombrables couches de traitements des réseaux neuronaux, l’adaptation de la luminosité ou des couleurs ne se distingue pas des représentations, du sens ou des signifiants. « Puisqu’ils sont entraînés à prédire ce qui est probable dans une vaste base de données d’images photographiques, les IA sont en effet des machines anti-entropiques, supprimant le « bruit » ou la complexité du matériel source, lissant les surfaces et cultivant le cliché. Les images qui en résultent ressemblent à ce que la plupart des gens pensent que la photographie devrait être. » A ce que le monde devrait être.

Quand on passe une image dans les assistants d’IA, il les corrigent, les nettoient, les rendent plus « à la mode »… Mais pas seulement : par nature, l’IA ajoute du sens, issu de la moyennisation de toutes les représentations qu’elle intègre. De même, quand on demande à une IA de produire une image dans le style d’un photographe, elle parvient à produire une forme d’archétype, une forme de moyennisation du style comme de la représentation, dans des arrangements souvent prévisibles.

Dans un livre consacré à l’esthétique artificielle qu’il signe avec Manovich, le philosophe Emanuele Arielli parle très justement de « maniérisme informatique » pour évoquer les effets très conventionnels, exagérés et étrangement similaires de ces productions. Pour Julian Stallabrass, ces outils produisent des formes de clichés, de déjà-vu, neutralisés, « dépolitisés »… comme s’ils parvenaient à capturer nos préjugés et représentations, tout en les neutralisant imparfaitement, en les rendant partout très semblables. Un peu comme si nous étions coincés quelque part entre le réel et la fiction.

Images : En haut, Stallabrass convoque l’étrange déréalité produite par les productions de dall-e en convoquant un SDF, d’un homme d’affaires et d’un amateur de livres assis sur un banc. En bas, l’image d’un Mexicain dans Midjourney est forcément un homme avec sombrero, *explique le magazine Rest of the World* qui montre comment l’IA réduit nos représentations culturelles à des stéréotypes.

Stéréotypes partout

En psychologie, le déjà-vu correspond à l’impression de se souvenir d’un événement tout en pensant que ce souvenir est peut-être une illusion. Dans le domaine culturel, il évoque l’idée de mèmes avec des variations mineures… comme une forme de défaillance de la mémoire source. Ce n’est pas un hasard d’ailleurs si le déjà-vu culturel est né avec la reproduction mécanique des médias de masse. « Le sentiment de familiarité n’est pas une illusion – on l’a probablement déjà vu, peut-être plus d’une fois. Malgré tout, l’incapacité à situer le souvenir peut être dérangeante, produisant cette étrange familiarité qui est la qualité déterminante de l’étrange. » Pour le philosophe Paolo Virno, le déjà-vu est lié au cynisme, notamment à ceux qui, comme les habitués des médias sociaux, sont à la fois acteurs et spectateurs d’un état de déjà-vu collectif.

« Les images générées par le débruitage de l’IA, en particulier lorsqu’elles imitent la photographie, produisent trois types d’effets étranges : il y a l’impression de déjà-vu, ou de familiarité excessive, combinée au sentiment de douceur excessive ou de propreté excessive qui accompagne la réduction de l’entropie ; il y a des juxtapositions socialement bizarres, comme avec les nazis racialement divers de Google ; et enfin, il y a des problèmes flagrants, particulièrement marqués dans le rendu des visages et des mains. » À propos de ces problèmes, Manovich a suggéré que ce que l’on appelle IA à un moment donné est simplement une technologie inconnue. Une fois qu’elle s’installe dans une utilisation régulière et fiable, ce que l’on appelait autrefois IA sort de cette catégorie. L’un de ses exemples est l’outil de sélection automatique de Photoshop, la baguette magique, qui permet de sélectionner ou détourer des éléments le plus simplement du monde. La génération d’images par IA est actuellement nouvelle, étrange, en évolution et souvent défectueuse dans son fonctionnement anti-entropique et antibruit. Malgré tout, la trajectoire générale de l’élimination de l’entropie, et avec elle de la non-conformité culturelle, est claire.

Pour l’IA, la photographie ne semble qu’un ensemble de paramètres de « styles » obtenus par un entraînement statistique depuis des bases de données colossales d’images que les appareils photo produisent. Dans la gestion par une IA de champs statistiques aussi vastes, il n’existe pas de séparation nette entre les médias, le style et le contenu, explique encore Manovich. Le philosophe Willem Flusser, lui, était très préoccupé par ce qu’il considérait comme une tendance à l’augmentation de l’entropie dans la culture numérique, bien qu’il utilisait le terme dans le sens physique, pour exprimer sa profonde crainte de l’affaiblissement de la complexité dans une forme de mort thermique culturelle. Le danger, pensait-il, était que les entités commerciales, aidées par l’IA, réduisent la complexité des messages culturels, de sorte que « les images montreront toujours la même chose, et les gens verront toujours la même chose », et qu’un « ennui éternel et sans fin se répandra dans la société ». Pour lui, il faudrait qu’on évalue les images pour éliminer celles qui ne répondent pas à une norme de complexité minimale. C’est peut-être là où nous sommes rendus finalement : écartelés entre une culture de plus en plus normative et normalisée et ceux qui désespèrent de s’en échapper. Et il est intéressant que cette saturation des représentations se fasse au même moment où toutes les représentations dans lesquelles nous baignons sont profondément interrogées, questionnées politiquement… que ce soit à travers les enjeux de genre ou de racisme.

Avec l’IA, toutes les modifications sont activables

Nous nous dissolvons dans des archétypes, une moyennisation généralisée. Mais une moyennisation qui n’est pas sans effets concrets, comme l’expliquait dans un tweet la designer Elizabeth Laraki montrant que dans une image retouchée par l’IA pour que la taille de l’image soit plus adaptée aux spécificités requises, l’IA n’avait pas retouché l’image d’une manière neutre, mais élargi l’échancrure de son décolleté. Avec l’utilisation de l’IA, toutes les couches possibles de modifications sont activées.

*Image : en modifiant la taille de l’image, il n’y a pas que la taille qui a été modifiée…*

Aux effets statistiques sont ancrés des représentations que l’IA comme nous-mêmes prenons pour les choses elles-mêmes. Emile Durkheim parlait de « prénotions » pour parler de ces représentations schématiques et sommaires qui « défigurent le véritable aspect des choses et que nous prenons pourtant pour les choses elles-mêmes », rappelle le sociologue Denis Colombi dans son dernier livre. Ces représentations encombrant nos façons de penser, nous empêchent de percevoir le monde tel qu’il est. Bourdieu en appelait même à se détacher de ces prénotions, à nous éloigner des discours et des habitudes de pensées, à changer de regard, à nous doter de « nouveaux yeux ». Pour cela, encore nous faudrait-il pouvoir représenter le monde autrement. Mais nous n’avons pas de nouveaux yeux, nous avons désormais la somme de tous les yeux. C’est donc tout l’inverse que produisent ces images répétées à l’infini, saturées de signifiants et de significations. Dans La trahison des images, célèbre tableau de Magritte, le peintre nous invitait à nous rappeler que les représentations ne sont que des représentations. Dans la gestion par l’IA de nos représentations, il n’y a plus d’échappatoire ou d’innocence. Tout est sens. Modifier la taille de l’image, c’est accepter la modification de tous les autres éléments de sens. Le moindre détail est politique, car il est désormais la moyenne de tout le sens que nous y avons mis. Comme le disait pertinemment le spécialiste des images André Gunthert, les images générées par l’IA sont dans les clous des pratiques, elles les renforcent plus qu’elles les dénaturent ou les transforment. Dans une forme de saturation des sens. Comme si l’IA parvenait à exacerber le sens tout en l’atrophiant. Notre hypersensibilisation aux représentations risque surtout de devenir encore plus extrême à mesure que ces images se déploient. Le problème n’est pas tant la falsification du réel que ces images promettent, mais l’hypertrophie du sens qu’elles produisent. Le réel doit correspondre à sa fiction et la fiction au réel.

Dans l’excellent documentaire sur IA et cinéma de Mario Sixtus disponible sur Arte, on peut voir nombre de productions d’IA vidéo, toutes assez étranges, puissamment hallucinantes (comme celle de NiceAunties, les déstabilisant Heidi de Patrick Karpiczenko ou Alice de Justin Hackney…), mais qui derrière leurs déformations grotesques et étranges, semblent se jouer des signifiants que nous mettons dans nos images. C’est un peu comme si les clichés que les IA produisent amplifiaient surtout les nôtres, les déformant pour mieux les révéler. « L’IA est comme un outil qui permet d’explorer le subconscient de l’humanité », y explique l’artiste IA Melody Bossan. C’est un peu comme si l’IA nous plongeait dans la profondeur de nos raccourcis culturels pour mieux les révéler. Le risque, c’est qu’ils les exacerbent plus qu’ils nous permettent d’y remédier. A l’heure où nous voudrions justement les combattre, il semble paradoxal qu’émerge une machine à amplifier nos stéréotypes… A moins qu’elle ne nous serve à mieux les voir, partout où ils se glissent.

17.10.2024 à 11:15

Vers des systèmes qui connaissent le salaire que vous être prêts à accepter

Hubert Guillaud

Texte intégral (779 mots)

Avec des systèmes de calcul basés sur l’IA, il est probable que votre salaire ne soit plus assuré ! Il y a 9 ans, un chauffeur Uber pouvait gagner 60 à 85 dollars pour une course dans la banlieue de Los Angeles, quand la même course aujourd’hui ne lui rapporte que 25 à 35 dollars, explique Slate. Depuis 2022, Uber et Lyft ont renforcé leurs algorithmes pour intégrer des données individualisées pour déterminer le montant de chaque course, ce qui expliquerait l’amplification des variations de paiements entre les conducteurs, rapporte le média vidéo de défense des travailleurs More Perfect Union. Les algorithmes semblent apprendre les montants les plus bas qu’acceptent les chauffeurs pour les transformer en normes individuelles. Le prix des courses n’est plus seulement déterminé par la tension entre l’offre et la demande ou la localisation, mais de plus en plus par le comportement individuel des chauffeurs et livreurs. Le risque, c’est que « le système ne s’arrête pas aux travailleurs indépendants. Les experts affirment que la discrimination salariale algorithmique et la rémunération influencée par l’IA de manière plus générale s’infiltrent dans un nombre croissant de domaines, tels que les soins de santé, la logistique et la technologie, et pourraient bouleverser le travail tel que nous le connaissons ». Grâce aux données, les systèmes peuvent calculer la rémunération la plus basse possible que les travailleurs de chaque secteur toléreront et suggérer des incitations pour contrôler leur comportement. Les systèmes de calculs peuvent optimiser les rémunérations variables pour les réduire, mais également utiliser des données comportementales pour les ajuster plus encore, tout comme on le constate dans la tarification dynamique.

D’autres travailleurs indépendants sont soumis à cette personalisation, estime la chercheuse Veena Dubal qui parle de discrimination salariale algorithmique. Les lieux de travail adoptent de plus en plus de logiciels de gestion basés sur l’IA, qui pourraient influencer indirectement les salaires en attribuant des projets et des équipes en fonction des données des employés, explique le chercheur Antonio Aloisi, co-auteur du livre Your boss is an algorithm. Plusieurs entreprises – comme Praisidio, HRBRain, Beqom ou HR Soft – proposent déjà des solutions pour évaluer les salaires, les avantages sociaux et les primes afin de les optimiser. La surveillance de la productivité des employés en temps réel se déploie, constatait déjà en 2022 le New York Times. Elle se complexifie d’outils de planning automatisés, d’outils de suivis du personnels… dans les secteurs de la santé, de la vente au détail, de l’hôtellerie… qui produisent une hyperpersonnalisation du traitement des travailleurs.

Le risque, c’est que les algorithmes décident de qui obtiendra le travail le mieux rémunéré, les meilleurs horaires, voir des horaires pleins. Le modèle dystopique du travail à la tâche à la Uber est en train de pénétrer l’économie du travail conventionnelle, estime Aloisi. Le salaire algorithmique personnalisé pourrait devenir la norme, explique la chercheuse Zephyr Teachout.

Le risque, c’est que ces calculs invisibilisent les discriminations salariales pourtant interdites, notamment en utilisant des données qui serviront de variables de substitutions aux discriminations, par exemple en favorisant les employés qui disposent de peu d’épargne pour plus mal les payer.

La résistance à ces nouvelles méthodes risque d’être compliquée. Au Japon, les avocats d’un syndicat ont obtenu que la direction d’IBM documente les données utilisées par son système d’IA pour évaluer les employés. Le système devra également expliquer sa pertinence par rapport aux règles salariales et, pour les travailleurs ayant de faibles notes, devra expliquer les raisons de ces notations aux salariés.

17.10.2024 à 10:15

Contestations automatisées

Hubert Guillaud

Lire + (198 mots)

Aux Etats-Unis, il est courant que les assurances maladies refusent les demandes d’indemnisation de leurs clients. Les clients ont certes le droit de faire appel, mais les procédures sont compliquées ce qui fait qu’ils sont très peu nombreux à remplir une demande. Fight Health Assurance propose un outil d’IA générative pour aider les clients à faire appel depuis la lettre de refus et certaines de leurs données médicales, explique Fast Company. L’outil aide les patients à surmonter le premier obstacle : ne pas savoir par où commencer. Rien n’assure que les recours soient efficaces, prévient le développeur. Mais, « à l’heure actuelle, lorsque la compagnie d’assurance maladie refuse quelque chose, la plupart du temps, elle n’a rien à payer, donc c’est une victoire pour elle. Mais je pense que si la plupart du temps, lorsqu’elle fait un refus, elle doit payer et traiter également des documents supplémentaires, elle ne refuserait peut-être pas autant de choses. »

Pas sûr que tous les services clients soient prêts !

16.10.2024 à 07:30

Uber : le grand contournement continue

Hubert Guillaud

Lire + (141 mots)

A New-York, la loi oblige les VTC a rémunérer les temps d’attente des chauffeurs. Uber et Lyft ont déjà trouvé la parade : ils déconnectent les chauffeurs dès qu’ils ont fini une course, effaçant ainsi leurs attentes des données enregistrées. Dans une enquête, Bloomberg montre que les blocages n’ont pas lieu seulement lors des périodes de faibles demandes, mais tout le temps, même lors des tensions. Un nouvel exemple (après l’augmentation des tarifs pour les livreurs en France qui a conduit à les réduire) qui montre que la caractéristique principale de l’ubérisation est le contournement de la règle.

16.10.2024 à 07:30

IA Lock-in

Hubert Guillaud

Pour comprendre l'engouement à vendre de l'IA générative, il faut comprendre le modèle économique des entreprises de la tech, explique, toujours cinglant, Ed Zitron.

Texte intégral (1248 mots)

« Mais pourquoi les Gafams veulent-ils intégrer l’IA générative partout, alors que les produits proposés jusqu’à présent, se sont révélés plutôt très décevants ? », questionne avec sa pertinence habituelle Ed Zitron. Pour comprendre cet enthousiasme pour ces technologies qui se révèlent souvent médiocres, il faut comprendre comment les entreprises de la tech gagnent de l’argent. Le modèle économique de nombreuses entreprises technologiques repose sur celui du logiciel en tant que service (SaaS, software as a service), où l’on vous facture un montant mensuel par utilisateur « pour un logiciel que vous ne possédez pas et ne contrôlez pas ». Si la proposition a plein d’avantages pour les entreprises qui y ont recours, cela conduit à une forme d’externalisation où les fonctionnalités de votre entreprise sont accomplies par d’autres, avec le risque d’un lock-in problématique, c’est-à-dire d’un verrouillage du client, un « enfermement propriétaire » qui rend le client totalement dépendant de la solution qu’il achète. Et Zitron de comparer le SaaS a un parasite qui devient d’autant plus puissant que votre entreprise grandit et qui finit par limiter votre capacité d’innovation à celle du fournisseur auquel vous êtes lié.

Outre l’infrastructure de calcul et de logiciels, les entreprises de la tech vendent d’innombrables services liés pour permettre aux entreprises de faire tourner leurs services. « Plus vous dépensez d’argent, plus il devient coûteux de partir, et ce coût devient d’autant plus lourd que votre organisation devient grande ». Quant aux cris d’exaspération et les récriminations à l’encontre de ces gammes logicielles, elles sont d’autant plus ignorées qu’elles proviennent de « personnes totalement différentes de celles qui prennent les décisions d’achats ». La seule force de ces solutions médiocres c’est d’être très utilisées et de faciliter une « conformité » qui rend la concurrence quasiment impossible pour les petites entreprises du logiciel d’autant que l’interopérabilité reste la grande absente de toutes ces solutions. Ce fonctionnement explique que les logiciels d’entreprises soient « si nuls » et pourquoi le modèle d’abonnement s’est imposé pour assurer des revenus récurrents.

Le problème estime Zitron, c’est que ce modèle pousse les entreprises qui fournissent des services à toujours en proposer de nouveaux. L’autre problème, c’est qu’elle crée des entreprises captives et favorise la concentration des activités des fournisseurs. On peut comprendre qu’une petite entreprise externalise ses besoins, mais il devient plus difficile de tout externaliser à mesure qu’elle grandit, surtout si cette externalisation passe par d’innombrables prestataires logiciels. La tendance à la concentration autour d’un seul prestataire logiciel grandit avec les clients et pousse les entreprises qui fournissent des services à proposer une gamme de plus en plus étendue de services (d’outils de visioconférence aux logiciels de paye…).

« C’est le fondement de l’ensemble de l’industrie technologique et d’une grande partie de la valorisation des entreprises technologiques : des milliers de milliards de dollars de capitalisation boursière sont soutenus par le modèle économique qui consiste à externaliser votre infrastructure et vos logiciels et à les facturer mensuellement, et à inventer de nouvelles façons de vous faire « investir dans votre infrastructure » en acceptant de les payer un peu plus chaque mois. »

Le problème, estime Zitron, c’est que cette industrie du service logiciel n’a plus d’idée pour assurer sa croissance autre que de faire croître le parasite. En fait, ce revenu annuel récurrent ne progresse plus (enfin, il progresse encore de plus de 20% par an, mais c’est la moitié de son niveau de progression d’il y a 5 ans). Non seulement les revenus baissent, mais la satisfaction des clients baisse également alors que le coût d’acquisition de nouveaux clients est plus élevé. Récemment une étude a montré que le nombre d’applications SaaS par entreprise, pour la première fois, a baissé (passant de 130 applications par entreprise en moyenne à 112). « Il se pourrait bien qu’il ne reste plus grand chose à vendre ! », ironise Zitron.

Dans ce paysage en berne, l’IA est une nouvelle promesse à vendre aux clients qui permet de renouveler le fond de services proposés. Tous les acteurs du SaaS ont donc produit des « gadgets IA ». « Il n’est pas évident de savoir ce que font ces produits alimentés par l’IA, et quand vous vous en rendez compte, ils ne semblent pas faire grand-chose », tance, cinglant, Zitron. « Presque toutes ces entreprises affirment que ces systèmes « réduisent la pénibilité » ou « améliorent la productivité », sans fournir d’explication réelle sur la manière dont cela pourrait se produire. » Pour l’instant, certains proposent de l’offrir gratuitement contre le renouvellement de leurs contrats premiums, d’autres la font payer assez cher, bien qu’il leur en coûte parfois plus cher encore, comme c’est le cas de Microsoft. Et Zitron d’évaluer par exemple que très peu des clients de Microsoft 365 semblent avoir opté pour l’option IA. Que le Github copilot de Microsoft semble coûter plus cher à l’entreprise que ce qu’il rapporte (alors qu’il est l’un des produits d’IA parmi les plus populaires et presque utile, bien qu’il semble générer beaucoup de bugs). En février, Microsoft annonçait 1,3 millions de comptes payants à Github copilot et 1,8 millions en septembre… La progression ralentit déjà !

L’IA générative semble le remède miracle pour facturer aux clients « ce qu’ils devraient déjà avoir ». « Au lieu de trouver un moyen d’organiser et de hiérarchiser intelligemment les messages, vous pouvez payer Slack (propriété de Salesforce) 10 $ de plus par utilisateur et par mois pour des résumés de fils de discussion et de canaux alimentés par l’IA ».

Le problème du boom de l’IA en service, « c’est qu’on ne sait pas si ces logiciels seront utiles, si nous avons vraiment besoin que nos e-mails soient résumés ou si les utilisateurs veulent vraiment un chatbot pour répondre à leurs questions ». Pour Zitron, l’IA générative pour l’instant ne se vend pas et elle coûte plus d’argent qu’elle ne rapporte lorsqu’elle se vend. « Dans tous les cas, le problème le plus évident de tous est qu’il ne semble pas y avoir beaucoup de croissance des revenus attribuables à ces outils, ce qui signifie qu’ils doivent soit devenir moins chers (ce qui rendrait leurs coûts intenables), soit meilleurs, ce qui obligerait ces entreprises à trouver un moyen de les rendre plus utiles, ce qu’aucune d’entre elles ne semble être en mesure de faire, et qui est probablement impossible ».

15.10.2024 à 07:30

Quand la productivité est sous stéroïdes, les problèmes le sont aussi

Hubert Guillaud

Lire + (216 mots)

Quels sont les impacts réels de l’IA sur la productivité des programmeurs ? Selon une étude randomisée auprès d’environ 5000 codeurs des grandes entreprises américaines, les développeurs qui utilisent Github Copilot terminent 26% de tâches de plus que les développeurs qui ne l’utilisent pas. Mais terminer les tâches ne fait pas tout ! La génération de code sous IA est loin d’être parfaite (le code sans bugs, selon les outils d’IA, varie passablement, entre 60 et 30%) et nécessite de fastidieuses révisions qui semblent pour l’instant peu adaptées à la vitesse d’adoption de l’IA, explique TechRepublic. D’autant que les programmeurs semblent être plus laxistes dans la révision du code produit par les IA qu’ils ne le sont pour le leur.

MAJ du 17/10/2014 : une étude montre que l’activité sur Stack Overflow, le grand forum pour développeur, a baissé de 25% dans les 6 mois suivant la sortie de ChatGPT.

14.10.2024 à 07:35

« J’ai postulé à 2483 postes en 3 mois »

Hubert Guillaud

Lire + (342 mots)

Vous vous souvenez ? En conclusion de notre dossier sur le recrutement automatisé, on évoquait la possibilité prochaine qu’à l’automatisation des recrutements répondent l’automatisation des candidatures. Eh bien nous y sommes, explique 404media en évoquant AIHawk, un assistant de recherche d’emploi déposé sur Github, qui permet de postuler à des emplois sur Linked-in à grande échelle. Il permet de générer des lettres de motivation et CV basés sur une série de détails biographiques que l’utilisateur encode et que le logiciel modifie en fonction de la description de poste et d’autres informations que l’entreprise a mise sur Linked-in. Le programme semble être devenu populaire et des clones sont déjà disponible (une application dédiée se prépare : « Job Magic : candidatez pendant que vous dormez »).

Dans la communauté Telegram d’AIHawk, des candidats expliquent avoir déjà obtenus des entretiens d’embauches aux dizaines ou centaines de candidatures que le logiciel a envoyé en leur nom ! Nous sommes entrés dans la boucle de l’étrange où « des gens utilisent des CV et des lettres de motivation générés par l’IA pour postuler automatiquement à des emplois examinés par des logiciels d’IA automatisés ». Le développeur italien d’AIHawk, Federico Elia, a déclaré que son projet était né pour « rééquilibrer l’utilisation de l’intelligence artificielle dans le processus de recrutement ». On ne saurait être plus en accord.

Linked-in a déjà réagit en informant que les outils automatisés ne sont pas autorisés sur la plateforme… enfin, pour les candidats ! On espère que le régulateur va vite réagir… pour rappeler qu’il n’y aucune raison que l’automatisation soit réservée aux employeurs !

14.10.2024 à 07:30

Les 700 risques de l’IA

Hubert Guillaud

Ça fait beaucoup !

Lire + (342 mots)

Ça fait beaucoup !

11.10.2024 à 07:30

Arbitraire managérial : une lutte à géométrie variable

Hubert Guillaud

Lire + (336 mots)

Amazon a récemment décidé que tous ses employés devaient revenir au bureau. Elle n’est pas la seule. Derrière ce symbole de l’arbitraire managérial, aucune loi n’exige qu’Amazon fournisse la preuve que le travail à distance nuit à sa productivité. Le législateur est bien timide, défendent les chercheurs Nicola Contouris et Valerio De Stafano, alors qu’il a bien souvent accompagné l’encadrement du télétravail. Le législateur ne remet en cause l’arbitraire managérial que dans les cas de harcèlement, de licenciement déguisé ou de faute grave de la direction, comme si le caractère raisonnable de toutes les autres politiques sur les lieux de travail n’avaient pas à être discutées – et ce alors que mettre fin unilatéralement au télétravail demeure bien souvent un moyen de contourner les obligations légales qui incombent aux entreprises, comme ici, en provoquant des démissions pour s’éviter des licenciements.

L’acteur public devrait avoir à redire des décisions capricieuses des entreprises… Mais à force de les considérer comme des décisions uniquement contractuelles et privées, le législateur oublie qu’il sait aussi parfaitement leur imposer des normes publiques, par exemple la proportionnalité. Si l’acteur public voit des avantages sociétaux au travail à distance (meilleur équilibre vie professionnelle et vie privée, réduction des coûts environnementaux…), pourquoi alors ne l’impose-t-il pas plus fortement ? « Lorsque l’action collective est insuffisante ou que les représentants des travailleurs ne sont pas présents, comme c’est le cas dans un nombre croissant de lieux de travail, les législateurs et les tribunaux doivent faire leur part, en évitant de se cacher derrière le vernis de nature privée qui recouvre l’autorité de l’employeur et en limitant les décisions managériales à des normes plus strictes de raisonnabilité et de proportionnalité ».

10.10.2024 à 07:30

Comprendre ce que l’IA sait faire et ce qu’elle ne peut pas faire

Hubert Guillaud

Comment distinguer le bon grain de l'ivraie de l'Intelligence artificielle ? C'est la promesse que font les chercheurs Arvind Narayanan et Sayash Kapoor dans leur nouveau livre, AI Snake Oil. S'ils n'y arrivent pas toujours, les deux spécialistes nous aident à comprendre les défaillances de l'IA dans un livre qui mobilise la science pour qu'elle nous aide à éclairer le chemin critique qu'il reste à accomplir.

Texte intégral (8046 mots)

Quand on parle d’Intelligence artificielle on mobilise un terme qui qualifie un ensemble de technologies vaguement reliées, expliquent les chercheurs Arvind Narayanan et Sayash Kapoor dans le livre qu’ils viennent de faire paraître, AI Snake Oil (Princeton University Press, 2024, non traduit).

Il y a peu de liens entre l’IA générative dont on entend tant parler et l’IA prédictive, certainement bien plus utilisée encore, mais où se concentrent les systèmes les plus défaillants qui soient. C’est là surtout que se concentre cette « huile de serpent » à laquelle font référence les deux chercheurs. Sous ce terme, qui qualifie des remèdes miraculeux mais inefficaces, comme tant de charlatans en vendaient dans tout l’Ouest américain, les deux chercheurs désignent une technologie qui ne fonctionne pas et ne peut pas fonctionner comme attendu, et qui ne fonctionnera probablement jamais. Toute la difficulté aujourd’hui, pour le grand public, consiste à être capable de distinguer l’IA qui ne fonctionne pas de celle qui fonctionne. C’est tout l’enjeu de leur livre.

IA générative vs. IA prédictive

L’IA est désormais devenue un produit de consommation grand public. Le problème, c’est que son utilisation abusive s’est également généralisée. Les deux ingénieurs restent pourtant très confiants. L’IA générative est un outil amusant et utile défendent-ils. Elle peut même être un outil d’apprentissage passionnant, expliquent-ils un peu légèrement. Certes, l’IA générative comporte des risques et peut avoir un coût social élevé. Mais ce n’est rien comparé à l’IA prédictive. Dans leur livre, les deux chercheurs accumulent les exemples pour montrer que dès que nous tentons d’utiliser l’IA pour des prédictions, notamment dans le domaine du social, elle produit des discriminations. De l’emploi à la santé, en passant par le crime… partout ces modèles restent englués dans leurs biais. Mais surtout, leurs résultats ne sont bien souvent pas meilleurs qu’un résultat aléatoire. C’est, il me semble, la grande force de leur démonstration et le point le plus original du livre. Pour les chercheurs, l’une des raisons d’une si faible performance tient beaucoup au fait que très souvent, la donnée n’est ni disponible ni décisive. Le problème c’est que l’IA prédictive est très attirante parce qu’elle promet des décisions plus efficaces… Mais l’efficacité est bien plus relative qu’annoncée et surtout bien moins responsable.

L’IA n’a pas vraiment de définition fixe. Les deux chercheurs s’en amusent d’ailleurs et remarquent que ce qu’on qualifie comme IA correspond souvent à ce qui n’a pas été fait. Dès qu’une application fonctionne avec fiabilité, on ne parle plus d’IA, comme c’est le cas avec les aspirateurs autonomes, l’autopilote des avions, les filtres à Spam, ou l’autocomplétion. Autant d’exemples qui nous montrent d’ailleurs des formes d’IA qu’on souhaiterait plus souvent. Ces exemples doivent nous rappeler qu’elle n’est pas toujours problématique, loin de là. L’IA sait résoudre des problèmes difficiles. Mais elle ne sait pas prédire les comportements sociaux des gens et la prédiction du social n’est pas un problème technologique soluble.

Il y a aussi certains domaines du social où l’IA peut-être très forte, très précise et très efficace, mais qui posent des problèmes de société majeurs. C’est le cas notamment de la reconnaissance faciale. Le taux d’erreur de la reconnaissance faciale est devenu minuscule (0,08% selon le Nist). Cela n’enlève rien au fait que ces erreurs soient très problématiques, notamment quand elles conduisent à des arrestations qui ne devraient pas avoir lieu. Mais dans le domaine de la reconnaissance faciale, le problème, désormais, n’est plus que la technologie soit défaillante. Ce sont les pratiques, les erreurs humaines, les échecs policiers et d’encadrement de son usage qui posent problèmes. « L’IA de reconnaissance faciale, si elle est utilisée correctement, a tendance à être précise car il y a peu d’incertitude ou d’ambiguïté dans la tâche à accomplir ». Identifier si une personne sur une photo correspond à une autre personne sur une autre photo est assez simple, pour autant que les systèmes aient suffisamment d’images pour s’y entraîner et de moyens pour trouver les éléments qui permettent de distinguer un visage d’un autre. Cela ne signifie pas que l’analyse faciale puisse tout faire, précisent les deux chercheurs : identifier le genre où l’émotion depuis un visage n’est pas possible, car ni l’un ni l’autre n’est inscrit dans l’image. Désormais, « le plus grand danger de la reconnaissance faciale vient du fait qu’elle fonctionne très bien ». Ce ne sont plus ses défaillances techniques qui posent un problème de société, comme c’est le cas des systèmes de prédiction de risques. C’est l’usage qui peut en être fait… comme de pouvoir identifier n’importe qui n’importe où et pour n’importe quelle raison. Attention cependant, préviennent les chercheurs : la reconnaissance faciale peut-être très performante quand elle est utilisée correctement, mais peut très facilement échouer en pratique, comme le montre l’identification depuis des images de mauvaise qualité qui a tendance à produire de nombreux faux positifs. Elle n’est donc ni parfaite ni magique. Et surtout, elle pose un enjeu de société qui nécessite de cadrer son usage, pour trouver les moyens afin qu’elle ne soit pas utilisée de manière inappropriée – et ce n’est pas si simple – et pour que la société se dote de garde-fous et de garanties pour prévenir des abus ou d’utilisations inappropriées.

Nombre d’usages de l’IA demeurent problématiques avertissent les chercheurs. Nombre de ses utilisations relèvent ni plus ni moins de l’imposture. L’IA échoue d’abord et très souvent dès qu’on l’utilise pour produire des prédictions, comme l’a montré Google Flu, l’outil pour prédire la grippe de Google qui se basait sur l’évolution des recherches de symptômes sur le moteur de recherche et dont la précision a fini par s’effondrer sous les requêtes. Non seulement la prédiction est difficile, mais bien souvent son efficacité s’effondre dans le temps.

Les deux chercheurs nous invitent à intégrer une sirène d’alerte aux projets d’IA. Dès qu’ils abordent le social, dès qu’ils souhaitent prédire quelque chose, dès qu’ils utilisent une variable pour une autre (comme de vouloir reconnaître le genre depuis des images de visages), nous devons être vigilants.

Couverture du livre AI Snake Oil d’Arvind Narayanan et Sayash Kapoor.

Les défaillances de l’IA prédictive

Mais il y a d’autres motifs d’inquiétudes auxquels prêter attention. Le battage médiatique autour de l’IA fait que bien souvent ses qualités sont exagérées. Les capacités de prédiction de nouveaux services ou outils sont très souvent survendues. L’une des erreurs les plus courantes consiste à annoncer un taux de réussite particulièrement élevé, alors que très souvent, l’outil est évalué sur les mêmes données que celles sur lesquelles il a été entraîné. C’est un peu comme réviser les questions qui seront posées à un examen avant l’examen. L’étude des résultats de recherche dans nombre de secteurs de la recherche en machine learning a montré partout des résultats problématiques. Ce n’est pas nécessairement intentionnel ou malveillant, excusent un peu facilement les deux ingénieurs, le machine learning est une discipline délicate et il est facile de s’embrouiller. En tout cas, la qualité s’effondre très souvent avec le battage médiatique. Ainsi, des centaines d’études ont proclamé pouvoir détecter le Covid depuis des radiographies des poumons : une revue systématique de plus de 400 articles de recherche a montré qu’AUCUNE n’était fiable. Tant et si bien qu’une équipe de chercheurs a mis au point une chek-list pour aider les développeurs et les chercheurs à minimiser les erreurs. Dans une étude sur l’usage de l’IA prédictive dans l’industrie et l’administration, Narayanan et Kapoor ont fait les mêmes constats et ont listé les principaux défauts de la prédiction :

Un outil qui fait de bonnes prédictions ne signifie pas qu’il mènera à de bonnes décisions, notamment du fait de la rétroaction des décisions sur les prédictions (par exemple un montant de caution plus élevé basé sur une prédiction de récidive peut augmenter le taux de récidive… et d’ailleurs, les peines sévères ont tendance à augmenter la récidive) ;
Pour prédire, on fait souvent appel à une variable-cible qui ne correspond pas exactement à ce que l’on souhaite prédire, comme d’utiliser la moyenne générale d’un étudiant pour prédire sa réussite l’année suivante.
Lorsque la distribution des données sur lesquelles un modèle est formé n’est pas représentative de la distribution sur laquelle il sera déployé, les performances du modèle seront problématiques.
Il y a toujours des limites à la prédiction. Les résultats sociaux ne sont pas prévisibles avec précision, même avec l’apprentissage.
Les différences de performances entre différents groupes sociaux ne peuvent pas toujours être corrigées.
Bien souvent les systèmes manquent de possibilité pour en contester les résultats alors que cette contestabilité est un levier important pour se rendre compte de ses erreurs.
La prédiction oublie souvent de prendre en compte le comportement stratégique qui risque de la rendre moins efficace dans le temps.

Au XIXe siècle, dans l’Ouest américain, d’innombrables colporteurs vendaient des médicaments miracles, inefficaces et inoffensifs, pour la plupart… mais pas tous. Certains de ces faux remèdes laisseront des morts derrière eux. En 1906, la Food and Drug Administration (FDA) est imaginée pour remédier au problème et rendre ces colporteurs responsables de leurs produits, comme l’explique le dernier rapport de l’AI Now Institute qui revient en détail sur la naissance de l’agence américaine et comment elle a changé le monde du médicament par la construction de mesures préalables à leur mise sur le marché – l’AI Now Institute invite d’ailleurs à s’inspirer de cette histoire pour rendre l’IA responsable en pointant qu’une « réglementation ex ante solide, adaptée à un marché en évolution et à ses produits, peut créer des avantages significatifs à la fois pour l’industrie et pour le public ».

Si l’AI Snake Oil est une IA qui ne marche pas et qui ne peut pas marcher, souvenons-nous que même une IA qui fonctionne bien peut être nocive. Face aux produits d’IA, il faut pouvoir mesurer à la fois les préjudices qu’ils peuvent provoquer mais également la véracité qu’ils produisent.

Mais si l’IA défaillante est si omniprésente, c’est parce qu’elle offre des solutions rapides à n’importe quels problèmes. Oubliant que les solutions qui ne fonctionnent pas n’en sont pas, rappellent Kapoor et Narayanan. « Dans le sillage de la révolution industrielle, des millions d’emplois furent créés dans les usines et les mines, avec d’horribles conditions de travail. Il a fallu plusieurs décennies pour garantir les droits du travail et améliorer les salaires et la sécurité des travailleurs. » Nous devons imaginer et construire un mouvement similaire pour garantir la dignité humaine face à l’automatisation qui vient. Nous devons trouver les moyens d’éradiquer le déploiement de l’huile de serpent et construire les modalités pour bâtir une technologie responsable comme nous avons réussi à bâtir une médecine et une industrie agro-alimentaire (plutôt) responsable.

Pourquoi les prédictions échouent-elles ?

Dans leur livre, les deux auteurs mobilisent d’innombrables exemples de systèmes défaillants. Parmis ceux qu’ils classent comme les pires, il y a bien sûr les outils de prédiction qui prennent des décisions sur la vie des gens, dans le domaine de la santé, des soins ou de l’orientation notamment.

Un algorithme n’est qu’une liste d’étapes ou de règles pour prendre une décision, rappellent-ils. Très souvent, les règles sont manuelles mais sont appliquées automatiquement, comme quand on vous demande de ne pas percevoir au-delà d’un certain revenu pour bénéficier d’un droit. Le problème, c’est que de plus en plus, les règles se complexifient : elles sont désormais souvent apprises des données. Ce type d’algorithme est appelé modèle, c’est-à-dire qu’il découle d’un ensemble de nombres qui spécifient comment le système devrait se comporter. Ces modèles sont très utilisés pour allouer des ressources rares, comme des prêts ou des emplois, ouvrant ou fermant des possibilités. C’est typiquement ce qu’on appelle l’IA prédictive. C’est par exemple ainsi que fonctionne Compas, le système de calcul de risque de récidive utilisé par la justice américaine, entraîné depuis le comportement passé des justiciables. L’hypothèse de ces systèmes et de nombre de systèmes prédictifs consiste à dire que des gens avec les mêmes caractéristiques se comporteront de la même manière dans le futur. Ces systèmes prédictifs sont déployés dans de nombreux secteurs : la santé, l’emploi, l’assurance… Le problème, c’est que de petits changements dans la vie des gens peuvent avoir de grands effets. La plupart des entreprises qui développent des systèmes prédictifs assurent que ceux-ci sont performants et équitables. Pourtant, on ne peut pas garantir que les décisions qu’ils prennent soient sans biais ou équitables.

Une bonne prédiction ne signifie pas une bonne décision. L’IA peut faire de bonne prédictions… si rien ne change, c’est-à-dire si elles ne sont pas utilisées pour modifier les comportements, expliquent les chercheurs en prenant l’exemple d’un système prédictif de la pneumonie qui montrait que les gens atteints d’asthme étaient à moindre risque, parce qu’ils recevaient des soins adaptés pour éviter les complications. Déployer un tel modèle, en fait, aurait signifié renvoyer les patients asthmatiques chez eux, sans soins. Corrélation n’est pas causalité, dit l’adage.

Ces erreurs de prédictions ont souvent pour origine le fait que les chercheurs s’appuient sur des données existantes plutôt que des données collectées spécifiquement pour leur produit. Trop souvent, parce que créer des données spécifiques ou faire des contrôles aléatoires est coûteux, les entreprises s’en abstiennent. Comprendre l’impact des outils de décision est également important et nécessite aussi de collecter des données et de faire des contrôles d’autant plus coûteux que ces vérifications, élémentaires, viennent souvent remettre en question l’efficacité proclamée. Techniquement, cela signifie qu’il faut toujours s’assurer de savoir si le système a évalué ses impacts sur de nouvelles données et pas seulement sur les données utilisées pour la modélisation.

Ces effets sont d’autant plus fréquents que le développement de systèmes conduit souvent les gens à y réagir, à se comporter stratégiquement. C’est le cas quand des candidats à l’embauche répondent aux outils d’analyse des CV en inondant leurs CV de mots clefs pour contourner leurs limites. Une étude a même montré que changer le format de son CV d’un PDF en texte brut, changeait les scores de personnalité que les systèmes produisent sur les candidatures. Quand les entreprises assurent que leurs outils fonctionnent, elles oublient souvent de tenir compte du comportement stratégique des individus. Or, « quand les résultats du modèle peuvent être facilement manipulés en utilisant des changements superficiels, on ne peut pas dire qu’ils sont efficaces ». C’est toute la limite de trop de modèles opaques que dénoncent les deux chercheurs avec constance.

Le risque, c’est que ces systèmes nous poussent à une sur-automatisation. La sur-automatisation, pour les chercheurs, c’est quand le système de prise de décision ne permet aucune voie de recours, comme l’ont connu les individus suspectés de fraude par l’algorithme de contrôle des aides sociales de Rotterdam. Pour éviter cela, les bonnes pratiques invitent à « conserver une supervision humaine ». Problème : tous les développeurs de systèmes assurent que c’est le cas, même si cette supervision ne conduit à aucune modification des décisions prises. En réalité, les développeurs d’IA vendent des IA prédictives « avec la promesse d’une automatisation complète. La suppression d’emplois et les économies d’argent constituent une grande partie de leur argumentaire ». La supervision n’a donc la plupart du temps pas lieu. Même quand elle existe, elle est bien souvent inappropriée. Et surtout, les résultats et suggestions génèrent une sur-confiance particulièrement pervasive, qui affecte tous les utilisateurs dans tous les secteurs. Dans des simulateurs de vol, quand les pilotes reçoivent un signal d’alarme incorrect, 75% d’entre eux suivent les recommandations défaillantes. Quand ils ont recours à une checklist, ils ne sont plus que 25% à se tromper.

Mais surtout, insistent les deux chercheurs, les prédictions sur les gens sont bien plus fluctuantes qu’on le pense. Un outil similaire à Compas développé en Ohio et utilisé en Illinois a produit des aberrations car les taux de criminalité n’étaient pas les mêmes entre les deux Etats. Trop souvent les prédictions se font sur les mauvaises personnes. C’était le cas de l’outil de calcul de risque de maltraitance des enfants de Pennsylvanie étudié par Virginia Eubanks, qui n’avait aucune donnée sur les familles qui avaient recours à des assurances privées et donc qui visait disproportionnellement les plus pauvres. « Les outils d’IA regardent ce qui est sous le lampadaire. Et très souvent, le lampadaire pointe les plus pauvres ». L’IA prédictive exacerbe les inégalités existantes. « Le coût d’une IA défectueuse n’est pas supporté de manière égale par tous. L’utilisation de l’IA prédictive nuit de manière disproportionnée à des groupes qui ont été systématiquement exclus et défavorisés par le passé. » Les outils de prédiction de risque de santé, déployés pour réduire les dépenses d’hospitalisation, ont surtout montré leurs biais à l’encontre des minorités. L’un de ces outils, Optum’s Impact Pro par exemple, écartait systématiquement les personnes noires, parce que le système ne prédisait pas tant le besoin de soins, que combien l’assurance allait dépenser en remboursement des soins de santé. L’entreprise a continué d’ailleurs à utiliser son outil défaillant, même après qu’il ait montré son inéquité. « Les intérêts des entreprises sont l’une des nombreuses raisons pour lesquelles l’IA prédictive augmente les inégalités. L’autre est la trop grande confiance des développeurs dans les données passées. »

Trop souvent, on utilise des proxies, des variables substitutives qui nous font croire qu’on peut mesurer une chose par une autre, comme les coûts de la santé plutôt que les soins. C’est le même problème pour Compas. Compas utilise des données sur qui a été arrêté pas sur les crimes. Compas dit prédire le crime alors qu’en fait il ne prédit que les gens qui ont été arrêtés. Ces confusions sur les données expliquent beaucoup pourquoi les systèmes d’IA prédictive nuisent d’abord aux minorités et aux plus démunis.

S’ils sont défaillants, alors peut-être faudrait-il faire le deuil des outils prédictifs, suggèrent les chercheurs. Ce serait effectivement dans bien des cas nécessaires, mais nos sociétés sont mal à l’aise avec l’imprévisibilité, rappellent-ils. Pourtant, trop souvent nous pensons que les choses sont plus prévisibles qu’elles ne sont. Nous avons tendance à voir des régularités là où elles n’existent pas et nous pensons bien souvent être en contrôle sur des choses qui sont en fait aléatoires. Rien n’est plus difficile pour nous que d’accepter que nous n’avons pas le contrôle. Cela explique certainement notre engouement pour l’IA prédictive malgré ses défaillances. Pourtant, expliquent les chercheurs, embaucher ou promouvoir des employés aléatoirement, plutôt que sur de mauvais critères de performances, pourrait peut-être être plus bénéfique qu’on le pense, par exemple en favorisant une plus grande diversité ou en favorisant un taux de promotion fixe. Accepter l’aléatoire et l’incertitude pourrait nous conduire à de meilleures décisions et de meilleures institutions. « Au lieu de considérer les gens comme des êtres déterminés, nous devons travailler à la construction d’institutions qui sont véritablement ouvertes au fait que le passé ne prédit pas l’avenir. »

Pourquoi l’IA ne peut pas prédire le futur ?

La météorologie est l’un des secteurs où la prédiction est la plus avancée. Pourtant, la météo est un système particulièrement chaotique. Des petits changements conduisent à de grandes erreurs. Plus la prédiction est éloignée dans le temps, plus l’erreur est grande. Les données, les équations, les ordinateurs ont pourtant permis d’incroyables progrès dans le domaine. Nos capacités de prédiction météo se sont améliorées d’un jour par décade : une prévision sur 5 jours d’il y a 10 ans est aussi précise qu’une prévision sur 6 jours aujourd’hui ! Ces améliorations ne viennent pas d’une révolution des méthodes, mais de petites améliorations constantes.

La prévision météo repose beaucoup sur la simulation. Les succès de prévision des phénomènes géophysiques a conduit beaucoup de chercheurs à penser qu’avec les bonnes données et la puissance de calcul, on pourrait prédire n’importe quel type d’évènements. Mais cela n’est pas toujours très bien marché. Le temps est bien plus observable que le social, certainement parce que les conditions géophysiques, contrairement à ce que l’on pourrait penser, sont plus limitées. La prévision météo repose sur des lois physiques calculables. Ce n’est pas le cas des calculs du social. « Cela n’a pas restreint pour autant le développement de prédictions dans le contexte social, même si bien souvent, nous avons assez peu de preuves de leur efficacité ». Le score de risque de défaillance de crédit, Fico, est né dans les années 50 et se déploie à la fin des années 80, en même temps que naissent les premiers scores de risque criminels… Mais c’est avec le développement du machine learning dans les années 2010 que les systèmes prédictifs vont exploser dans d’innombrables systèmes.

Toutes les prédictions ne sont pas difficiles. Le trafic, l’évolution de certaines maladies… sont assez faciles. Les prédictions individuelles, elles, sont toujours plus difficiles. Et cela pose la question de savoir ce qui définit une bonne prédiction. Est-ce qu’une prédiction météo est bonne si elle est au degré près ou si elle prédit bien la pluie indépendamment de la température ? Notre capacité à prédire les tremblements de terre est excellente, notamment les lieux où ils auront lieu, mais notre capacité à prédire la nécessité d’une évacuation est nulle, car prédire quand ils auront lieu avec suffisamment de précision est bien plus difficile. Bien souvent, la précision de la prédiction s’améliore quand on ajoute plus de données et de meilleurs modèles. Mais ce n’est pas nécessairement vrai. On ne peut prédire le résultat d’un jet de dé quel que soit le volume de données que l’on collecte !

Quand les choses sont difficiles à prédire, on a recours à d’autres critères, comme l’utilité, la légitimité morale ou l’irréductibilité des erreurs pour apprécier si la prédiction est possible. Et tout ce qui a rapport à l’individu est bien souvent difficile à prédire, ce qui n’empêche pas beaucoup d’acteurs de le faire, non pas tant pour prédire quelque chose que pour exercer un contrôle sur les individus.

Kapoor et Narayanan reviennent alors sur le Fragile Families Challenge qui a montré que les modèles d’IA prédictibles développés n’amélioraient pas notablement la prédiction par rapport à un simple modèle statistique. Pour les chercheurs, le défi a surtout montré les limites fondamentales à la prédiction du social. Dans le social, « on ne peut pas prédire très bien le futur, et nous ne connaissons pas les limites fondamentales de nos prédictions ». Les données du passé ne suffisent pas à construire ce type de prédictions, comme les données d’une précédente élection ne peuvent pas prédire la suivante. Améliorer la précision des prédictions du social relève du problème à 8 milliards de Matt Salganik : il n’y a pas assez de gens sur terre pour découvrir les modèles de leurs existences ! Cela n’empêche pas qu’il existe d’innombrables outils qui affirment pouvoir faire des prédictions à un niveau individuel.

En vérité, bien souvent, ces outils ne font guère mieux qu’une prédiction aléatoire. Compas par exemple ne fait que prédire la partialité de la police à l’encontre des minorités (et dans le cas de Compas, l’amélioration par rapport à un résultat aléatoire est assez marginale… et dans nombre d’autres exemples, l’amélioration du calcul se révèle bien souvent plus mauvaise qu’un résultat aléatoire). Utiliser seulement 2 données, l’âge et le nombre d’infractions antérieures, permet d’avoir un résultat aussi précis que celui que propose Compas en mobilisant plus d’une centaine de données. Dans le cas de la récidive, le modèle est assez simple : plus l’âge est bas et plus le nombre d’infractions antérieures est élevé, plus la personne sera à nouveau arrêtée. On pourrait d’ailleurs n’utiliser que le nombre d’infractions antérieures pour faire la prédiction sans que les résultats ne se dégradent vraiment (qui serait moralement plus acceptable car en tant que société, on pourrait vouloir traiter les plus jeunes avec plus d’indulgence qu’ils ne le sont). L’avantage d’une telle règle, c’est qu’elle serait aussi très compréhensible et transparente, bien plus que l’algorithme opaque de Compas.

Avec ces exemples, les deux chercheurs nous rappellent que la grande disponibilité des données et des possibilités de calculs nous font oublier que l’opacité et la complexité qu’ils génèrent produisent des améliorations marginales par rapport au problème démocratique que posent cette opacité et cette complexité. Nous n’avons pas besoin de meilleurs calculs – que leur complexification ne produit pas toujours –, que de calculs capables d’être redevables. C’est je pense le meilleur apport de leur essai.

Nous sommes obnubilés à l’idée de prédire un monde imprévisible

Prédire le succès est aussi difficile que prédire l’échec, rappellent-ils. Certainement parce que contrairement à ce que l’on pense, le premier ne repose pas tant sur les qualités des gens que le second ne repose sur les circonstances. Les deux reposent sur l’aléatoire. Et en fait, le succès repose plus encore sur l’aléatoire que l’échec ! Le succès est encore moins prévisible que l’échec, tant la chance, c’est-à-dire l’imprévisible, joue un rôle primordial, rappellent-ils. Le succès dans les études, le succès de produits… rien n’est plus difficile à prédire, rappellent les chercheurs en évoquant les nombreux rejets du manuscrit de Harry Potter. Matt Salganik avait ainsi créé une application de musique et recruté 14 000 participants pour évaluer des musiques de groupes inconnus avec des indicateurs sociaux qui variaient entre groupes de participants. Des chansons médiocres étaient appréciées et de très bonnes musiques négligées. Une même chanson pouvait performer dans un endroit où les métriques sociales étaient indisponibles et sous performer là où elles étaient disponibles. Mais l’expérience a surtout montré que le succès allait au succès. Dans l’environnement où personne ne voyait de métriques : il y avait bien moins d’inégalités entre les musiques.

Les médias sociaux reposent sur des principes d’accélération de la viralité d’une petite fraction des contenus. Mais la popularité est très variable, d’un contenu l’autre. Ce que font les plateformes, ce n’est pas tant de prédire l’imprévisible que de tenter d’amplifier les phénomènes. Sur YouTube, Charlie Bit My Finger fut l’une des premières vidéos virales de la plateforme. Malgré ses qualités, son succès n’avait rien d’évident. En fait, les médias sociaux sont « une loterie à mèmes géante ». Plus un mème est partagé, plus il a de la valeur et plus les gens vont avoir tendance à le partager. Mais il est impossible de prédire le succès d’une vidéo ou d’un tweet. Même la qualité ne suffit pas, même si les contenus de meilleure qualité ont plus de chance que les contenus médiocres. Par contre l’on sait que les contenus plus partisans, plus négatifs reçoivent plus d’engagements. Reste que la polarisation perçue est plus forte que la polarisation réelle – et il est probable que cette mauvaise perception la renforce.

D’une manière assez surprenante, nous prédisons très bien des effets agrégés et très mal ces mêmes effets individuellement. Les ordres de grandeur aident à prédire des effets, mais les experts eux-mêmes échouent bien souvent à prédire l’évidence. Aucun n’a prévu l’effondrement de l’URSS, rappelait Philip Tetlock. Et ce n’est pas une question de données ou de capacité d’analyse. Les limitations à la prédictions sont dues aux données indisponibles et au fait qu’elles sont parfois impossibles à obtenir. Mais la prédiction est également difficile à cause d’événements imprévisibles, mais plus encore à cause de boucles d’amplification complexes. Dans de nombreux cas, la prédiction ne peut pas s’améliorer, comme dans le cas de la prédiction du succès de produits culturels. Dans certains cas, on peut espérer des améliorations, mais pas de changements majeurs de notre capacité à prédire l’avenir. Pour Narayanan et Kapoor, notre obnubilation pour la prédiction est certainement le pire poison de l’IA.

L’IA générative, ce formidable bullshiter

Bien moins intéressants sont les 2 chapitres dédiés à l’IA générative, où les propos des deux chercheurs se révèlent assez convenus. S’il est difficile de prédire l’impact qu’elle va avoir sur l’économie et la culture, la technologie est puissante et les avancées réelles. Pour Narayanan et Kapoor, l’IA générative est déjà utile, expliquent-ils en évoquant par exemple Be My Eyes, une application qui connectait des aveugles à des volontaires voyants pour qu’ils les aident à décrire le monde auquel ils étaient confrontés en temps réel. L’application s’est greffée sur ChatGPT pour décrire les images avec un réel succès, permettant de remplacer les descriptions du monde réel des humains par celles des machines.

Si l’IA générative fonctionne plutôt très bien, ce n’est pas pour autant qu’elle ne peut pas porter préjudices aux gens qui l’utilisent. Ses biais et ses erreurs sont nombreuses et problématiques. Sa capacité à nous convaincre est certainement plus problématique encore.

Les deux chercheurs bien sûr retracent l’histoire des améliorations de la discipline qui a surtout reposé sur des améliorations progressives, la disponibilité des données et l’amélioration des capacités de calcul. Tout l’enjeu de la technologie a été d’apprendre à classer les images ou les mots depuis les connexions entre eux en appliquant des poids sur les critères.

En 2011, à l’occasion d’une compétition ImageNet, visant à classifier les images, Hinton, Krizhevsky et Sutskever proposent un outil d’apprentissage profond qui se distingue par le fait qu’il ait bien plus de couches de traitements que les outils précédents : ce sera AlexNet. Tout l’enjeu ensuite, consistera à augmenter le nombre de couches de traitements en démultipliant les données… À mesure que les données deviennent plus massives, les contenus vont aussi avoir tendance à devenir plus problématiques, malgré les innombrables mesures de filtrages. Les problèmes vont y être enfouis plus que résolus, comme l’étiquetage de personnes noires sous le terme de Gorille. On va se mettre alors à mieux observer les données, mais la plupart des critères de référence ne mesurent pas dans quelle mesure les modèles reflètent les préjugés et les stéréotypes culturels. Le problème, c’est que dans le domaine de l’IA, les ingénieurs sont convaincus que découvrir les connaissances dans les données surpasse l’expertise, minimisant son importance.

« Alors que l’IA prédictive est dangereuse parce qu’elle ne fonctionne pas. L’IA pour la classification des images est dangereuse parce qu’elle fonctionne trop bien. »

Les systèmes de génération de texte fonctionnent sur le même principe que les systèmes de génération d’image. Jusqu’aux années 2010, il était difficile que les systèmes de traduction automatique gardent en tête le contexte. Ils fonctionnaient bien sur les courts extraits, mais avaient des problèmes avec des textes plus longs. En 2017, Google a trouvé la solution en proposant une matrice plus grande permettant de mieux relier les mots entre eux. C’est la technologie Transformer. L’IA générative textuelle n’est rien d’autre qu’un système d’autocomplétion qui fait de la prédiction du mot suivant.

La puissance de ces machines est à la fois leur force et leur faiblesse. « Pour générer un simple token – un bout de mot – ChatGPT doit accomplir environ un milliard de milliard d’opérations. Si vous demandez à générer un poème d’une centaine de tokens (une centaine de mots) cela nécessitera un quadrillion de calculs. Pour apprécier la magnitude de ce nombre, si tous les individus au monde participaient à ce calcul au taux d’un calcul par minute, 8 heures par jour, un quadrillon de calcul prendrait environ une année. Tout cela pour générer une simple réponse. » La capacité générative de ces outils repose sur une puissance sans limite. Une puissance dont les coûts énergétiques, matériels et économiques finissent par poser question. Avons-nous besoin d’une telle débauche de puissance ?

Pour que ces modèles répondent mieux et plus exactement, encore faut-il adapter les modèles à certaines tâches. Cette adaptation, le fine-tuning ou pré-entraînement, permet d’améliorer les résultats. Reste que ces adaptations, ces filtrages, peuvent finir par sembler être une cuillère pour écoper les problèmes de l’océan génératif…

Les chatbots peuvent avoir d’innombrables apports en interagissant avec l’utilisateur, mais le fait qu’ils dépendent profondément des statistiques et le manque de conscience de leurs propres limites, émousse leur utilité, soulignent les deux chercheurs. Jouer à Pierre-papier-ciseaux avec eux par exemple rappellent qu’ils ne comprennent pas l’enjeu de simultanéité.

Le problème de ces outils, c’est que la compréhension, n’est pas tout ou rien. Les chatbots ne comprennent rien, et leur regard sur un sujet est limité par leurs données. Mais ils sont configurés pour répondre avec confiance, comme un expert, alors qu’ils sont capables d’erreurs basiques qu’un enfant ne ferait pas. Cela signifie que ces outils ne sont pas sans écueils, rappellent les chercheurs. Ils produisent très facilement de la désinformation, des deepfakes, et permettent à ceux qui les déploient de concentrer un pouvoir très important. Les chatbots sont des bullshiters de première, des menteurs. « Ils sont entraînés pour produire des textes plausibles, pas des vérités ». Ils peuvent sembler très convaincants alors qu‘ »il n’y a aucune source vérifiée durant leur entraînement ». Même si on était capable de ne leur fournir que des affirmations vraies, le modèle ne les mémoriserait pas, mais les remixerait pour générer du texte. Ils répondent souvent correctement, mais sont capables parfois de produire des choses sans aucun sens. Cela tient certainement au fait que « les affirmations vraies sont plus plausibles que les fausses ». Les erreurs, les plagiats sont consubstantiels à la technologie.

Les usages problématiques de ces technologies sont nombreux, notamment les deepfakes et toutes les tentatives pour tromper les gens que ces outils rendent possibles. Pour l’instant, les réponses à ces enjeux ne sont pas à la hauteur. Les chercheurs ne proposent que de mieux éduquer les utilisateurs aux contenus trompeurs et aux sources fiables. Pas sûr que ce soit une réponse suffisante.

Les chercheurs rappellent que la grande difficulté à venir va être d’améliorer l’IA générative, alors que ses limites sont au cœur de son modèle, puisqu’elle ne peut qu’imiter et amplifier les stéréotypes des données qui l’ont entraîné. Pour y parvenir, il faudrait parvenir à bien mieux labelliser les données, mais l’effort devient herculéen à mesure que les moissons sont plus massives. Pour l’instant, cette labellisation repose surtout sur des travailleurs du clic mal payés, chargés de faire une labellisation à minima. Pas sûr que cela suffise à améliorer les choses…

Malgré ces constats inquiétants, cela n’empêche pas les deux chercheurs de rester confiants. Pour eux, l’IA générative reste une technologie utile, notamment aux développeurs. Ils rappellent que ces dernières années, la question des biais a connu des progrès, grâce au fine-tuning. L’atténuation des bias est un secteur de recherche fructueux. Les chatbots progressent et deviennent aussi fiables que la recherche en ligne, notamment en étant capable de citer leurs sources. Pour les chercheurs, le plus gros problème demeure l’exploitation du travail d’autrui. Nous devons opter pour les entreprises qui ont des pratiques les plus éthiques, concluent-ils, et faire pression sur les autres pour qu’ils les améliorent. Oubliant qu’il n’est pas simple de connaître l’éthique des pratiques des entreprises…

Les deux ingénieurs terminent leur livre par un chapitre qui se demande si l’IA pose une menace existentielle. Un sujet sans grand intérêt face aux menaces déjà bien réelles que fait peser l’IA. Ils le balayent d’ailleurs d’un revers de main et rappellent que l’IA générale est encore bien loin. « La plupart des connaissances humaines sont tacites et ne peuvent pas être codifiées ». C’est comme apprendre à nager ou à faire du vélo à quelqu’un simplement en lui expliquant verbalement comment faire. Ça ne marche pas très bien. Le risque à venir n’est pas que l’IA devienne intelligente, nous en sommes bien loin. Le risque à venir repose bien plus sur les mauvais usages de l’IA, et ceux-ci sont déjà très largement parmi nous. Pour améliorer notre protection contre les menaces, contre la désinformation ou les deepfakes, nous devons renforcer nos institutions démocratiques avancent les auteurs. On ne saurait être plus en accord, surtout au moment où les avancées de l’IA construisent des empires techniques qui n’ont pas grand chose de démocratique.

Malgré ses qualités et la richesse de ses exemples, le livre des deux chercheurs peine à rendre accessible ce qu’ils voudraient partager. Parvenir à distinguer ce que l’IA sait faire et ce qu’elle ne peut pas faire n’est pas évident pour ceux qui sont amenés à l’utiliser sans toujours comprendre sa complexité. Distinguer la bonne IA de la mauvaise n’est pas si simple. Le livre permet de comprendre que la prédiction fonctionne mal, mais sans nous aider à saisir où elle peut progresser et où elle est durablement coincée.

On a bien constaté que dès que ces outils agissent sur le social où l’individu, ils défaillent. On a bien compris que l’IA générative était puissante, mais les deux ingénieurs peinent à nous montrer là où elle va continuer à l’être et là où elle risque de produire ses méfaits. Les deux spécialistes, eux, savent très bien identifier les pièges que l’IA nous tend et que l’IA tend surtout aux ingénieurs eux-mêmes, et c’est en cela que la lecture d’AI Snake Oil est précieuse. Leur livre n’est pourtant pas le manuel qui permet de distinguer le poison du remède. Certainement parce que derrière les techniques de l’IA, le poison se distingue du remède d’abord et avant tout en regardant les domaines d’applications où elle agit. Un outil publicitaire défaillant n’a rien à voir avec un outil d’orientation défaillant.. Gardons les bons côtés. Les ingénieurs ont enfin un livre critique sur leurs méthodes avec un regard qui leur parlera. Ce n’est pas un petit gain. Si le livre se révèle au final un peu décevant, cela n’empêche pas qu’Arvind Narayanan et Sayash Kapoor demeurent les chercheurs les plus pertinents du milieu. Leur grande force est d’être bien peu perméables au bullshit de la tech, comme le montre leur livre et leur excellente newsletter. Leur défense de la science sur l’ingénierie par exemple – « les essais contrôlés randomisés devraient être un standard dans tous les domaines de la prise de décision automatisée » – demeure une boussole que l’ingénierie devrait plus souvent écouter.

10 / 10

GÉNÉRALISTES: Ballast; Fakir; Interstices; Lava; La revue des médias; Le Grand Continent; Le Monde Diplomatique; Le Nouvel Obs; Lundi Matin; Mouais; Multitudes; Politis; Regards; Smolny; Socialter; The Conversation; UPMagazine; Usbek & Rica; Le Zéphyr

CULTURE / IDÉES 1/2: Accattone; Contretemps; A Contretemps; Alter-éditions; CQFD; Comptoir (Le); Déferlante (La); Esprit; Frustration
IDÉES 2/2: L'Intimiste; Jef Klak; Lignes de Crêtes; NonFiction; Nouveaux Cahiers du Socialisme; Période; Philo Mag; Terrestres; Vie des Idées; Villa Albertine
THINK-TANKS: Fondation Copernic; Institut La Boétie; Institut Rousseau
TECH: Dans les algorithmes; Goodtech.info; Quadrature du Net
INTERNATIONAL: Alencontre; Alterinfos; CETRI; ESSF; Inprecor; Journal des Alternatives; Guitinews
MULTILINGUES: Kedistan; Quatrième Internationale; Viewpoint Magazine; +972 mag
PODCASTS: Arrêt sur Images; Le Diplo; LSD; Thinkerview
Pas des sites de confiance: Contre-Attaque; Korii; Positivr; Regain; Slate; Ulyces

Dans les algorithmesComprendre la société des calculs

Des images pour produire le monde tel qu’il devrait être

Stéréotypes partout

Avec l’IA, toutes les modifications sont activables

IA générative vs. IA prédictive

Les défaillances de l’IA prédictive

Pourquoi les prédictions échouent-elles ?

Pourquoi l’IA ne peut pas prédire le futur ?

Nous sommes obnubilés à l’idée de prédire un monde imprévisible

L’IA générative, ce formidable bullshiter