06.01.2022 à 06:00
« Les gens ne prennent pas de meilleures décisions lorsqu’ils disposent de plus de données, alors pourquoi supposer que l’Intelligence artificielle, elle, le fera ? », interroge l’ingénieure et anthropologue Marianne Bellotti (blog, @bellmar) dans un article pour OneZero. Bellotti, longtemps responsable technique des Services numériques des États-Unis (@USDS), est désormais responsable du Humanitarian Data Exchange (HDX), la plus grande plateforme de données ouvertes de l’ONU sous l’égide du Centre pour les données humanitaires (@humdata).
Elle est également l’auteure d’un récent livre sur la gestion de projets informatiques : Tuez-les par le feu, comment gérer les systèmes informatiques vieillissants (et assurer l’avenir des systèmes modernes) (No Starch Press, non traduit, 2021) – un livre, qui, contrairement à ce que laisse croire son titre, ne propose pas de mettre à la poubelle les systèmes obsolètes – Bellotti est plutôt réputée pour avoir remis en état de fonctionnement des systèmes informatiques anciens et désordonnés -, mais au contraire, comme l’explique Jennifer Pahlka (@pahlkadot, blog), la directrice de Code for America dans un passionnant compte-rendu, faire table rase d’un système pour un nouveau permet surtout à la désorganisation qui a conduit à créer un mauvais système de se reproduire.
Dans l’introduction de son article pour OneZero, Bellotti revient sur un événement qu’on dit souvent fondateur de l’internet moderne (événement qu’avait raconté Tamsin Shaw dans la New York Review, traduit par Books), à savoir cette fameuse journée de 2008, où plusieurs Moghuls de la Silicon Valley avaient découverts l’économie comportementale sous les explications de Daniel Kahneman lui-même, prix Nobel et auteur de Système 1 / Système 2 (Flammarion, 2012). En comprenant comment les êtres humains prennent des décisions, l’histoire voudrait que les grands patrons de la Silicon Valley présents se soient alors mis à appliquer ces connaissances aux outils qu’ils développaient. Comme le souligne Bellotti, visiblement, lors de cette journée, personne n’a pourtant parlé d’intelligence artificielle ou de Big Data… Ce qui était au cœur de la conférence de Kahneman consistait à décortiquer la croyance qu’un agent (humain plus que machine) soit capable de prendre des décisions rationnelles. En tout cas, estime Bellotti, peut-être que certains entrepreneurs de la Silicon Valley présents à cette conférence ont compris que l’enjeu n’était pas tant d’obtenir des données ou des machines parfaites, mais bien de prendre en compte les préjugés qui nous façonnent. « Au lieu d’éliminer les préjugés humains, (l’enjeu était) d’organiser la technologie autour de ces préjugés ».
Le rêve que d’innombrables flux de données produisent une meilleure connaissance est aussi vieux que les ordinateurs eux-mêmes. Mais, quelle que soit la quantité de données que nous recueillons, la vitesse ou la puissance des machines, ce rêve semble toujours hors de portée, explique Bellotti. Les experts estiment que les spécialistes des données passent 80 % de leur temps à les nettoyer. Le ministère de la Défense américain dépense entre 11 et 15 milliards par an pour le personnel qui gère ses données. Pourtant, malgré des décennies d’investissements, de surveillance, de normes… « nous ne sommes pas plus près d’une connaissance totale grâce à un cerveau informatisé que nous ne l’étions dans les années 70 », malgré l’accroissement continu des données. Le retour sur investissement de l’IA semble aussi difficile à atteindre, pour le ministère de la Défense que pour les grandes plateformes de la Silicon Valley qui pataugent dans les imperfections de leurs outils de modération automatisés.
Image : l’article de Marianne Bellotti original pour One Zero : l’IA résout le mauvais problème.
Pour Bellotti, nous attendons de l’IA qu’elle produise une meilleure prise de décision par une connaissance « totale » d’une situation. Pourtant, comme le rappellent les travaux de Kahneman lui-même, en savoir plus ne signifie pas prendre une meilleure décision. « Dans la vie réelle, les décideurs cherchent surtout à économiser leurs efforts », rappelle l’ingénieure en pointant vers les travaux de Todd et Benbasat. « Une connaissance totale de la situation est moins souhaitable que des outils qui facilitent le travail d’équipe menant à une décision. Après tout, les décisions sont souvent jugées en fonction des résultats, ce qui inclut un peu de chance ainsi qu’une analyse correcte. Avant que ces résultats ne se concrétisent, même la stratégie la plus prudente et la plus minutieuse, étayée par les meilleures données, ne peut offrir de garantie, et toutes les personnes concernées le savent. C’est pourquoi le processus de prise de décision consiste moins en une analyse objective des données qu’en une négociation active entre des parties prenantes ayant des tolérances différentes en matière de risques et de priorités », explique-t-elle en faisant référence aux travaux de Lucia Matinez Ordonez. « Les données sont utilisées non pas pour les informations qu’elles pourraient offrir, mais comme un bouclier pour protéger les parties prenantes des retombées possibles », rappelle-t-elle en faisant référence au livre de Christopher Hood, spécialiste des politiques publiques, The Blame Game (Princeton University Press, non traduit, 2011, extrait.pdf). Une information parfaite – si tant est qu’elle soit réalisable – soit n’apporte aucun avantage, soit réduit la qualité des décisions en augmentant le niveau de bruit.
Cela semble invraisemblable, et pourtant ! « Une information parfaite devrait automatiquement améliorer le processus de décision. Mais ce n’est pas le cas, car un supplément d’informations modifie rarement la politique organisationnelle qui sous-tend une décision », explique Bellotti.
« Tant que les décisions devront être prises en équipe, en tenant compte des différentes parties prenantes et de leurs incitations, la meilleure façon d’améliorer la prise de décision ne consistera pas simplement à ajouter des capteurs pour obtenir plus de données. Il faut améliorer la communication entre les parties prenantes. »
Pour Marianne Bellotti, l’enjeu n’est peut-être pas d’investir des milliards de dollars pour nettoyer les données et affûter les capteurs, mais de nous intéresser plus avant à l’organisation de la communication et aux règles de décisions entre les parties !
Améliorer la qualité des données n’est pas si simple. « La façon dont nous parlons de la qualité des données est trompeuse. Nous parlons de données « propres » comme s’il existait un état unique où les données sont à la fois exactes (et sans biais) et réutilisables. Or, propre n’est pas synonyme d’exact, et exact n’est pas synonyme d’exploitable. Des problèmes sur l’un ou l’autre de ces vecteurs peuvent entraver le développement d’un modèle d’IA ou nuire à la qualité de ses résultats. Il existe de nombreuses raisons pour lesquelles les données qui entrent dans un modèle peuvent être problématiques. Certaines sont évidentes : les données sont factuellement incorrectes, corrompues ou dans un format inattendu. D’autres problèmes sont plus nuancés : les données ont été capturées dans un contexte particulier et sont réutilisées de manière inappropriée ; les données n’ont pas le bon niveau de granularité pour l’objectif du modèle ; ou les données ne sont pas normalisées, et les mêmes faits sont représentés ou décrits de différentes manières. »
S’il est déjà difficile de résoudre un de ces problèmes, il est pratiquement impossible de les résoudre tous dans une grande organisation ou dans un environnement complexe. Depuis l’IA, nous avons souvent tendance à croire que l’innovation crée des opportunités, oubliant de souligner qu’elle crée aussi des vulnérabilités. « L’intelligence artificielle inventera de nouvelles façons d’attaquer les problèmes, mais aussi de nouvelles façons d’être attaqué. Tout comme la numérisation des centrales électriques, des transports publics et des systèmes de communication a donné naissance à la cybercriminalité », l’IA risque de créer de nouvelles formes de défaillances. « Les systèmes d’IA actuels sont complètement dépendants de la qualité de leurs données, non pas parce que la technologie est immature ou cassée, mais parce que nous les avons conçus pour qu’ils soient vulnérables de cette manière. »
Nous devons les rendre plus résistants aux mauvaises données, « antifragiles », pour reprendre le concept forgé par Nassim Nicolas Taleb (@nntaleb) dans son livre éponyme. Antifragile désigne une conception qui non seulement sait se remettre d’un échec, mais surtout qui devient plus forte et plus efficace lorsqu’elle est exposée à l’échec. Les sciences cognitives nous apprennent que les bonnes décisions sont « le produit de l’articulation proactive des hypothèses, de la structuration des tests d’hypothèse pour vérifier ces hypothèses et de l’établissement de canaux de communication clairs entre les parties prenantes ». À l’inverse, les mauvaises décisions, les erreurs humaines, sont le résultat d’un blocage, d’un biais, sur l’une de ces trois conditions. « Lorsque les gens ne formulent pas clairement leurs hypothèses, ils appliquent des solutions qui sont inappropriées compte tenu des conditions du terrain. Lorsque les gens ne testent pas leurs hypothèses, ils ne parviennent pas à adapter leurs bonnes décisions aux conditions changeantes. Lorsque les opérateurs de première ligne ne sont pas en mesure de partager efficacement les informations en amont de la chaîne de commandement et entre eux, les occasions de repérer les conditions changeantes et de remettre en question les hypothèses sont perdues, au détriment de tous. »
Si l’IA est si vulnérable aux mauvaises données c’est parce que « nous accordons trop d’importance à ses applications de classification et de reconnaissance et pas assez à ses applications de suggestion et de contextualisation ». En d’autres termes, explique Bellotti, une IA qui prend des décisions à la place des gens est une IA qui peut être sabotée facilement et à peu de frais.
La conception d’une IA antifragile est difficile, car la ligne de démarcation entre l’acceptation du résultat de l’analyse d’un algorithme comme une conclusion et son traitement comme une suggestion ou une incitation est un défi de conception – c’est la question sur laquelle Ben Green attirait notre attention récemment, nous invitant à évaluer les outils d’aide à la décision, mais également les décisions prises depuis eux. Pour Bellotti, le piège repose dans le risque de considérer les résultats des IA comme des conclusions. Cela ne conduit qu’à des erreurs catastrophiques, comme l’a montré l’usage de l’IA à la justice pénale ou au maintien de l’ordre. « Le modèle a été construit pour contextualiser, mais l’interface utilisateur a été construite pour rapporter une conclusion », soutient Bellotti qui réduit peut-être un peu rapidement le problème à une question d’interface, de design, oubliant un peu rapidement l’idéologie politique et financière qui soutient le déploiement de ces solutions.
Dans le même temps, bien souvent, l’IA médicale, elle, a permis d’améliorer la qualité de la prise de décision – enfin, pas toujours, nombre de systèmes d’IA en santé sont avant tout défaillants -, d’abord parce que de nombreux défis diagnostiques n’ont pas de réponse correcte unique (tout comme les résultats de l’IA, largement statistique, probabiliste et inductive, comme l’expliquait, très clairement David Weinberger). En matière de diagnostic, tout un ensemble de symptômes a une série de causes possibles avec des probabilités différentes. Un clinicien construit un arbre de décision dans sa tête avec toutes les possibilités auxquelles il peut penser et les tests qui excluent certaines possibilités. Le processus de diagnostic d’un patient consiste à créer un cycle consistant à définir des hypothèses, à prescrire des tests et à réduire de plus en plus l’ensemble des réponses possibles jusqu’à ce qu’une solution soit trouvée.
Ainsi, les produits conçus pour aider les médecins en leur proposant d’autres possibilités à ajouter à leurs modèles mentaux et en identifiant les tests susceptibles d’accélérer le temps nécessaire à l’établissement d’un bon diagnostic ont permis d’améliorer les résultats de diagnostic des patients en dépit de mauvaises données. Dans ces cas, l’IA a été utilisée pour améliorer la communication et le partage des connaissances entre les professionnels de la santé ou pour obtenir du patient des informations nouvelles et pertinentes à des moments critiques. À l’inverse, les produits d’IA qui tentent de surpasser les médecins en classant les éléments à leur place, comme en tentant de déterminer si une tumeur est cancéreuse ou pas ou si des tâches pulmonaires sur une radio sont relatives au Covid ou pas, ont surtout été confrontés aux mauvaises données qui les alimentaient.
Pour Bellotti, « si l’objectif de l’IA est d’améliorer la prise de décision, alors elle devrait orienter les décideurs vers des tests d’hypothèses, et non essayer de surpasser les experts. Lorsque l’IA tente de surpasser les experts, elle devient entièrement dépendante de la qualité des données qu’elle reçoit, ce qui crée un ensemble de vulnérabilités » difficilement surmontables. Une IA antifragile ne doit pas prendre de décision, mais aider à élargir les choix. Elle devrait plutôt aider « les gens à formuler les hypothèses qui sous-tendent la décision, à communiquer ces hypothèses à d’autres parties prenantes et à alerter les décideurs en cas de changements importants dans les conditions du terrain en rapport avec ces hypothèses ».
Dans un billet de blog précédent Marianne Bellotti proposait d’améliorer l’IA en la rendant plus lente ! Si, très concrètement et trop souvent, l’IA accélère le processus de décision, son but devrait plutôt être de le ralentir explique-t-elle. En 2020, Marianne Bellotti a rejoint une entreprise qui travaille dans le secteur de la défense. Une décision difficile, parce que les technologies de Défense sont un environnement riche en dilemmes éthiques et qu’il est pour beaucoup plus préférable de garder les mains propres en évitant toute implication ou compromission avec ce secteur. Une occasion pour Marianne Bellotti d’interroger concrètement ce sujet de l’éthique. « Tout le monde dans la communauté technologique parle de construire des produits « éthiques » et personne ne peut vraiment définir en quoi un processus de développement de logiciels qui produit des produits éthiques est différent d’un processus qui produit des produits normaux ». Et Bellotti de préciser : « Je ne suis pas le genre de personne qui croit que les résultats sont déterminés par la qualité des personnes. Les meilleurs ingénieurs construisent parfois ensemble des technologies de merde. Les équipes ne sont pas la somme de leurs parties. Il ne suffit pas de réunir une collection de personnes réfléchies pour qu’elles construisent une technologie éthique ». Par contre, les équipes sont toujours la somme de leurs interactions. Or, explique-t-elle, elle aime concevoir des processus efficaces, et c’est dans ces processus formels et informels qu’on doit pouvoir construire des réponses éthiques.
Image : capture d’écran de l’article de blog original de Marianne Bellotti, pour faire un meilleure IA il faut une IA plus lente.
Cette entreprise spécialisée dans l’IA et la Défense organise chaque mois une réunion permanente à l’échelle de l’organisation pour discuter éthique. Plutôt que de distinguer outils offensifs et défensifs, ces discussions se sont concentrées sur l’idée de distinguer l’escalade et la désescalade d’un conflit. « Une technologie responsable dans le domaine de la défense est une technologie qui aide les gens à réfléchir de manière plus approfondie et plus critique aux choix qui s’offrent à eux. Une technologie irresponsable les encourage à tirer des conclusions hâtives ou les laisse si loin de la réalité sur le terrain qu’elle déshumanise les personnes qui sont affectées par le déploiement de cette technologie. » Mais comment concevoir une IA qui désamorce les situations ?
Les spécialistes de l’IA éthique insistent souvent sur l’importance à garder « l’humain dans la boucle », c’est-à-dire à la fois faire que les décisions prises par les systèmes soient toujours contrôlées par des humains. Ce principe d’humains dans la boucle – qui édulcore et dépolitise le « Pas pour nous sans nous » des revendications militantes, à mon sens – est un principe efficace lorsqu’il s’agit de conception politique, estime Bellotti, mais il est plus difficile à mettre en œuvre dans la conception de technologies, notamment parce par nature, elles redistribuent la manière dont le travail humain est appliqué dans un processus. Ainsi, lorsqu’une technologie est introduite dans une tâche existante, certaines étapes sont automatisées et le travail humain est redistribué… Mais il est souvent difficile de savoir si le fait de déplacer le contrôle humain dans le processus met le contrôle humain hors circuit ou non.
Pour sortir de la contradiction, il est nécessaire de revenir aux différences entre la pensée humaine et la pensée informatique, explique-t-elle en revenant justement à Daniel Kahneman. Dans Système 1 / Système 2, Kahneman distingue la pensée intuitive (le type 1), rapide, qui se base principalement sur la correspondance des modèles et la pensée analytique (le type 2), lente, souvent de nature statistique qui vise à corriger les erreurs de la première. Contrairement aux humains, pour les ordinateurs, la pensée analytique leur est facile alors que la pensée intuitive ne leur est pas facilement accessible. Or, trop de produits d’IA visent à accélérer la pensée de type 1 pour les opérateurs humains, alors qu’elle n’est pas adaptée à cela. Pour Bellotti, la ligne de démarcation entre les produits d’IA bénéfiques et ceux qui créent des problèmes repose certainement dans une forme d’accélération. Or, accélérer les décisions intuitives n’apporte souvent aucun avantage supplémentaire à l’utilisateur, mais augmente considérablement les risques d’erreur critique. « Si les êtres humains ont du mal avec la pensée de type 2 et excellent dans la pensée de type 1, si les ordinateurs ont du mal avec la pensée de type 1 et excellent dans la pensée de type 2, et si une bonne prise de décision implique l’utilisation de la pensée de type 2 pour vérifier les erreurs de la pensée de type 1, pourquoi construisons-nous des machines pour faire la pensée de type 1 à notre place ? N’est-il pas beaucoup plus utile d’utiliser les ordinateurs pour rendre la réflexion lente plus efficace en termes de ressources plutôt que de rendre la réflexion rapide plus rapide ? »
« Plus j’explore la question de l’IA et de l’éthique, plus je comprends l’importance de la sélection des problèmes », explique Bellotti. Et la chercheuse de donner un exemple concret en comparant deux systèmes de calcul automatisé du risque de récidive : Compas, cette machine à biais, très légitimement décrié et très utilisé par la justice américaine (voir notamment notre dossier sur la justice analytique) et un autre outil, ESAS (pour Equity in sentencing analysis system, un logiciel qui donne accès aux peines similaires prononcées dans des affaires antérieures selon des antécédents de condamnation proche). Les deux technologies semblent adresser le même problème : faire des recommandations sur les peines depuis des historiques. D’un côté, Compas analyse de nombreuses données, notamment personnelles, pour en tirer des conclusions simples que le juge peut ignorer, mais ne peut pas approfondir ou contester. ESAS en revanche, se concentre uniquement sur les informations relatives et permet d’accéder à des affaires similaires pour explorer le contexte des peines qui ont été produites, permettant de comprendre ce qui dans un cas explique ce qui a valu une longue peine ou une peine plus clémente. Compas fait un raisonnement de type 1 pour le juge, et parce que les données et systèmes de calculs utilisés sont cachés, le raisonnement de type 2 qui permettrait de vérifier les biais et erreurs d’appréciations est lui totalement bloqué. Pire, souligne Bellotti, Compas attribue une valeur numérique à ses recommandations. Un repris de justice n’est pas seulement à haut risque, il est à haut risque sur une échelle qui produit un biais d’ancrage sur l’utilisateur qui y est par nature sensible (donnez à quelqu’un un chiffre élevé, et même s’il pense que ce chiffre élevé est faux, le chiffre par lequel il le remplace sera plus élevé que celui qu’il aurait estimé autrement). Compas « automatise la pensée de type 1, sujette aux erreurs, empoisonne le jugement de l’utilisateur avec une valeur d’ancrage arbitraire et empêche la pensée de type 2 de détecter les problèmes. » Dans la définition du problème par Compas, se trouve également le monstre d’une hypothèse très problématique : une personne à haut risque de récidive sera rendue moins susceptible de récidiver en lui donnant une peine de prison plus longue ! Compas ne considère pas que la relation pourrait être inverse : les personnes qui passent plus de temps en prison se déconnectent des réseaux de soutien sociaux et sont plus susceptibles de récidiver pour survivre… « C’est le danger de remplacer la pensée de type 1 faite par des humains par une pensée de type 1 faite par des ordinateurs. Les ordinateurs peuvent calculer une corrélation, mais ils ne peuvent pas construire une narration autour d’elle pour transformer cette corrélation en informations exploitables. Par conséquent, même les meilleurs algorithmes ont besoin d’êtres humains pour prendre en compte le contexte de leurs résultats. L’IA qui supprime ce contexte vit ou meurt en fonction de la précision de son modèle. »
À l’inverse, les premiers de l’ESAS en Floride ont montré qu’en associant un cas à une série de cas comparables et en permettant aux utilisateurs d’explorer les contextes, ont plutôt conduit à réduire les peines qu’à les renforcer.
Les récits sur l’IA et sur les technologies insistent beaucoup sur ce qui est remplacé par la technologie et l’IA plutôt que ce qu’elle redistribue. « L’impact et l’efficacité finale de tout produit qui utilise l’IA ne sont donc pas déterminés par les algorithmes qu’il utilise, mais par la manière dont il redistribue l’effort humain. Crée-t-il plus d’opportunités pour la pensée critique ou encourage-t-il plus d’action avec moins de réflexion et de discussion ? » Les ingénieurs qui construisent des outils d’IA doivent porter attention à l’interaction homme-machine, insiste-t-elle. « L’IA qui fait de la pensée de type 1 pour l’utilisateur et bloque la pensée de type 2 conduit généralement à des résultats désastreux. L’IA qui augmente les possibilités de réflexion de type 1 et encourage l’utilisateur à ajouter la vérification des erreurs de type 2 à la réflexion de type 1 de la machine, tend à augmenter l’utilité. »
Pour le dire très simplement, si l’IA ne nous aide pas à réfléchir, elle ne nous sera d’aucune utilité.
Hubert Guillaud
Et merci à Matthieu Belbèze (@lemarsographe, newsletter) pour m’avoir conduit jusqu’aux articles de Marianne Bellotti, grâce à son article pour Le Vent se lève (@lvslmedia), que je vous recommande vivement : « La révolution numérique est profondément conservatrice ».