LePartisan.info À propos Podcasts Fil web Écologie BLOGS Revues Médias
KHRYS
Souscrire à ce FLUX

Revue hebdomadaire du web


▸ les 20 dernières parutions

23.02.2025 à 09:00

IA : les machines du doute

Framasoft

Il va nous falloir apprendre à travailler avec l’instabilité des machines.
Texte intégral (1360 mots)

Cet article est une republication, avec l’accord de l’auteur, Hubert Guillaud. Il a été publié en premier le 21 mai 2024 sur le site Dans Les Algorithmes sous licence CC BY-NC-SA.


 

Il va nous falloir apprendre à travailler avec l’instabilité des machines.

 

 

 

 

 

 

 

Quand on fait réaliser un calcul par une machine, aussi complexe soit-il, la plupart du temps, ce qui est garanti, c’est l’assurance du résultat, sa stabilité, sa performance. C’est le principe d’une calculatrice ou d’un logiciel : on a au bout le résultat et les fonctions prévues. Dans un système de calcul comme les impôts, on prend des données et des règles de calcul – qui peuvent être perfectibles, certes – et on obtient des résultats sans ambiguïtés, pour autant que les données et les règles de calcul n’en comportent pas – ce qui n’est déjà pas si évident à réussir ! Dans un jeu vidéo, les personnages non joueurs suivent des scripts dont ils ne peuvent pas sortir, ce qui limite certes considérablement l’interaction, mais la borne et rend le jeu possible. Le monde de l’informatique est longtemps resté celui de la maîtrise de bout en bout des processus.

Les choses ont changé avec les systèmes d’IA. Avec certaines fonctionnalités, nous avons pris l’habitude d’un taux de performance. Pour la reconnaissance d’objets par exemple, le résultat n’est pas automatique comme avec les calculatrices. Le niveau de fiabilité n’est pas optimal, mais nous sommes capables de composer avec le fait que les machines soient capables de reconnaître tels types d’objets à 95 ou 98 %. Ce n’est pas une performance absolue, mais elle permet malgré tout d’optimiser un processus en connaissant par avance son taux d’erreur, de l’accepter ou le refuser. Et donc de décider en fonction. On peut créer une chaîne de tri d’objets en sachant que ce tri va fonctionner à 95 % et accepter ou pas la déperdition qui en résulte.

L’IA générative est plus instable encore. Les résultats qu’elle produit ne sont pas reproductibles. Un même prompt ne produira pas exactement le même résultat ou la performance pourra dépendre de la complexité que la machine doit adresser. Extraire des données d’un document, comme les noms des personnes ou leurs liens de filiation peut dépendre à la fois de la lisibilité des documents et de la complexité des relations entre ces personnes. Si le système peut être performant, reste à identifier les cas où il dysfonctionne et savoir si ces erreurs sont acceptables ou rédhibitoires et si l’on peut clairement séparer les cas où la performance est forte, de ceux où elle ne l’est pas. L’enjeu à évaluer l’incertitude des réponses apportées est une question centrale.

Cette perspective d’une fiabilité différentielle dessine un nouveau rapport aux machines. D’un coup, notre assurance dans leurs résultats doit être mise en doute. Ce qui explique qu’il soit difficile d’automatiser certaines tâches avec l’IA. Là où l’on pouvait se fier aux calculs, désormais, le doute est légitime. Alors qu’un robot était capable de remplacer une personne pour une tâche spécifique sur une chaîne d’assemblage, le chatbot conversationnel qui répond à un administré ou à un joueur va devoir être surveillé. Certaines de leurs performances sont excellentes bien sûr, mais parfois elles sont capables de sous-performances dramatiques. Comme le dit le sociologue Yann Ferguson, « Jusqu’à maintenant, l’introduction des machines a apporté de la sécurité et de la stabilité. Leur force résidait dans leur prévisibilité ». Ce n’est plus le cas. Désormais, les résultats doivent être accompagnés, surveillés, contrôlés et c’est là un nouveau défi pour ceux qui cherchent à intégrer l’IA générative à leurs procédures.

Mais, au-delà de l’IA générative, ce que dessine ce changement de paradigme, c’est un autre rapport aux machines : voilà qu’on ne peut plus leur faire entièrement confiance. Non seulement, il faut se défier des biais des données, des règles de calculs utilisées, mais désormais de leurs résultats mêmes. Et la grande difficulté consiste à savoir là où on peut leur faire confiance et là où on ne doit pas leur faire confiance.

Un imagier pour enfants avec des animaux. Certains animaux sont des fusions, d'autres sont mal nommés : Le cochon est appelé « Vache », ou ce qu'il semble être la fusion entre un chat et un chien un « cochon ».

Exemple d’un imagier pour enfant sur les animaux de la ferme conçu par chatGPT…
… qui n’est pas sans poser problèmes. Tweet de Tristan Mendès France.

 

Les technologies ont toujours eu pour ambition de nous faire gagner en productivité, avec pour enjeu de pouvoir remplacer des hommes par des procédures avec un niveau de confiance très élevé. On est en train de passer d’une technique qui produit une certaine forme de rationalité qu’on était capable d’évaluer simplement à une technique qui n’en produit plus ou pas nécessairement ou pas principalement et sans qu’on soit toujours capable d’évaluer sa fiabilité. C’est un changement de paradigme important qui nous oblige à ne plus être certain de la réponse produite par la machine, de ne plus pouvoir lui faire entièrement confiance. L’IA nous demande désormais de composer avec le doute, de remettre en question nos assurances. Nous avons un nouveau rapport aux machines à imaginer et il nous invite à douter d’elles.

C’est une très bonne nouvelle, vous ne trouvez pas ?

19.02.2025 à 14:50

Un nouvel ouvrage sur les communs de proximité

Framasoft

Voici près d’un an, une douzaine d’auteurices, réunis par la Coop des communs, ont donné naissance à « Les communs de proximité. Origines, caractérisation, perspectives ». Plusieurs d’entre eux ont accepté de répondre à quelques-unes de nos questions. Bonjour, vous avez sorti, … Lire la suite­­
Texte intégral (4342 mots)

Voici près d’un an, une douzaine d’auteurices, réunis par la Coop des communs, ont donné naissance à « Les communs de proximité. Origines, caractérisation, perspectives ». Plusieurs d’entre eux ont accepté de répondre à quelques-unes de nos questions.

Bonjour, vous avez sorti, en mars dernier, un ouvrage collectif traitant des communs, nous avons eu envie d’en savoir plus. Mais avant cela, pouvez-vous vous présenter pour le Framablog ?

Justine Loizeau : Cet ouvrage est le résultat d’un travail collectif au sein du groupe « Services de Proximité » de La Coop des Communs. Cette dernière est une association fondée en 2016 dont le but est de confronter l’expérience acquise entre praticien·nes et chercheur·es des communs d’un coté, et de l’économie sociale et solidaire (ESS) de l’autre. L’ambition est de favoriser une revitalisation de l’ESS à partir de la philosophie et des pratiques qui animent les communs tout en permettant aux communs de tirer partie de la longue expérience organisationnelle et institutionnelle de l’ESS. De manière plus concrète, la Coop des Communs se penche sur des thématiques précises (ex : les plateformes, la forêt, la comptabilité…) par groupes de travail.
Le groupe « Services de Proximité » a rassemblé de 2020 à 2023 une trentaine de membres dont une quinzaine active sur le terrain. Seule une partie a pris la plume : 11 auteur·ices. J’ai participé à la coordination de l’ouvrage avec Nicole Alix et Benjamin Coriat.

Logo de la Coop des Communs

Votre livre fait la lumière sur diverses expériences de communs de proximité, par le biais de plusieurs articles. Pourriez-vous nous donner une définition de ce qu’est un commun, et ce que vous désignez par « Communs de proximité » ?

Justine : C’est Benjamin Coriat qui propose une définition dans son chapitre. En se référant à Ostrom, on peut définir les communs selon le triptyque : ressource – communauté – règles. Un commun correspond à une forme d’organisation sociale selon laquelle une communauté humaine gère une ressource selon des règles qu’elle a auto-produite. On parle aussi d’auto-gouvernance.
Selon Benjamin Coriat, les communs de proximité correspondent à un type particulier de commun qu’il définit ainsi : « toute entité ancrée sur un territoire (sa population, sa géophysique…), d’initiative citoyenne et régie par des règles élaborées en commun, dont la visée est le service de l’intérêt général et du bien commun au sens où les services proposés sont conçus pour contribuer à la reproduction conjointe des écosystèmes et des communautés qui constituent le territoire considéré. » Le trait constitutif de ce type de commun est de répondre avant tout à l’intérêt général, et non à l’intérêt collectif. Quelle différence ? L’intérêt collectif, c’est quand une organisation, ici un commun, répond à l’intérêt de ses membres (et uniquement de ses membres). Pour répondre à l’intérêt général, il faut au moins que les bénéficiaires du commun dépasse le cercle de ses membres.

Dans la définition que vous explicitez d’un commun de proximité, une précondition est que le service proposé le soit sur la base d’une initiative citoyenne « auto organisée ». Aucun service public ne pourrait donc prétendre à être un commun de proximité ?

Justine : Dans notre groupe, nous avons beaucoup réfléchi à la notion de service public. J’ai appris que tous les pays ne donnaient pas autant d’importance à cette notion que la France. Jean-Claude Boual montre par exemple dans son chapitre, qu’au niveau européen, on utilise plutôt l’expression de « service d’intérêt économique général » qui est teintée d’une certaine vision politique, notamment que ces services seront plus efficaces s’ils sont régis par le principe de concurrence. Cette vision va à l’encontre de monopoles d’État pour fournir les services d’électricité, d’eau, de transport.
Et si la notion de service public est très présente dans le débat public français, c’est finalement très difficile d’en formuler une définition simple. On a donc choisi d’admettre au début de notre ouvrage, la simplification de qualifier le service public comme ce qui renvoie à une activité d’intérêt général (enseignement, police, justice) gouverné par l’administration publique qui les norme. L’administration ne les opère pas forcément directement. En effet, le service public peut être délégué au secteur privé marchand (ex : gestion des déchets ou de l’eau). Mais dans ce second cas, elle donne des obligations au gestionnaire. De plus, le service public répond en théorie à des grands principes : continuité (par exemple, en cas de grève, il est possible de procéder à une réquisition), égalité des usagèr·e·s devant le service public et adaptabilité aux évolutions. Enfin, dans la tradition française, les services publics ont la particularité d’être conçus comme des services universels. On observe même une tendance à l’universalisation d’un usager type. L’attention est alors plus faible aux spécificités de chaque personne.
En bref, on voit que la particularité des services publics en France c’est d’être régis par le haut. Or les communs sont des dynamiques par le bas. On part des besoins et des capacités des personnes, mais aussi des spécificités des territoires. Donc, les services produits par ces initiatives correspondent à des choses que le service public ne fait pas ou ne fera jamais. Par exemple, dans son chapitre, Julie Lequin évoque un projet de maison de l’alimentation dans le Pays Foyen (33). C’est un projet tellement construit sur les besoins spécifiques du territoire, qu’il n’aurait jamais pu être entièrement conçu par une administration publique. Pour preuve, ce projet a des difficultés à entrer dans les « cases administratives » pour obtenir des financements !

 

En France les Communs sont parfois menacés par les pouvoirs publics, en partie de façon délibérée, par exemple pour transférer des communs existants vers le privé, et parfois sans l’avoir vraiment conscientisé, en raison de la frontière très forte entre service public et usagers, d’une méfiance envers les projets collectifs, ou d’une croyance en l’incompétence des citoyen⋅es. Comment arriver à faire coexister les deux selon vous ? Quels secteurs / services publics sont les plus ouverts aux Communs, et au contraire les plus fermés ?

Nicole Alix : les « services publics » et les « communs » sont deux concepts difficiles à appréhender, aussi leurs rapports sont forcément compliqués ! Dans les chapitres 6 et 7, on précise : il ne faut pas confondre avec « le service public » ni avec les services rendus par les pouvoirs publics car certains sont délégués au « privé » comme mentionné dans la question ; et le privé peut être  lucratif -transports, énergie..- ou privé non lucratif -service public hospitalier, par exemple, auquel participent de nombreuses associations et, désormais le « service public de la petite enfance). Et il ne faut pas non plus confondre service public et service d’intérêt général !
Ce que nous pensons, c’est que les communs peuvent, en insufflant des modes de gouvernance définis et mis en œuvre par les personnes participantes, être un élément de dynamisation et d’imagination dans la gouvernance des services publics parce qu’ils partent d’initiatives de proximité et de besoins concrets des populations.
La forme associative est choisie par beaucoup de personnes concernées par un besoin pour s’organiser entre elles, afin de bien le définir, en contrôler en permanence et dans le temps les modalités de fabrication de la
réponse et de la façon dont cette réponse aux besoins est délivrée. Chaque mot compte dans cette phrase un peu longue, comme expliqué dans le chapitre sur les liens entre associations et communs.
Et n’oublions pas qu’il existe des « secteurs » dans lesquels il n’y a jamais de définition de « service public » (le numérique par exemple ?) et que, donc, les forces citoyennes organisées pour servir l’intérêt général sont d’autant plus précieuses !

Vous rappelez qu’il y a eu une volonté politique, dans les années 1980 de séparer le pouvoir économique et le pouvoir citoyen des associations. Pouvez-vous nous expliquer l’intérêt de posséder ces deux pouvoirs pour les associations ?

Nicole : Jusqu’aux années 80, personne n’avait conscience de la puissance économique que représentaient les associations, qui géraient par exemple des activités sociales, d’éducation populaire, sportive, culturelles.. C’est à l’occasion de l’arrivée de la gauche au pouvoir qu’on l’a identifiée et, du coup, la gauche a pensé qu’il fallait faire un tri entre les associations « gestionnaires » et celles qui ne feraient que de la défense de droits et différencier les modèles et les règles applicables. Mais tout le milieu associatif a protesté, au motif que différencier l’objectif politique de la méthode pour y parvenir aboutit à priver de moyens d’action ! Si je fais de l’éducation populaire, je fais de la gestion aussi bien que de la recherche d’émancipation ! Donc les associations ont eu dès les années 80, de bonnes raisons de négocier la possibilité de garder des activités économiques sous chapeau associatif (cf chapitre 6)  : c’est la garantie d’un rôle de contre-pouvoir. Une organisation qui cumule un pouvoir citoyen (politique donc), ET un pouvoir économique (c’est-à-dire la possibilité de répondre aux besoins des personnes qu’elles veulent défendre, promouvoir) est éminemment subversif. L’histoire montre que, lorsque des mouvements sociaux acquièrent un pouvoir économique, ils deviennent dangereux, car ils peuvent contrebalancer les forces de marché ou l’ordre public administré. L’État est alors tenté de les priver de leurs ressources financières : par exemple, il a enlevé aux syndicats ouvriers la gestion des œuvres sociales que ceux-ci avaient créées au sein des entreprises au 19ème siècle et les a confiées à des comités d’entreprise sans personnalité juridique, présidés par le chef d’entreprise.

 

Couverture du libre « Les Communs de proximité » publié aux Éditions Science et bien commun

 

Vous évoquez les réactions de l’état face à la ZAD de Notre-Dame-des-Landes ou encore à Sainte-Soline, comment pourrait-on redéfinir la notion de commun foncier du XXIe siècle ?

Nicole : C’est une bonne question sur laquelle La Coop des Communs continue ses travaux, notamment avec la Chaire Valcom. Les communs fonciers ancestraux représentent une forme de vitalisation des espaces ruraux qui peuvent servir au-delà de ce pour quoi ils ont été conçus dans l’histoire. Peut-être pour un prochain livre ?

Le livre présente l’expérience de commun alimentaire par les  habitant·e·s du Pays Foyen. Quels sont les éléments essentiels pour mettre en place une telle initiative ? Quels en sont les enjeux ?

 

Julie Lequin : Il me semble qu’on ne devrait pas poser la question de cette façon, notamment parce qu’elle masque l’essentiel : la question du QUI met en place (et pour qui) – surtout que cela permet de conduire ensuite à la question du pourquoi.
Ainsi, le point de départ d’une telle initiative, c’est un/des besoins d’habitants. Besoins qui n’arrivent pas toujours à s’exprimer, et qu’il faut donc parfois accompagner dans leur émergence et leur expression – a minima sans les dévoyer, si possible sans (trop) les transformer – c’est-à-dire sans y plaquer ses propres intentions. Dans le cas du Pays Foyen, on retrouve certaines populations éloignées cognitivement, géographiquement ou culturellement des espaces où se discutent une partie des enjeux sociétaux, politiques, etc. Il y a donc un enjeu, dans de telles initiatives, d’avoir une attention particulière à aller chercher cette parole.
Et ensuite, le chemin doit se construire AVEC les personnes – à la mesure de comment elles peuvent, elles-mêmes, s’impliquer dans ce type d’initiative. Bien souvent, de façon hétérogène et cette diversité doit être accueillie de façon à proposer, en retour, différentes modalités de participation. Dans le coin du Pays Foyen, c’est aussi bien participer à cultiver la parcelle collective du jardin partagé, qu’organiser un ciné-débat sur l’alimentation, que d’être bénévole aux Restos du Cœur, que de donner un coup de main sur des ateliers de cuisine de rue, etc. « Faire avec » demande du temps, de l’attention et de l’entretien de la part de la communauté et cela reste un des enjeux majeurs du commun alimentaire.

 

Un article traite d’un exemple de Communs en Italie. En quoi le traitement des pouvoirs publics envers les Communs est différent d’avec la France ?

Nicole : Dans leur chapitre, Daniela Ciaffi, Emanuela Saporito et Ianira Vassallo expliquent que la Constitution Italienne consacre le principe de subsidiarité « horizontal » : « L’État, les Régions, les Villes Métropolitaines, les Provinces et les Municipalités favorisent l’initiative autonome des citoyens, particuliers et associations, pour la réalisation d’activités d’intérêt général, sur la base du principe de subsidiarité ». Le principe de subsidiarité est également présent dans la loi sociale allemande, sous une autre forme. Dans ces traditions, il renvoie à une forme d’aide qui encourage et autorise l’autonomie des échelons « de base » avec le secours de l’échelon « supérieur ». Dans les Traités européens la subsidiarité signifie au contraire que l’UE n’intervient que « si et dans la mesure où les objectifs de l’action envisagée ne peuvent pas être réalisés de manière suffisante par les États membres ».  En tout état de cause, non seulement ce principe n’existe pas en droit français, mais la façon dont nous avons construit l’État français s’y oppose souvent. D’où l’opinion que notre Etan français serait jacobin et l’idée qui en découle que tous les « services au public » devraient être réalisés par des fonctionnaires dans un service public.

Exemple de mise en œuvre en Italie avec un événement organisé avec le quartier dans le cadre des activités d’un Pacte de collaboration. Source : Marcella Iannuzzi.

Dans le chapitre 8, vous soulignez le risque que le service public s’accapare les communs. N’est-il pas paradoxal de s’appuyer sur deux études de cas qui sont déjà des services publics (Freinet et les lycées auto-gérés) ?

Nicole : Le chapitre de Thomas Perroud éclaire justement la situation française spécifique où le service public défini comme un service rendu par des fonctionnaires de la fonction publique s’oppose aux initiatives de participation et de contribution comme on le souhaiterait dans les communs. On aurait aussi pu connaître une situation similaire dans l’action sociale, mais, à la différence du monde de l’éducation, dans ce secteur de l’action sociale l’énorme majorité (90 % dans le secteur du handicap) était organisée sous forme associative. Ces associations se sont fédérées pour négocier avec les pouvoirs publics, en tentant de garder leur autonomie d’action (cf fin du chapitre 6).

 

Sans divulgâcher tout le contenu du livre, pourriez-vous nous expliquer en quelques mots les points communs et les différences entre l’ESS et les communs de proximité ?

Nicole : Nous le disons dans la conclusion notamment : l’ESS a été le lieu de la formation d’une série remarquable d’innovations institutionnelles visant à brider le pouvoir du capital (et à accroître le pouvoir des personnes concernées sur les services et solidarités qui leur sont nécessaires ainsi que le pouvoir des salarié·e·s sur leurs conditions de vie et de travail. Mais l’ESS est née avec l’industrialisation au 19ème siècle. Les communs se sont  constitués dans l’histoire longue et se déploient désormais dans tout un autre âge, spécialement celui des limites écologiques atteintes et désormais franchies par cet industrialisme et l’extractivisme sur lequel il est bâti. L’ époque de l’Anthropocène oblige à un nouveau souci central, celui d’assumer le défi tout à la fois de l’accès à toutes et tous aux ressources essentielles à leur subsistance et de préserver l’intégrité des écosystèmes pour le présent mais aussi pour les générations futures. C’est ainsi que le commun comprend dans sa constitution même l’idée que lorsque les règles de « prélèvement » des ressources, conçues pour assurer la reproduction des communauté humaines, menacent la biodiversité ou l’écosystème, celles-ci doivent être modifiées pour assurer la préservation des écosystèmes menacés. Cette dernière idée n’est pas dans les gènes des formes institutionnelles de l’ESS. Dans la conclusion nous écrivons :  « Ainsi et au total, il s’agit pour les communs d’une manière d’habiter le monde en rupture avec l’industrialisme et l’extractivisme qui en est le principe moteur. La question de l’écologie est au cœur des communs et en fonde le principe. Elle est ‘marginale’ ou sans objet pour l’ESS et ses entités qui peuvent décider – ou non – d’en faire un de ses objets. »

 

Vous dites qu’il reste quelques efforts à faire par les fablabs pour devenir de réels Communs. Il existe de nombreux fablab y compris dans les milieux ruraux, certains plus institutionnalisés que d’autres. Pour nos lecteurices agissant au sein de fablabs, qu’est-ce qui peut faire qu’un fablab devienne un commun, au niveau local / réseau des fablabs ?

Matei Gheorghiu : En deux mots, il faut de l’ouverture et de la structure.
Pour développer, il est capital que les fablabs et espaces du faire (lieux où se regroupent des « makers » ou « faiseurs » pour se réaliser et réaliser leurs projets et partager des solutions et des outils) au niveau local trouvent leur place dans l’écosystème de proximité (ce n’est pas uniquement, ou pas principalement de leur ressort, on sait bien que la plupart manque déjà de moyens pour subsister). Les fablabs doivent certes être ouverts (ce n’est pas toujours le cas) mais leurs différents partenaires doivent également engager de réelles ressources en contrepartie de ce qu’un outil tel que le fablab (équipé de machines mais surtout de compétences et « branché » sur un réseau mondial) peut leur apporter : une ressourcerie low-tech capable de développer des solutions techniques de manière frugale et dans un temps très court, une plateforme de formation et de partage, connectée aussi bien à des structures similaires qu’à d’autres de nature très différente (un fablab rural peut être en contact direct avec un fablab universitaire ou métropolitain, avec tout ce que ça implique de bénéfices croisés), une capacité d’action fulgurante en cas de crise, comme l’a démontré la mobilisation des makers lors du Covid-19, etc.
Les makers doivent donc soutenir le développement du fablab local et son articulation harmonieuse aux structures de l’environnement, et les responsables de ces structures (publiques et privées) doivent accepter de conférer aux fablabs une certaine autonomie et d’intégrer à leurs logiques de fonctionnement ce que leur nature (ouverture, fonctionnement en pair à pair et en réseau, primauté de l’expérimentation …) impose, et pas seulement les cantonner à un rôle de gadget de communication.
Les fablabs et leurs partenaires doivent aussi continuer leur travail de structuration en réseau, sans lequel ces caractéristiques avantageuses sont incertaines et précaires (elles ne reposent que sur une coïncidence et non sur une organisation qui veille à leur maintien et à son caractère équitable). Pour ce faire, la première obligation est de participer à la vie du réseau (passer une heure par semaine sur le forum, c’est augmenter les chances qu’un besoin ou une question soient pris en charge en mode pair à pair ; participer à la vie démocratique du réseau, c’est s’assurer qu’il maintient son caractère de commun).
Le rôle du niveau Réseau et de ses animateurs est de soutenir le développement de la communauté, de favoriser le brassage des lieux et des personnes, d’accompagner l’enrichissement d’un capital informationnel commun, dans le respect des principes directeurs qui le constituent : inclusion (soin accordé à l’accueil d’autrui et à l’ensemble de ses « différences »), subsidiarité (préférence initiale pour l’action de proximité et remontée si besoin au niveau supérieur), articulation systématique à l’intérêt général (attention à prendre en considération l’ensemble avant la partie), internationalisme (ne pas préférer par exemple une solution 100 % française quand il est plus évident et efficace de travailler avec le fablab de l’autre côté de la frontière, ou quand la solution vient, par la voie des ondes, de l’autre bout de la terre, mais aussi et surtout œuvrer en se rappelant que les fablabs et leur réseau sont d’abord et avant tout un outil de paix et de solidarité).

 

Quelles seraient les clés pour que les communs de proximité prennent de l’ampleur dans les prochaines années ?

 

Justine : Dans notre conclusion, nous proposons plusieurs pistes, qu’il est possible de consulter. Je retiens personnellement une chose : il est incontournable que les personnes se réapproprient la légitimé à s’organiser. Les personnes sont les premières expertes de leurs besoins et de leur territoire. Mais c’est très difficile de se sentir capable quand on assène que seules certaines entreprises, ou certaines institutions peuvent avoir la compétence de prendre les choses en charge, et à leur manière.

 

Un énorme merci aux différents auteurices pour le temps passé à répondre à nos questions !

17.02.2025 à 07:42

Khrys’presso du lundi 17 février 2025

Khrys

Comme chaque lundi, un coup d’œil dans le rétroviseur pour découvrir les informations que vous avez peut-être ratées la semaine dernière. Tous les liens listés ci-dessous sont a priori accessibles librement. Si ce n’est pas le cas, pensez à activer … Lire la suite­­
Texte intégral (11879 mots)

Comme chaque lundi, un coup d’œil dans le rétroviseur pour découvrir les informations que vous avez peut-être ratées la semaine dernière.


Tous les liens listés ci-dessous sont a priori accessibles librement. Si ce n’est pas le cas, pensez à activer votre bloqueur de javascript favori ou à passer en “mode lecture” (Firefox) ;-)

Brave New World

Spécial Palestine et Israël

  • « From Ground Zero ». Gaza sous les bombes racontée par ses habitant·es (orientxxi.info)
  • The day Israel came for the booksellers (972mag.com)

    With a Palestinian coloring book as proof of ‘incitement,’ Israeli police raided East Jerusalem’s world-famous Educational Bookshop and arrested its owners.

  • 2024 is deadliest year for journalists in CPJ history ; almost 70 % killed by Israel (cpj.org)

    At least 124 journalists and media workers were killed last year, nearly two-thirds of them Palestinians killed by Israel.

  • Palestine. Décentrer le regard occidental (orientxxi.info)

    Massacres, torture, démolitions, expulsions, déplacement forcé, arrestations arbitraires : les crimes commis en Palestine et en Israël à l’encontre de la population palestinienne s’amoncellent et vont s’intensifiant ces dernières années, dans la totale impunité d’un État israélien qui se radicalise à l’extrême droite, et dont les dirigeant·es n’hésitent plus à appeler ouvertement au nettoyage ethnique des Palestinien·nes.

  • « Nous allons posséder Gaza » : Donald Trump persiste et signe (humanite.fr)

    Profitant de la visite à Washington du roi de Jordanie, Abdallah II, Donald Trump a confirmé mardi 11 février sa volonté de s’emparer purement et simplement de Gaza.[…]Abdallah II de Jordanie […] a exprimé sa « ferme opposition au déplacement de Palestiniens à Gaza et en Cisjordanie » occupée, soulignant qu’il s’agissait d’une « position arabe commune ». Le même jour, s’exprimant devant la Knesset, le Parlement israélien, Benyamin Netanyahou a lancé : « Vous vouliez le plan pour le jour d’après, le voici. » De manière de plus en plus claire, Donald Trump prépare le terrain pour que la coalition d’extrême droite au pouvoir puisse mener à bien son projet de grand Israël, avec comme première étape un Gaza sans Gazaouis.

Spécial femmes dans le monde

Spécial France

Spécial femmes en France

RIP

  • Mort d’Yvonne Choquet-Bruhat, la première femme élue à l’Académie des sciences (humanite.fr)

    Yvonne Choquet-Bruhat, la première femme élue en 1979 à l’Académie des sciences, est décédée le 11 février, à l’âge de 101 ans. Elle avait été accueillie à l’Académie pour sa « contribution fondamentale à la compréhension mathématique et physique de la théorie de la gravitation d’Einstein ». Ses travaux, situés à la frontière des mathématiques et de la physique, ont ouvert la voie à la compréhension des ondes gravitationnelles émises lors de l’effondrement et de la fusion de trous noirs. « Elle a été la première, en 1952, indique l’Institut, à apporter la preuve mathématique de l’existence de solutions à l’équation d’Einstein, notamment la première preuve rigoureuse qu’elles impliquent la propagation à la vitesse de la lumière d’ondes gravitationnelles ».

  • Mort de Geneviève Page, grande comédienne de théâtre, trop ignorée du cinéma français (telerama.fr)

    Repérée dans “Fanfan la Tulipe”, après-guerre, elle aura ensuite une grande carrière sur les planches. Au cinéma, les étrangers plus sensibles à son étrangeté, notamment Luis Buñuel, dans “Belle de jour”. Geneviève Page est décédée ce vendredi 14 février, à l’âge de 97 ans.

Spécial médias et pouvoir

Spécial emmerdeurs irresponsables gérant comme des pieds (et à la néolibérale)

Spécial recul des droits et libertés, violences policières, montée de l’extrême-droite…

Spécial résistances

Spécial outils de résistance

  • The Technology of Computer Destruction (hans.gerwitz.com)

    Techniques for destroying data files and computer installations quickly and permanently are described.This paper is for research purposes only, and is intended to add slightly to the sum total of human knowledge.

  • How to stop Trump’s power grab (vox.com)

    democracy’s defenders need to think of their jobs as buying time for the courts — blocking and delaying everything to prevent him from doing irrevocable harm to the constitutional order before he can be ordered to stop.

Spécial GAFAM et cie

Les autres lectures de la semaine

Les BDs/graphiques/photos de la semaine

Les vidéos/podcasts de la semaine

Les trucs chouettes de la semaine

Retrouvez les revues de web précédentes dans la catégorie Libre Veille du Framablog.

Les articles, commentaires et autres images qui composent ces « Khrys’presso » n’engagent que moi (Khrys).

16.02.2025 à 09:00

Comprendre ce que l’IA sait faire et ce qu’elle ne peut pas faire

Framasoft

Comment distinguer le bon grain de l’ivraie de l’Intelligence artificielle ? C’est la promesse que font les chercheurs Arvind Narayanan et Sayash Kapoor dans leur nouveau livre, AI Snake Oil. S’ils n’y arrivent pas toujours, les deux spécialistes nous aident à comprendre les défaillances de l’IA dans un livre qui mobilise la science pour qu’elle nous aide à éclairer le chemin critique qu’il reste à accomplir.
Texte intégral (8445 mots)

Cet article est une republication, avec l’accord de l’auteur, Hubert Guillaud. Il a été publié en premier le 10 octobre 2024 sur le site Dans Les Algorithmes sous licence CC BY-NC-SA.


 

Comment distinguer le bon grain de l’ivraie de l’Intelligence artificielle ? C’est la promesse que font les chercheurs Arvind Narayanan et Sayash Kapoor dans leur nouveau livre, AI Snake Oil. S’ils n’y arrivent pas toujours, les deux spécialistes nous aident à comprendre les défaillances de l’IA dans un livre qui mobilise la science pour qu’elle nous aide à éclairer le chemin critique qu’il reste à accomplir.

 

 

 

 

 

 

Quand on parle d’Intelligence artificielle on mobilise un terme qui qualifie un ensemble de technologies vaguement reliées, expliquent les chercheurs Arvind Narayanan et Sayash Kapoor dans le livre qu’ils viennent de faire paraître, AI Snake Oil (Princeton University Press, 2024, non traduit).

Il y a peu de liens entre l’IA générative dont on entend tant parler et l’IA prédictive, certainement bien plus utilisée encore, mais où se concentrent les systèmes les plus défaillants qui soient. C’est là surtout que se concentre cette « huile de serpent » à laquelle font référence les deux chercheurs. Sous ce terme, qui qualifie des remèdes miraculeux mais inefficaces, comme tant de charlatans en vendaient dans tout l’Ouest américain, les deux chercheurs désignent une technologie qui ne fonctionne pas et ne peut pas fonctionner comme attendu, et qui ne fonctionnera probablement jamais. Toute la difficulté aujourd’hui, pour le grand public, consiste à être capable de distinguer l’IA qui ne fonctionne pas de celle qui fonctionne. C’est tout l’enjeu de leur livre.

IA générative vs IA prédictive

L’IA est désormais devenue un produit de consommation grand public. Le problème, c’est que son utilisation abusive s’est également généralisée. Les deux ingénieurs restent pourtant très confiants. L’IA générative est un outil amusant et utile défendent-ils. Elle peut même être un outil d’apprentissage passionnant, expliquent-ils un peu légèrement. Certes, l’IA générative comporte des risques et peut avoir un coût social élevé. Mais ce n’est rien comparé à l’IA prédictive. Dans leur livre, les deux chercheurs accumulent les exemples pour montrer que dès que nous tentons d’utiliser l’IA pour des prédictions, notamment dans le domaine du social, elle produit des discriminations. De l’emploi à la santé, en passant par le crime… partout ces modèles restent englués dans leurs biais. Mais surtout, leurs résultats ne sont bien souvent pas meilleurs qu’un résultat aléatoire. C’est, il me semble, la grande force de leur démonstration et le point le plus original du livre. Pour les chercheurs, l’une des raisons d’une si faible performance tient beaucoup au fait que très souvent, la donnée n’est ni disponible ni décisive. Le problème c’est que l’IA prédictive est très attirante parce qu’elle promet des décisions plus efficaces… Mais l’efficacité est bien plus relative qu’annoncée et surtout bien moins responsable. 

L’IA n’a pas vraiment de définition fixe. Les deux chercheurs s’en amusent d’ailleurs et remarquent que ce qu’on qualifie comme IA correspond souvent à ce qui n’a pas été fait. Dès qu’une application fonctionne avec fiabilité, on ne parle plus d’IA, comme c’est le cas avec les aspirateurs autonomes, l’autopilote des avions, les filtres à Spam, ou l’autocomplétion. Autant d’exemples qui nous montrent d’ailleurs des formes d’IA qu’on souhaiterait plus souvent. Ces exemples doivent nous rappeler qu’elle n’est pas toujours problématique, loin de là. L’IA sait résoudre des problèmes difficiles. Mais elle ne sait pas prédire les comportements sociaux des gens et la prédiction du social n’est pas un problème technologique soluble.

Il y a aussi certains domaines du social où l’IA peut-être très forte, très précise et très efficace, mais qui posent des problèmes de société majeurs. C’est le cas notamment de la reconnaissance faciale. Le taux d’erreur de la reconnaissance faciale est devenu minuscule (0,08 % selon le Nist). Cela n’enlève rien au fait que ces erreurs soient très problématiques, notamment quand elles conduisent à des arrestations qui ne devraient pas avoir lieu. Mais dans le domaine de la reconnaissance faciale, le problème, désormais, n’est plus que la technologie soit défaillante. Ce sont les pratiques, les erreurs humaines, les échecs policiers et d’encadrement de son usage qui posent problèmes. « L’IA de reconnaissance faciale, si elle est utilisée correctement, a tendance à être précise, car il y a peu d’incertitude ou d’ambiguïté dans la tâche à accomplir ». Identifier si une personne sur une photo correspond à une autre personne sur une autre photo est assez simple, pour autant que les systèmes aient suffisamment d’images pour s’y entraîner et de moyens pour trouver les éléments qui permettent de distinguer un visage d’un autre. Cela ne signifie pas que l’analyse faciale puisse tout faire, précisent les deux chercheurs : identifier le genre où l’émotion depuis un visage n’est pas possible, car ni l’un ni l’autre n’est inscrit dans l’image. Désormais, « le plus grand danger de la reconnaissance faciale vient du fait qu’elle fonctionne très bien ». Ce ne sont plus ses défaillances techniques qui posent un problème de société, comme c’est le cas des systèmes de prédiction de risques. C’est l’usage qui peut en être fait… comme de pouvoir identifier n’importe qui n’importe où et pour n’importe quelle raison. Attention cependant, préviennent les chercheurs : la reconnaissance faciale peut-être très performante quand elle est utilisée correctement, mais peut très facilement échouer en pratique, comme le montre l’identification depuis des images de mauvaise qualité qui a tendance à produire de nombreux faux positifs. Elle n’est donc ni parfaite ni magique. Et surtout, elle pose un enjeu de société qui nécessite de cadrer son usage, pour trouver les moyens afin qu’elle ne soit pas utilisée de manière inappropriée – et ce n’est pas si simple – et pour que la société se dote de garde-fous et de garanties pour prévenir des abus ou d’utilisations inappropriées.

Nombre d’usages de l’IA demeurent problématiques avertissent les chercheurs. Nombre de ses utilisations relèvent ni plus ni moins de l’imposture. L’IA échoue d’abord et très souvent dès qu’on l’utilise pour produire des prédictions, comme l’a montré Google Flu, l’outil pour prédire la grippe de Google qui se basait sur l’évolution des recherches de symptômes sur le moteur de recherche et dont la précision a fini par s’effondrer sous les requêtes. Non seulement la prédiction est difficile, mais bien souvent son efficacité s’effondre dans le temps.

Les deux chercheurs nous invitent à intégrer une sirène d’alerte aux projets d’IA. Dès qu’ils abordent le social, dès qu’ils souhaitent prédire quelque chose, dès qu’ils utilisent une variable pour une autre (comme de vouloir reconnaître le genre depuis des images de visages), nous devons être vigilants.

Couverture du livre AI Snake Oil d’Arvind Narayanan et Sayash Kapoor. On y voit deux serpents entourant du titre et du sous-titre : « AI SNAKE OIL — What Artificial Intelligence can do, what it can't, and how to tell the difference »

Couverture du livre AI Snake Oil d’Arvind Narayanan et Sayash Kapoor.

 

Les défaillances de l’IA prédictive

Mais il y a d’autres motifs d’inquiétudes auxquels prêter attention. Le battage médiatique autour de l’IA fait que bien souvent ses qualités sont exagérées. Les capacités de prédiction de nouveaux services ou outils sont très souvent survendues. L’une des erreurs les plus courantes consiste à annoncer un taux de réussite particulièrement élevé, alors que très souvent, l’outil est évalué sur les mêmes données que celles sur lesquelles il a été entraîné. C’est un peu comme réviser les questions qui seront posées à un examen avant l’examen. L’étude des résultats de recherche dans nombre de secteurs de la recherche en machine learning a montré partout des résultats problématiques. Ce n’est pas nécessairement intentionnel ou malveillant, excusent un peu facilement les deux ingénieurs, le machine learning est une discipline délicate et il est facile de s’embrouiller. En tout cas, la qualité s’effondre très souvent avec le battage médiatique. Ainsi, des centaines d’études ont proclamé pouvoir détecter le Covid depuis des radiographies des poumons : une revue systématique de plus de 400 articles de recherche a montré qu’AUCUNE n’était fiable. Tant et si bien qu’une équipe de chercheurs a mis au point une check-list pour aider les développeurs et les chercheurs à minimiser les erreurs. Dans une étude sur l’usage de l’IA prédictive dans l’industrie et l’administration, Narayanan et Kapoor ont fait les mêmes constats et ont listé les principaux défauts de la prédiction :

  • Un outil qui fait de bonnes prédictions ne signifie pas qu’il mènera à de bonnes décisions, notamment du fait de la rétroaction des décisions sur les prédictions (​​par exemple un montant de caution plus élevé basé sur une prédiction de récidive peut augmenter le taux de récidive… et d’ailleurs, les peines sévères ont tendance à augmenter la récidive) ;
  • Pour prédire, on fait souvent appel à une variable-cible qui ne correspond pas exactement à ce que l’on souhaite prédire, comme d’utiliser la moyenne générale d’un étudiant pour prédire sa réussite l’année suivante.
  • Lorsque la distribution des données sur lesquelles un modèle est formé n’est pas représentative de la distribution sur laquelle il sera déployé, les performances du modèle seront problématiques.
  • Il y a toujours des limites à la prédiction. Les résultats sociaux ne sont pas prévisibles avec précision, même avec l’apprentissage.
  • Les différences de performances entre différents groupes sociaux ne peuvent pas toujours être corrigées.
  • Bien souvent les systèmes manquent de possibilité pour en contester les résultats alors que cette contestabilité est un levier important pour se rendre compte de ses erreurs.
  • La prédiction oublie souvent de prendre en compte le comportement stratégique qui risque de la rendre moins efficace dans le temps.

 

Au XIXᵉ siècle, dans l’Ouest américain, d’innombrables colporteurs vendaient des médicaments miracles, inefficaces et inoffensifs, pour la plupart… mais pas tous. Certains de ces faux remèdes laisseront des morts derrière eux. En 1906, la Food and Drug Administration (FDA) est imaginée pour remédier au problème et rendre ces colporteurs responsables de leurs produits, comme l’explique le dernier rapport de l’AI Now Institute qui revient en détail sur la naissance de l’agence américaine et comment elle a changé le monde du médicament par la construction de mesures préalables à leur mise sur le marché – l’AI Now Institute invite d’ailleurs à s’inspirer de cette histoire pour rendre l’IA responsable en pointant qu’une « réglementation ex-ante solide, adaptée à un marché en évolution et à ses produits, peut créer des avantages significatifs à la fois pour l’industrie et pour le public ».

Si l’AI Snake Oil est une IA qui ne marche pas et qui ne peut pas marcher, souvenons-nous que même une IA qui fonctionne bien peut être nocive. Face aux produits d’IA, il faut pouvoir mesurer à la fois les préjudices qu’ils peuvent provoquer mais également la véracité qu’ils produisent.

Mais si l’IA défaillante est si omniprésente, c’est parce qu’elle offre des solutions rapides à n’importe quels problèmes. Oubliant que les solutions qui ne fonctionnent pas n’en sont pas, rappellent Kapoor et Narayanan. « Dans le sillage de la révolution industrielle, des millions d’emplois furent créés dans les usines et les mines, avec d’horribles conditions de travail. Il a fallu plusieurs décennies pour garantir les droits du travail et améliorer les salaires et la sécurité des travailleurs. » Nous devons imaginer et construire un mouvement similaire pour garantir la dignité humaine face à l’automatisation qui vient. Nous devons trouver les moyens d’éradiquer le déploiement de l’huile de serpent et construire les modalités pour bâtir une technologie responsable comme nous avons réussi à bâtir une médecine et une industrie agro-alimentaire (plutôt) responsable.

Pourquoi les prédictions échouent-elles ?

Dans leur livre, les deux auteurs mobilisent d’innombrables exemples de systèmes défaillants. Parmi ceux qu’ils classent comme les pires, il y a bien sûr les outils de prédiction qui prennent des décisions sur la vie des gens, dans le domaine de la santé, des soins ou de l’orientation notamment.

Un algorithme n’est qu’une liste d’étapes ou de règles pour prendre une décision, rappellent-ils. Très souvent, les règles sont manuelles mais sont appliquées automatiquement, comme quand on vous demande de ne pas percevoir au-delà d’un certain revenu pour bénéficier d’un droit. Le problème, c’est que de plus en plus, les règles se complexifient : elles sont désormais souvent apprises des données. Ce type d’algorithme est appelé modèle, c’est-à-dire qu’il découle d’un ensemble de nombres qui spécifient comment le système devrait se comporter. Ces modèles sont très utilisés pour allouer des ressources rares, comme des prêts ou des emplois, ouvrant ou fermant des possibilités. C’est typiquement ce qu’on appelle l’IA prédictive. C’est par exemple ainsi que fonctionne Compas, le système de calcul de risque de récidive utilisé par la justice américaine, entraîné depuis le comportement passé des justiciables. L’hypothèse de ces systèmes et de nombre de systèmes prédictifs consiste à dire que des gens avec les mêmes caractéristiques se comporteront de la même manière dans le futur. Ces systèmes prédictifs sont déployés dans de nombreux secteurs : la santé, l’emploi, l’assurance… Le problème, c’est que de petits changements dans la vie des gens peuvent avoir de grands effets. La plupart des entreprises qui développent des systèmes prédictifs assurent que ceux-ci sont performants et équitables. Pourtant, on ne peut pas garantir que les décisions qu’ils prennent soient sans biais ou équitables.

Une bonne prédiction ne signifie pas une bonne décision. L’IA peut faire de bonnes prédictions… si rien ne change, c’est-à-dire si elles ne sont pas utilisées pour modifier les comportements, expliquent les chercheurs en prenant l’exemple d’un système prédictif de la pneumonie qui montrait que les gens atteints d’asthme étaient à moindre risque, parce qu’ils recevaient des soins adaptés pour éviter les complications. Déployer un tel modèle, en fait, aurait signifié renvoyer les patients asthmatiques chez eux, sans soins. Corrélation n’est pas causalité, dit l’adage.

Ces erreurs de prédictions ont souvent pour origine le fait que les chercheurs s’appuient sur des données existantes plutôt que des données collectées spécifiquement pour leur produit. Trop souvent, parce que créer des données spécifiques ou faire des contrôles aléatoires est coûteux, les entreprises s’en abstiennent. Comprendre l’impact des outils de décision est également important et nécessite aussi de collecter des données et de faire des contrôles d’autant plus coûteux que ces vérifications, élémentaires, viennent souvent remettre en question l’efficacité proclamée. Techniquement, cela signifie qu’il faut toujours s’assurer de savoir si le système a évalué ses impacts sur de nouvelles données et pas seulement sur les données utilisées pour la modélisation.

Ces effets sont d’autant plus fréquents que le développement de systèmes conduit souvent les gens à y réagir, à se comporter stratégiquement. C’est le cas quand des candidats à l’embauche répondent aux outils d’analyse des CV en inondant leurs CV de mots clefs pour contourner leurs limites. Une étude a même montré que changer le format de son CV d’un PDF en texte brut, changeait les scores de personnalité que les systèmes produisent sur les candidatures. Quand les entreprises assurent que leurs outils fonctionnent, elles oublient souvent de tenir compte du comportement stratégique des individus. Or, « quand les résultats du modèle peuvent être facilement manipulés en utilisant des changements superficiels, on ne peut pas dire qu’ils sont efficaces ». C’est toute la limite de trop de modèles opaques que dénoncent les deux chercheurs avec constance.

Le risque, c’est que ces systèmes nous poussent à une sur-automatisation. La sur-automatisation, pour les chercheurs, c’est quand le système de prise de décision ne permet aucune voie de recours, comme l’ont connu les individus suspectés de fraude par l’algorithme de contrôle des aides sociales de Rotterdam. Pour éviter cela, les bonnes pratiques invitent à « conserver une supervision humaine ». Problème : tous les développeurs de systèmes assurent que c’est le cas, même si cette supervision ne conduit à aucune modification des décisions prises. En réalité, les développeurs d’IA vendent des IA prédictives « avec la promesse d’une automatisation complète. La suppression d’emplois et les économies d’argent constituent une grande partie de leur argumentaire ». La supervision n’a donc la plupart du temps pas lieu. Même quand elle existe, elle est bien souvent inappropriée. Et surtout, les résultats et suggestions génèrent une sur-confiance particulièrement pervasive, qui affecte tous les utilisateurs dans tous les secteurs. Dans des simulateurs de vol, quand les pilotes reçoivent un signal d’alarme incorrect, 75 % d’entre eux suivent les recommandations défaillantes. Quand ils ont recours à une checklist, ils ne sont plus que 25 % à se tromper.

Mais surtout, insistent les deux chercheurs, les prédictions sur les gens sont bien plus fluctuantes qu’on le pense. Un outil similaire à Compas développé en Ohio et utilisé en Illinois a produit des aberrations car les taux de criminalité n’étaient pas les mêmes entre les deux Etats. Trop souvent les prédictions se font sur les mauvaises personnes. C’était le cas de l’outil de calcul de risque de maltraitance des enfants de Pennsylvanie étudié par Virginia Eubanks, qui n’avait aucune donnée sur les familles qui avaient recours à des assurances privées et donc qui visait disproportionnellement les plus pauvres. « Les outils d’IA regardent ce qui est sous le lampadaire. Et très souvent, le lampadaire pointe les plus pauvres ». L’IA prédictive exacerbe les inégalités existantes. « Le coût d’une IA défectueuse n’est pas supporté de manière égale par tous. L’utilisation de l’IA prédictive nuit de manière disproportionnée à des groupes qui ont été systématiquement exclus et défavorisés par le passé. » Les outils de prédiction de risque de santé, déployés pour réduire les dépenses d’hospitalisation, ont surtout montré leurs biais à l’encontre des minorités. L’un de ces outils, Optum’s Impact Pro par exemple, écartait systématiquement les personnes noires, parce que le système ne prédisait pas tant le besoin de soins, que combien l’assurance allait dépenser en remboursement des soins de santé. L’entreprise a continué d’ailleurs à utiliser son outil défaillant, même après qu’il eut montré son inéquité. « Les intérêts des entreprises sont l’une des nombreuses raisons pour lesquelles l’IA prédictive augmente les inégalités. L’autre est la trop grande confiance des développeurs dans les données passées. »

Trop souvent, on utilise des proxies, des variables substitutives qui nous font croire qu’on peut mesurer une chose par une autre, comme les coûts de la santé plutôt que les soins. C’est le même problème pour Compas. Compas utilise des données sur qui a été arrêté pas sur les crimes. Compas dit prédire le crime alors qu’en fait il ne prédit que les gens qui ont été arrêtés. Ces confusions sur les données expliquent beaucoup pourquoi les systèmes d’IA prédictive nuisent d’abord aux minorités et aux plus démunis.

S’ils sont défaillants, alors peut-être faudrait-il faire le deuil des outils prédictifs, suggèrent les chercheurs. Ce serait effectivement dans bien des cas nécessaires, mais nos sociétés sont mal à l’aise avec l’imprévisibilité, rappellent-ils. Pourtant, trop souvent nous pensons que les choses sont plus prévisibles qu’elles ne sont. Nous avons tendance à voir des régularités là où elles n’existent pas et nous pensons bien souvent être en contrôle sur des choses qui sont en fait aléatoires. Rien n’est plus difficile pour nous que d’accepter que nous n’avons pas le contrôle. Cela explique certainement notre engouement pour l’IA prédictive malgré ses défaillances. Pourtant, expliquent les chercheurs, embaucher ou promouvoir des employés aléatoirement, plutôt que sur de mauvais critères de performances, pourrait peut-être être plus bénéfique qu’on le pense, par exemple en favorisant une plus grande diversité ou en favorisant un taux de promotion fixe. Accepter l’aléatoire et l’incertitude pourrait nous conduire à de meilleures décisions et de meilleures institutions. « Au lieu de considérer les gens comme des êtres déterminés, nous devons travailler à la construction d’institutions qui sont véritablement ouvertes au fait que le passé ne prédit pas l’avenir. »

Pourquoi l’IA ne peut pas prédire le futur ?

La météorologie est l’un des secteurs où la prédiction est la plus avancée. Pourtant, la météo est un système particulièrement chaotique. Des petits changements conduisent à de grandes erreurs. Plus la prédiction est éloignée dans le temps, plus l’erreur est grande. Les données, les équations, les ordinateurs ont pourtant permis d’incroyables progrès dans le domaine. Nos capacités de prédiction météo se sont améliorées d’un jour par décade : une prévision sur 5 jours d’il y a 10 ans est aussi précise qu’une prévision sur 6 jours aujourd’hui ! Ces améliorations ne viennent pas d’une révolution des méthodes, mais de petites améliorations constantes.

La prévision météo repose beaucoup sur la simulation. Les succès de prévision des phénomènes géophysiques a conduit beaucoup de chercheurs à penser qu’avec les bonnes données et la puissance de calcul, on pourrait prédire n’importe quel type d’évènements. Mais cela n’est pas toujours très bien marché. Le temps est bien plus observable que le social, certainement parce que les conditions géophysiques, contrairement à ce que l’on pourrait penser, sont plus limitées. La prévision météo repose sur des lois physiques calculables. Ce n’est pas le cas des calculs du social. « Cela n’a pas restreint pour autant le développement de prédictions dans le contexte social, même si bien souvent, nous avons assez peu de preuves de leur efficacité ». Le score de risque de défaillance de crédit, Fico, est né dans les années 50 et se déploie à la fin des années 80, en même temps que naissent les premiers scores de risque criminels… Mais c’est avec le développement du machine learning dans les années 2010 que les systèmes prédictifs vont exploser dans d’innombrables systèmes.

Toutes les prédictions ne sont pas difficiles. Le trafic, l’évolution de certaines maladies… sont assez faciles. Les prédictions individuelles, elles, sont toujours plus difficiles. Et cela pose la question de savoir ce qui définit une bonne prédiction. Est-ce qu’une prédiction météo est bonne si elle est au degré près ou si elle prédit bien la pluie indépendamment de la température ? Notre capacité à prédire les tremblements de terre est excellente, notamment les lieux où ils auront lieu, mais notre capacité à prédire la nécessité d’une évacuation est nulle, car prédire quand ils auront lieu avec suffisamment de précision est bien plus difficile. Bien souvent, la précision de la prédiction s’améliore quand on ajoute plus de données et de meilleurs modèles. Mais ce n’est pas nécessairement vrai. On ne peut prédire le résultat d’un jet de dé quel que soit le volume de données que l’on collecte !

Quand les choses sont difficiles à prédire, on a recours à d’autres critères, comme l’utilité, la légitimité morale ou l’irréductibilité des erreurs pour apprécier si la prédiction est possible. Et tout ce qui a rapport à l’individu est bien souvent difficile à prédire, ce qui n’empêche pas beaucoup d’acteurs de le faire, non pas tant pour prédire quelque chose que pour exercer un contrôle sur les individus.

Kapoor et Narayanan reviennent alors sur le Fragile Families Challenge qui a montré que les modèles d’IA prédictibles développés n’amélioraient pas notablement la prédiction par rapport à un simple modèle statistique. Pour les chercheurs, le défi a surtout montré les limites fondamentales à la prédiction du social. Dans le social, « on ne peut pas prédire très bien le futur, et nous ne connaissons pas les limites fondamentales de nos prédictions ». Les données du passé ne suffisent pas à construire ce type de prédictions, comme les données d’une précédente élection ne peuvent pas prédire la suivante. Améliorer la précision des prédictions du social relève du problème à 8 milliards de Matt Salganik : il n’y a pas assez de gens sur terre pour découvrir les modèles de leurs existences ! Cela n’empêche pas qu’il existe d’innombrables outils qui affirment pouvoir faire des prédictions à un niveau individuel.

En vérité, bien souvent, ces outils ne font guère mieux qu’une prédiction aléatoire. Compas par exemple ne fait que prédire la partialité de la police à l’encontre des minorités (et dans le cas de Compas, l’amélioration par rapport à un résultat aléatoire est assez marginale… et dans nombre d’autres exemples, l’amélioration du calcul se révèle bien souvent plus mauvaise qu’un résultat aléatoire). Utiliser seulement 2 données, l’âge et le nombre d’infractions antérieures, permet d’avoir un résultat aussi précis que celui que propose Compas en mobilisant plus d’une centaine de données. Dans le cas de la récidive, le modèle est assez simple : plus l’âge est bas et plus le nombre d’infractions antérieures est élevé, plus la personne sera à nouveau arrêtée. On pourrait d’ailleurs n’utiliser que le nombre d’infractions antérieures pour faire la prédiction sans que les résultats ne se dégradent vraiment (qui serait moralement plus acceptable car en tant que société, on pourrait vouloir traiter les plus jeunes avec plus d’indulgence qu’ils ne le sont). L’avantage d’une telle règle, c’est qu’elle serait aussi très compréhensible et transparente, bien plus que l’algorithme opaque de Compas.

Avec ces exemples, les deux chercheurs nous rappellent que la grande disponibilité des données et des possibilités de calculs nous font oublier que l’opacité et la complexité qu’ils génèrent produisent des améliorations marginales par rapport au problème démocratique que posent cette opacité et cette complexité. Nous n’avons pas besoin de meilleurs calculs – que leur complexification ne produit pas toujours –, que de calculs capables d’être redevables. C’est je pense le meilleur apport de leur essai.

Nous sommes obnubilés à l’idée de prédire un monde imprévisible

Prédire le succès est aussi difficile que prédire l’échec, rappellent-ils. Certainement parce que contrairement à ce que l’on pense, le premier ne repose pas tant sur les qualités des gens que le second ne repose sur les circonstances. Les deux reposent sur l’aléatoire. Et en fait, le succès repose plus encore sur l’aléatoire que l’échec ! Le succès est encore moins prévisible que l’échec, tant la chance, c’est-à-dire l’imprévisible, joue un rôle primordial, rappellent-ils. Le succès dans les études, le succès de produits… rien n’est plus difficile à prédire, rappellent les chercheurs en évoquant les nombreux rejets du manuscrit de Harry Potter. Matt Salganik avait ainsi créé une application de musique et recruté 14 000 participants pour évaluer des musiques de groupes inconnus avec des indicateurs sociaux qui variaient entre groupes de participants. Des chansons médiocres étaient appréciées et de très bonnes musiques négligées. Une même chanson pouvait performer dans un endroit où les métriques sociales étaient indisponibles et sous performer là où elles étaient disponibles. Mais l’expérience a surtout montré que le succès allait au succès. Dans l’environnement où personne ne voyait de métriques : il y avait bien moins d’inégalités entre les musiques.

Les médias sociaux reposent sur des principes d’accélération de la viralité d’une petite fraction des contenus. Mais la popularité est très variable, d’un contenu l’autre. Ce que font les plateformes, ce n’est pas tant de prédire l’imprévisible que de tenter d’amplifier les phénomènes. Sur YouTube, Charlie Bit My Finger fut l’une des premières vidéos virales de la plateforme. Malgré ses qualités, son succès n’avait rien d’évident. En fait, les médias sociaux sont « une loterie à mèmes géante ». Plus un mème est partagé, plus il a de la valeur et plus les gens vont avoir tendance à le partager. Mais il est impossible de prédire le succès d’une vidéo ou d’un tweet. Même la qualité ne suffit pas, même si les contenus de meilleure qualité ont plus de chance que les contenus médiocres. Par contre l’on sait que les contenus plus partisans, plus négatifs reçoivent plus d’engagements. Reste que la polarisation perçue est plus forte que la polarisation réelle – et il est probable que cette mauvaise perception la renforce.

D’une manière assez surprenante, nous prédisons très bien des effets agrégés et très mal ces mêmes effets individuellement. Les ordres de grandeur aident à prédire des effets, mais les experts eux-mêmes échouent bien souvent à prédire l’évidence. Aucun n’a prévu l’effondrement de l’URSS, rappelait Philip Tetlock. Et ce n’est pas une question de données ou de capacité d’analyse. Les limitations à la prédiction sont dues aux données indisponibles et au fait qu’elles sont parfois impossibles à obtenir. Mais la prédiction est également difficile à cause d’événements imprévisibles, mais plus encore à cause de boucles d’amplification complexes. Dans de nombreux cas, la prédiction ne peut pas s’améliorer, comme dans le cas de la prédiction du succès de produits culturels. Dans certains cas, on peut espérer des améliorations, mais pas de changements majeurs de notre capacité à prédire l’avenir. Pour Narayanan et Kapoor, notre obnubilation pour la prédiction est certainement le pire poison de l’IA.

L’IA générative, ce formidable bullshiter

Bien moins intéressants sont les 2 chapitres dédiés à l’IA générative, où les propos des deux chercheurs se révèlent assez convenus. S’il est difficile de prédire l’impact qu’elle va avoir sur l’économie et la culture, la technologie est puissante et les avancées réelles. Pour Narayanan et Kapoor, l’IA générative est déjà utile, expliquent-ils en évoquant par exemple Be My Eyes, une application qui connectait des aveugles à des volontaires voyants pour qu’ils les aident à décrire le monde auquel ils étaient confrontés en temps réel. L’application s’est greffée sur ChatGPT pour décrire les images avec un réel succès, permettant de remplacer les descriptions du monde réel des humains par celles des machines.

Si l’IA générative fonctionne plutôt très bien, ce n’est pas pour autant qu’elle ne puisse pas porter préjudices aux gens qui l’utilisent. Ses biais et ses erreurs sont nombreuses et problématiques. Sa capacité à nous convaincre est certainement plus problématique encore.

Les deux chercheurs bien sûr retracent l’histoire des améliorations de la discipline qui a surtout reposé sur des améliorations progressives, la disponibilité des données et l’amélioration des capacités de calcul. Tout l’enjeu de la technologie a été d’apprendre à classer les images ou les mots depuis les connexions entre eux en appliquant des poids sur les critères.

En 2011, à l’occasion d’une compétition ImageNet, visant à classifier les images, Hinton, Krizhevsky et Sutskever proposent un outil d’apprentissage profond qui se distingue par le fait qu’il ait bien plus de couches de traitements que les outils précédents : ce sera AlexNet. Tout l’enjeu ensuite, consistera à augmenter le nombre de couches de traitements en démultipliant les données… À mesure que les données deviennent plus massives, les contenus vont aussi avoir tendance à devenir plus problématiques, malgré les innombrables mesures de filtrages. Les problèmes vont y être enfouis plus que résolus, comme l’étiquetage de personnes noires sous le terme de Gorille. On va se mettre alors à mieux observer les données, mais la plupart des critères de référence ne mesurent pas dans quelle mesure les modèles reflètent les préjugés et les stéréotypes culturels. Le problème, c’est que dans le domaine de l’IA, les ingénieurs sont convaincus que découvrir les connaissances dans les données surpasse l’expertise, minimisant son importance.

« Alors que l’IA prédictive est dangereuse parce qu’elle ne fonctionne pas. L’IA pour la classification des images est dangereuse parce qu’elle fonctionne trop bien. » 

Les systèmes de génération de texte fonctionnent sur le même principe que les systèmes de génération d’image. Jusqu’aux années 2010, il était difficile que les systèmes de traduction automatique gardent en tête le contexte. Ils fonctionnaient bien sur les courts extraits, mais avaient des problèmes avec des textes plus longs. En 2017, Google a trouvé la solution en proposant une matrice plus grande permettant de mieux relier les mots entre eux. C’est la technologie Transformer. L’IA générative textuelle n’est rien d’autre qu’un système d’autocomplétion qui fait de la prédiction du mot suivant.

La puissance de ces machines est à la fois leur force et leur faiblesse. « Pour générer un simple token un bout de mot ChatGPT doit accomplir environ un milliard de milliard d’opérations. Si vous demandez à générer un poème d’une centaine de tokens (une centaine de mots) cela nécessitera un quadrillion de calculs. Pour apprécier la magnitude de ce nombre, si tous les individus au monde participaient à ce calcul au taux d’un calcul par minute, 8 heures par jour, un quadrillion de calcul prendrait environ une année. Tout cela pour générer une simple réponse. » La capacité générative de ces outils repose sur une puissance sans limite. Une puissance dont les coûts énergétiques, matériels et économiques finissent par poser question. Avons-nous besoin d’une telle débauche de puissance ?

Pour que ces modèles répondent mieux et plus exactement, encore faut-il adapter les modèles à certaines tâches. Cette adaptation, le fine-tuning ou pré-entraînement, permet d’améliorer les résultats. Reste que ces adaptations, ces filtrages, peuvent finir par sembler être une cuillère pour écoper les problèmes de l’océan génératif…

Les chatbots peuvent avoir d’innombrables apports en interagissant avec l’utilisateur, mais le fait qu’ils dépendent profondément des statistiques et le manque de conscience de leurs propres limites, émousse leur utilité, soulignent les deux chercheurs. Jouer à Pierre-papier-ciseaux avec eux par exemple rappellent qu’ils ne comprennent pas l’enjeu de simultanéité.

Le problème de ces outils, c’est que la compréhension, n’est pas tout ou rien. Les chatbots ne comprennent rien, et leur regard sur un sujet est limité par leurs données. Mais ils sont configurés pour répondre avec confiance, comme un expert, alors qu’ils sont capables d’erreurs basiques qu’un enfant ne ferait pas. Cela signifie que ces outils ne sont pas sans écueils, rappellent les chercheurs. Ils produisent très facilement de la désinformation, des deepfakes, et permettent à ceux qui les déploient de concentrer un pouvoir très important. Les chatbots sont des bullshiters de première, des menteurs. « Ils sont entraînés pour produire des textes plausibles, pas des vérités ». Ils peuvent sembler très convaincants alors qu‘« il n’y a aucune source vérifiée durant leur entraînement ». Même si on était capable de ne leur fournir que des affirmations vraies, le modèle ne les mémoriserait pas, mais les remixerait pour générer du texte. Ils répondent souvent correctement, mais sont capables parfois de produire des choses sans aucun sens. Cela tient certainement au fait que « les affirmations vraies sont plus plausibles que les fausses ». Les erreurs, les plagiats sont consubstantiels à la technologie.

Les usages problématiques de ces technologies sont nombreux, notamment les deepfakes et toutes les tentatives pour tromper les gens que ces outils rendent possibles. Pour l’instant, les réponses à ces enjeux ne sont pas à la hauteur. Les chercheurs ne proposent que de mieux éduquer les utilisateurs aux contenus trompeurs et aux sources fiables. Pas sûr que ce soit une réponse suffisante. 

Les chercheurs rappellent que la grande difficulté à venir va être d’améliorer l’IA générative, alors que ses limites sont au cœur de son modèle, puisqu’elle ne peut qu’imiter et amplifier les stéréotypes des données qui l’ont entraîné. Pour y parvenir, il faudrait parvenir à bien mieux labelliser les données, mais l’effort devient herculéen à mesure que les moissons sont plus massives. Pour l’instant, cette labellisation repose surtout sur des travailleurs du clic mal payés, chargés de faire une labellisation à minima. Pas sûr que cela suffise à améliorer les choses…

Malgré ces constats inquiétants, cela n’empêche pas les deux chercheurs de rester confiants. Pour eux, l’IA générative reste une technologie utile, notamment aux développeurs. Ils rappellent que ces dernières années, la question des biais a connu des progrès, grâce au fine-tuning. L’atténuation des bias est un secteur de recherche fructueux. Les chatbots progressent et deviennent aussi fiables que la recherche en ligne, notamment en étant capable de citer leurs sources. Pour les chercheurs, le plus gros problème demeure l’exploitation du travail d’autrui. Nous devons opter pour les entreprises qui ont des pratiques les plus éthiques, concluent-ils, et faire pression sur les autres pour qu’ils les améliorent. Oubliant qu’il n’est pas simple de connaître l’éthique des pratiques des entreprises…

Les deux ingénieurs terminent leur livre par un chapitre qui se demande si l’IA pose une menace existentielle. Un sujet sans grand intérêt face aux menaces déjà bien réelles que fait peser l’IA. Ils le balayent d’ailleurs d’un revers de main et rappellent que l’IA générale est encore bien loin. « La plupart des connaissances humaines sont tacites et ne peuvent pas être codifiées ». C’est comme apprendre à nager ou à faire du vélo à quelqu’un simplement en lui expliquant verbalement comment faire. Ça ne marche pas très bien. Le risque à venir n’est pas que l’IA devienne intelligente, nous en sommes bien loin. Le risque à venir repose bien plus sur les mauvais usages de l’IA, et ceux-ci sont déjà très largement parmi nous. Pour améliorer notre protection contre les menaces, contre la désinformation ou les deepfakes, nous devons renforcer nos institutions démocratiques avancent les auteurs. On ne saurait être plus en accord, surtout au moment où les avancées de l’IA construisent des empires techniques qui n’ont pas grand-chose de démocratique.

*

Malgré ses qualités et la richesse de ses exemples, le livre des deux chercheurs peine à rendre accessible ce qu’ils voudraient partager. Parvenir à distinguer ce que l’IA sait faire et ce qu’elle ne peut pas faire n’est pas évident pour ceux qui sont amenés à l’utiliser sans toujours comprendre sa complexité. Distinguer la bonne IA de la mauvaise n’est pas si simple. Le livre permet de comprendre que la prédiction fonctionne mal, mais sans nous aider à saisir où elle peut progresser et où elle est durablement coincée.

On a bien constaté que dès que ces outils agissent sur le social où l’individu, ils défaillent. On a bien compris que l’IA générative était puissante, mais les deux ingénieurs peinent à nous montrer là où elle va continuer à l’être et là où elle risque de produire ses méfaits. Les deux spécialistes, eux, savent très bien identifier les pièges que l’IA nous tend et que l’IA tend surtout aux ingénieurs eux-mêmes, et c’est en cela que la lecture d’AI Snake Oil est précieuse. Leur livre n’est pourtant pas le manuel qui permet de distinguer le poison du remède. Certainement parce que derrière les techniques de l’IA, le poison se distingue du remède d’abord et avant tout en regardant les domaines d’applications où elle agit. Un outil publicitaire défaillant n’a rien à voir avec un outil d’orientation défaillant… Gardons les bons côtés. Les ingénieurs ont enfin un livre critique sur leurs méthodes avec un regard qui leur parlera. Ce n’est pas un petit gain. Si le livre se révèle au final un peu décevant, cela n’empêche pas qu’Arvind Narayanan et Sayash Kapoor demeurent les chercheurs les plus pertinents du milieu. Leur grande force est d’être bien peu perméables au bullshit de la tech, comme le montre leur livre et leur excellente newsletter. Leur défense de la science sur l’ingénierie par exemple« les essais contrôlés randomisés devraient être un standard dans tous les domaines de la prise de décision automatisée » – demeure une boussole que l’ingénierie devrait plus souvent écouter.

12.02.2025 à 17:59

Retours sur les ateliers Nextcloud menés par La Dérivation et l’Établi Numérique

Framasoft

En juin 2024, L’Établi Numérique et la Dérivation annonçaient vouloir organiser des ateliers d’appropriation de Nextcloud, logiciel libre de collaboration. Nextcloud est utilisé par des dizaines de millions de personnes de par le monde. Nous même, à Framasoft, l’utilisons pour … Lire la suite­­
Texte intégral (2245 mots)

En juin 2024, L’Établi Numérique et la Dérivation annonçaient vouloir organiser des ateliers d’appropriation de Nextcloud, logiciel libre de collaboration. Nextcloud est utilisé par des dizaines de millions de personnes de par le monde. Nous même, à Framasoft, l’utilisons pour Framagenda, Framadrive, et bien entendu Framaspace.

Or, il faut bien reconnaître que Nextcloud est un logiciel difficile à prendre en main, notamment pour les personnes qui le découvre.

Framasoft a donc fait le choix de participer financièrement et techniquement, en soutien à ces ateliers qui nous paraissaient forts utiles. En contrepartie, nous avons demandé aux animateur⋅ices de nous partager publiquement leur expérience. C’est donc ce retour, sous forme d’interview, que vous pouvez lire ci-dessous.


Tout d’abord, est-ce que vous pouvez vous présenter ?

Oui, bien sûr ! Nous sommes trois : Mélissa Richard chargée d’animation numérique pour ritimo, et Romain Renaud et Julie Brillet de la coopérative l’Établi Numérique. Au départ du projet, il y avait aussi Lunar, qui travaillait avec Mélissa au sein de la Dérivation. Tous·tes les quatre avons mobilisé les pratiques d’éducation populaire pour animer formations et ateliers autour des enjeux politiques du numérique et ce, depuis de nombreuses années.

Pourquoi avoir proposé des ateliers Nextcloud ?

Cela fait longtemps que nous militons pour un numérique émancipateur et que nous promouvons les logiciels libres comme un des moyens de sortir de l’emprise du capitalisme de surveillance. Nous utilisons Nextcloud dans un cadre professionnel et militant et avons individuellement développé une expertise sur cet outil, par exemple pour Mélissa en rédigeant la documentation pour Coopaname ou pour Romain en administrant plusieurs serveurs et en accompagnant les personnes utilisatrices.

Nous sommes convaincu·es de deux choses sur Nextcloud :

  • C’est un outil puissant, vraiment adapté au travail collaboratif et qui constitue une alternative intéressante à Google Drive
  • C’est un outil difficile à prendre en main pour une personne néophyte, et qui manque d’ergonomie et d’accessibilité.

Nous avons eu l’impression partagée en 2023 d’être à un moment de bascule. Alors que les problématiques liées aux géants du numérique sont de plus en plus connues, des initiatives réussie dans le champ associatif (Zourit ou Framaligue) et une dynamique poussée par Framasoft (Emancipasso, Framaspace) nous ont fait penser que nos compétences de formation et d’accompagnement seraient utiles.

Comment avez-vous construit ces ateliers ?

Nous avons mis un an à les réfléchir, puisque notre première réunion a eu lieu en visio en juin 2023, puis nous avons alterné des temps de travail en présentiel, en distanciel et en asynchrone pour aboutir à l’organisation de 4 ateliers en juin 2024.

Nous sommes parti·es d’une envie commune pour l’Établi Numérique et la Dérivation de proposer des formations et ateliers autour de Nextcloud, mais en mutualisant nos efforts plutôt qu’en se retrouvant en concurrence. On a commencé avec un partage de nos envies et disponibilités, mais aussi de nos appréhensions et contraintes et on s’est finalement mis d’accord sur la création d’ateliers centrés sur des fonctionnalités du logiciel, qui constitueraient une sorte de parcours de formation.

Lors d’une première journée de travail à Nantes, nous avons continué à travailler en se concentrant sur le public de nos futurs ateliers. Nous avons d’abord identifié différentes étapes de la mise en place d’un Nextcloud dans un collectif, en mettant en regard les besoins de formation ou d’accompagnement avec chaque étape. Nous avons également élaboré une typologie des collectifs concernés. Nous nous sommes concentré⋅es sur un public que nous avons appelé « les éclaireur·ses », c’est-à-dire ces personnes bénévoles ou salariées, convaincues du bien-fondé de l’utilisation de Nextcloud au sein de leur collectif, et qui veulent bien prendre un peu de temps pour se former, afin de pouvoir accompagner les autres bénévoles ou salarié·es. Nous avons plutôt visé des personnes non-informaticiennes, en se disant que des personnes techniques (par exemple administratrices de Nextcloud) auraient plus l’habitude d’être autonomes avec une documentation.

Nous avons ensuite imaginé les besoins de ces personnes éclaireuses, à partir de nos diverses expériences d’utilisation de Nextcloud :

  • En priorité, les notions-clé, indispensables à comprendre : se repérer dans les différentes applications, le partage, les utilisateurices multiples ;
  • Proposer des cas d’usages (« je veux travailler en commission « ) plutôt que des fonctionnalités (« l’application agenda ») ;
  • Savoir comment ranger et comprendre l’arborescence des fichiers ;
  • Comment utiliser Nextcloud sur plusieurs périphériques.

Nous avons également établi que ce public cible n’avait pas beaucoup de temps à accorder à la formation sur Nextcloud et avons décidé de partir sur un atelier de 2h en visio. En ce qui concerne le modèle économique, nous avons essayé de trouver un équilibre entre le peu de moyens financiers des public cibles et nos besoins de rémunération. Nous sommes parti·es sur l’idée qu’un atelier de ce type, animé par une personne seule pourrait être payé 250 € HT (300 € TTC) pour des jauges de 6 à 8 personnes. Cela demanderait donc aux collectifs de financer environ 40 € par personne participante. Nous avons par ailleurs réfléchi à comment faire financer ce type d’ateliers par des subventions ou du mécénat. De notre côté, ce tarif est en deçà de nos tarifs habituels, mais l’idée de pouvoir répéter ces ateliers nous permettait d’envisager une rentabilité sur un plus long terme.

Par la suite, nous avons travaillé par binôme sur des déroulés pédagogiques que nous avons ultérieurement mis en commun pour créer un premier prototype d’atelier de prise en main. En parallèle, Framasoft nous a soutenu financièrement à hauteur de 1000 €. Nous avons décidé de nous jeter à l’eau en proposant 4 ateliers gratuits pour tester grandeur nature notre premier déroulé (https://dérivation.fr/evenement/atelier-dappropriation-de-nextcloud/).

Comment avez-vous préparé ces ateliers ?

En amont, Framasoft nous a créé un espace Framaspace qui nous a servi de bac à sable pendant ces ateliers. Nous y avons créé des comptes pour chacune des personnes inscrites, en les groupant par atelier.

Nous avons aussi testé les différents outils de visio à notre disposition. Nous cherchions un outil libre qui ne nécessite pas d’installation de logiciel et qui permette de créer des sous-salles. Nous avons testé BigBlueButton et Jitsi. Nous avons privilégié ce dernier puisque la fonction des sous-salles, ajoutées dans les derniers versions du logiciel, génère moins de frictions côté utilisateur·ices que sur BigBlueButton (où il faut à chaque fois accorder l’autorisation au micro et à la caméra).

Nous avons assez facilement rempli les ateliers avec une communication ciblée dans nos réseaux. Nous avons bien rappelé les pré-requis : avoir déjà utilisé Nextcloud au moins une fois, rejoindre l’atelier depuis un ordinateur, être à l’aise pour utiliser un navigateur Web avec plusieurs onglets et avoir l’habitude de faire des visios (l’utilisation des caméras étant facultative).

Comment concrètement se passaient ces ateliers ?

Nous avons décidé d’animer en binôme chacun des ateliers, pour plus de confort mais aussi avoir des regards croisés sur chaque atelier. La jauge était de 8 personnes participantes, nous avons assez vite augmenté ce nombre car nous avions systématiquement quelques absent·es.

Chaque atelier durait deux heures et se déroulait de la façon suivante :

  • 10 minutes pour accueillir les personnes, vérifier leur accès au framaspace, présenter les animateurices et l’atelier ;
  • 15 minutes de transmission théorique que nous avons au fil du temps réduites à quelques minutes axées uniquement sur la fonction de partage des fichiers ;
  • 40 minutes de jeu de piste pendant lequel les personnes doivent effectuer un certain nombre d’actions (renommer un fichier, ajouter une image dans un dossier, la partager…) listées dans un fichier texte. Chacun·e allait à son rythme et nous aidions en cas de difficulté, y compris en proposant à certain·e personnes d’aller dans une sous-salle de Jitsi avec un·e des animateur·ices en cas de besoin
  • 30 minutes de jeu de rôle pendant lequel nous scindions le groupe en deux dans des sous-salles. Chaque sous-groupe devait organiser un événement pour un collectif imaginaire et utiliser Nextcloud pour ce faire.Le rôle de l’animateur·ice était alors de les guider sur quelques tâches à faire si jamais le groupe patinait un peu, mais en les laissant libres sur les modalités d’organisation.
  • 15 minutes à nouveau avec tout le monde pour partager les réussites et difficultés du jeu de rôles.
  • 10 minutes de bilan général de l’atelier

 

 

Quels ont été les retours ?

Nous avons eu beaucoup de plaisir à animer ces ateliers ! Les méthodes pédagogiques prévues ont fonctionné, les participant·es se sont vraiment pris au jeu et ont été surpris·es par la forme.

  • C’est super que je puisse trifouiller sans risque !
  • Je vais pouvoir encore plus dégoogliser mes pratiques.
  • Aaaah, mais on peut faire ça avec Nextcloud !

 

(Retours de quelques participant·es)

Pour autant, tout n’était pas parfait. Nous avons par exemple découvert certaines limitations techniques que nous ne connaissions pas, il y a eu quelques bugs (mais qui n’en a pas en visio ?) et il est arrivé que la dénomination de certains éléments de Nextcloud prête à confusion.

Par ailleurs, nous nous sommes rendu⋅es compte qu’il serait compliqué d’animer un atelier avec ce déroulé sans co-animation, ce qui venait reposer la question de la rentabilité économique de ce type d’ateliers.

Et maintenant, comment on se forme à Nextcloud ?

Nous n’avons pas reproduit ces ateliers car leur but premier était de tester une méthode d’animation à réutiliser dans une formation plus longue. Notre expérimentation étant concluante, nous allons pouvoir la mettre en œuvre les 15 et 16 avril 2025, dans une formation « Travailler en équipe avec Nextcloud » organisée par ritimo et animée par Romain et Mélissa. Les inscriptions sont ouvertes !

Nous avons également produit d’autres dispositifs d’autoformation, déjà déployés (comme cette vidéo d’onboarding) ou à venir très bientôt sur Framaspace.

12.02.2025 à 09:00

FramIActu, la revue mensuelle sur l’actualité de l’IA !

Framasoft

Chaque second mercredi du mois, découvrez l'actualité de l'IA mise en perspective par Framasoft !
Texte intégral (3791 mots)

Le 30 novembre 2022, la première version publique de ChatGPT apparaissait sur la toile. Presque instantanément, le monde entier découvrit ce nouvel outil, qui semblait alors révolutionnaire.

Dans les bouches de toutes et tous, nous n’entendions plus qu’un terme : Intelligence Artificielle.

S’ensuivit une accélération sans précédent.

Toutes les quelques semaines, une évolution majeure des techniques d’IA était dévoilée. Les géants du numérique, les gouvernements des superpuissances mondiales, tous ont investi rapidement et massivement ce champ de recherche.

À Framasoft, comme pour beaucoup d’autres, l’émergence de l’IA générative fut vécue comme un tsunami.

Seulement deux mois après sa sortie, ChatGPT était déjà utilisé par plus de 100 millions de personnes. C’est le service web au taux d’adoption le plus rapide de l’histoire.

 

Image de type meme.On y voit un tsunami s'abattre sur une personne seule sur la plage. En haut, représentée par le Tsunami, le texte « IA ». En bas, représentée par la personne seule, le texte « Framasoft ».

Le tsunami IA submerge Framasoft. Allégorie.

 

Passées la stupeur et la confusion, nous nous organisâmes, en interne, pour suivre l’actualité délirante de cette technique. Nous voulions mieux comprendre le phénomène et ses implications dans nos vies et il nous fallait, pour cela, suivre attentivement ses évolutions.

Aujourd’hui, nous vous proposons de partager des bouts de cette veille, dans une revue mensuelle.

Celle-ci s’évertuera à, brièvement, mettre en perspective différentes actualités autour de l’IA et ses enjeux dans le rapport entre technologies et société.

Notons que cette revue mensuelle s’intègre dans notre objectif incarné par FramamIA : partager des clés de compréhension de l’IA et de ses implications dans nos vies.

Préparez votre boisson chaude préférée, installez-vous confortablement… bienvenue dans FramIActu !

Le dessin d'un perroquet Ara, avec un remonteur mécanique dans son dos, comme pour les jouets ou les montres. Celui si est assis et semble parler.

Stokastik, la mascotte de FramamIA, faisant référence au perroquet stochastique. Illustration de David Revoy – Licence : CC-By 4.0

Infomaniak est une société suisse proposant des services alternatifs aux géants du Web à travers des offres intéressantes pour le grand public et les entreprises.

En octobre dernier, Infomaniak présentait à la fois son offre d’IA générative à destination de ses publics, mais aussi l’ouverture de leur centre de données dans laquelle les logiciels d’IA sont hébergés.

Celui-ci est présenté comme le plus écologique de Suisse et a été pensé pour revaloriser l’énergie exploitée.

Si cette innovation technique est certes un pas en avant important et pourrait — mais rien n’est sûr — encourager des changements positifs dans le secteur, il n’en est pas moins que la simple création d’un nouveau centre de données pose des questions.

Aucun centre de données n’est écologique.

Donc sa simple construction est à questionner — et peut être approuvée, bien sûr !

De plus, il est courant que ce genre d’avancées techniques provoquent un effet rebond, entraînant progressivement une augmentation du coût environnemental des centres de données : moins un centre de données aura d’impact sur l’environnement, plus on en construira facilement sans se questionner, impactant de fait l’environnement négativement.

 

Trois quarts des personnes privées d’emploi ont recours à l’IA Générative

Une enquête menée par l’Observatoire de l’IA et Emploi (fondé par les associations Diversidays et Konexio, avec le soutien de France Travail et Google.org) indique que trois quarts des personnes privées d’emploi ont recours à des outils d’Intelligence Artificielle Générative pour postuler à des postes.

Cet usage semble donc massif.

Image de type meme. Elle représente le chat du film Astérix et Obélix : Mission Cléopâtre disant « Trois quarts ?! ».

Parmi les raisons expliquées par l’étude, la nécessité, aujourd’hui, d’envoyer en masse des CV et lettres de motivations qui, nous pouvons l’imaginer, sont souvent simplement remplies de banalités que l’IA générative sait très bien formuler, et sans faute typographique, qui plus est !

L’article traite aussi brièvement d’une problématique majeure (qui d’ailleurs est, au moins en partie, responsable de la nécessité de postuler massivement) : l’automatisation des processus de recrutement.

Cette automatisation est d’ailleurs abordée par Hubert Guillaud dans l’infolettre Dans les Algorithmes, dans un article nommé « L’IA ne va pas vous piquer votre job : elle va vous empêcher d’être embauché  ! ».

 

Dans cet article, Martin Clavey fait le point sur les récentes augmentations des besoins en eau et énergie liées à l’IA.

On y découvre notamment la mise en place, au Royaume-Uni, de la première « zone de croissance de l’IA », infrastructure pensée pour offrir un accès privilégié aux ressources en eau et énergie pour les centres de données dédiés à l’IA. L’emplacement choisi pour cette zone accapare un lac de barrage, récemment construit, qui avait initialement pour but de fournir de l’eau potable aux habitant·es du sud-est de l’Angleterre, une des régions du pays les plus vulnérables aux pénuries d’eau.

On imagine assez facilement ces zones essaimer à l’avenir, alors que les conséquences du réchauffement climatique sont de plus en plus ressenties (et particulièrement à travers une raréfaction de l’eau potable).

Mettre la priorité sur la compétitivité dans le secteur de l’IA au détriment d’un des besoins fondamentaux pour une immense partie de la population a donc largement de quoi questionner et souligne, encore une fois, les dangers du système capitaliste.

Image de type meme. Il représente une conversation entre Anakin et Padmé, dans Star Wars 2. Case 1 : Anakin dit « On a construit un nouveau lac de barrage » Case 2 : Padmé, avec un grand sourire, répond « Trop bien ! Il va servir de réserve d'eau potable, hein ? » Case 3 : Anakin la fixe avec un regard sérieux Case 4 : Padmé, inquiète, répète « Il va servir de réserve d'eau potable, hein ? »

La question des conséquences physiques des infrastructures permettant l’IA avait d’ailleurs était abordée lors du festival Le Nuage était sous nos pieds, à Marseille, en novembre dernier.

 

 

Aux États-Unis, à la rentrée 2025, aura lieu l’expérimentation d’une école en ligne, dont l’entité pédagogue sera une IA générative.

Comme souvent dans le discours technophile, cette méthode est supposée apporter un progrès social : l’enfant suivrait un contenu adapté à son niveau, à son rythme, etc.

Unbound Academy Institute, qui propose le dispositif, se vante de permettre aux enfants d’apprendre deux fois plus en moins de temps et de justifier ainsi de pouvoir se passer d’instituteurs et d’institutrices.

Le dispositif inclut cependant, pour le moment, la présence d’adultes pour assister et surveiller les élèves.

Comme on peut le constater depuis l’explosion en popularité des IA génératives, les techniques d’Intelligence Artificielle et notamment génératives tentent de s’introduire dans tous les pans de notre existence.

Hubert Guillaud encore, décrivait, à titre d’exemple, son utilisation dans le Trésor Public.

À chaque fois, les procédés de conception de ces techniques sont opaques et bourrés de biais (dans les jeux de données, dans leur réflexion, etc.). Pourtant, celles-ci sont proposées systématiquement comme les parfaites remplaçantes de toute activité humaine.

On y retrouve le même discours que celui porté par le capitalisme :

  • le progrès technique serait intimement lié au progrès social, et l’un ne peut faire sans l’autre ;
  • nuire à l’innovation technique (en régulant, en la ralentissant, voire en l’empêchant) reviendrait à nuire au progrès social ;
  • être productif, être compétitif, créer de la croissance, serait la seule et unique voie possible pour améliorer les conditions de vie de toutes et tous ;

Pourtant, ce discours semble nier toute réalité, ne serait-ce qu’en prônant l’idée que la croissance économique peut être infinie ou en fantasmant une idéologie bienveillante prégnante chez les tech bros (des hommes aux comportements masculinistes et toxiques, fans de technologie).

 

Le dessin d'un perroquet Ara, avec un remonteur mécanique dans son dos, comme pour les jouets ou les montres. Accroché à son aile gauche, un ballon de baudruche.

Stokastik, la mascotte de FramamIA, faisant référence au perroquet stochastique. Illustration de David Revoy – Licence : CC-By 4.0

Cette première FramIActu se termine !
Nous espérons que vous en avez apprécié la lecture malgré une actualité plutôt… préoccupante !

En attendant la prochaine FramIActu, vous pouvez approfondir vos connaissances sur l’IA en jetant un coup d’œil à FramamIA, notre site conçu pour aider à mieux comprendre cette technique.
Vous pouvez aussi assister à toute notre veille (non-commentée) sur le sujet via notre site de curation dédié !

Si nous pouvons vous proposer cette nouvelle revue mensuelle, c’est grâce à vos dons, Framasoft vivant presque exclusivement grâce à eux !
Pour nous soutenir, si vous en avez les moyens, vous pouvez nous faire un don via le formulaire dédié  !

Dans tous les cas, nous nous retrouverons le mois prochain pour un nouveau numéro de FramIActu !

11.02.2025 à 08:54

Open Terms Archive : rendre transparentes les modifications de CGU

Framasoft

Les CGU (« Conditions Générales d’Utilisation »), c’est long, c’est en langage juridique… Bref, c’est chiant ! Du coup, quasiment personne ne les lit. Et c’est problématique. Car il s’agit du contrat qui vous lie à la plateforme. Nous avions d’ailleurs fait l’expérience … Lire la suite­­
Texte intégral (2623 mots)

Les CGU (« Conditions Générales d’Utilisation »), c’est long, c’est en langage juridique… Bref, c’est chiant !

Du coup, quasiment personne ne les lit. Et c’est problématique. Car il s’agit du contrat qui vous lie à la plateforme.

Nous avions d’ailleurs fait l’expérience pour un premier avril il y a quelques années à Framasoft : nos CGU ont contenu, pendant quelques jours, une clause comme quoi tout⋅e utilisateur⋅ice de nos services acceptait de nous offrir son âme pour une période indéfinie. Autant vous dire qu’on les a toujours, ces plus de 50 000 âmes collectées, même si on ne sait plus trop où on les a rangées. 🤔 😅

 

L'artiste Dima Yarovinsky devant les versions imprimées de CGU de différentes plateformes

L’artiste Dima Yarovinsky devant les versions imprimées de CGU de différentes plateformes.

 

Avec les consolidations des positions de Trump, d’Elon Musk et d’autres, la fascisation du web (en tout cas celle de ses grandes plateformes) se révèle au grand jour de manière de plus en plus décomplexée. Ainsi, début janvier 2025, c’est Meta (maison mère de Facebook, Instagram et WhatsApp) qui a réécrit la section « discours haineux » de ses standards de la communauté, élargissant ainsi considérablement le contenu autorisé sur ses plateformes Facebook, Instagram et Threads.

Bien entendu, la presse (et pas que) en a largement parlé. Mais pour bien en parler, il faut pouvoir objectiver ces changements : qu’est-ce qui a été supprimé ? Qu’est-ce qui a été ajouté ? Dans quel contrat ? À quelle date ?
Et là, souvent, ça devient compliqué à suivre.

Heureusement, l’initiative « Open Terms Archive » vise à rendre cela plus transparent, en traçant ces modifications de contrat de la même façon qu’on peut tracer les modifications de code d’un logiciel sur une forge.

L’équipe de ce projet (qui, en toute honnêteté, était demeuré en dehors de nos radars) a accepté de répondre à nos questions. Merci à elles et eux !

Framasoft : Commençons par le début : c’est quoi Open Terms Archive ?

Équipe Open Terms Archive : Open Terms Archive est un commun numérique dont l’objet est de rendre transparentes les conditions d’utilisation et autres politiques des services digitaux. Souvent, les grandes plateformes (réseau social, vente en ligne, rencontre…) profitent d’une grande opacité dans leurs conditions d’utilisation. Nous permettons aux régulateurs, aux associations d’utilisateurs, activistes, journalistes, organismes de recherche etc. de suivre facilement les évolutions de ces documents et ainsi repérer en temps réel les modifications importantes.

Open Terms Archive organise les services suivis en collections. Les collections sont créées et maintenues par des groupes ayant un intérêt commun pour suivre les conditions d’utilisation de services dans des industries, langues et juridictions spécifiques. Chaque collection rassemble plusieurs services, et au sein de chaque service on peut suivre plusieurs types de documents contractuels. Par exemple, la collection Platform Governance Archive s’intéresse aux principaux médias sociaux, comme Instagram ou X (ancien Twitter). Pour chaque service, plusieurs types de documents contractuels sont suivis, comme les standards de la communauté, les conditions générales d’utilisation et la notice de traitement des données personnelles, entre autres.

Page d'accueil du site Open Terms Archive

Page d’accueil du site Open Terms Archive

 

L’initiative Open Terms Archive n’est pas sans rappeler celle de « Terms of Service, Didn’t Read » – Vous connaissiez ce projet ? Quelles différences identifiez-vous entre les deux ?

Nous travaillons avec ToS;DR depuis le début d’Open Terms Archive ! ToS;DR est un outil à destination des utilisateurs finaux, qui a pour objectif de faire noter par la foule le respect des utilisateurs par les services en ligne. Les conditions d’utilisation et autres documents contractuels sont la source de ces notes. ToS;DR s’appuie depuis quelques mois sur Open Terms Archive pour collecter les documents qui sont ensuite notés. La bascule depuis le moteur historique vers Open Terms Archive a été financée par une bourse du fonds européen NGI Zero Entrust.

Qui est derrière OTA ? Comment fonctionnez-vous ?

Open Terms Archive est un commun numérique incubé au sein de l’incubateur de services numériques du ministère des affaires étrangères. Ce projet est notamment financé par la direction du numérique du ministère, et soutenu par l’ambassadeur pour le numérique. Il est en cours d’autonomisation pour s’établir en tant qu’organisation de la société civile en 2025, probablement sous la forme d’une association loi 1901. Open Terms Archive est également en partie financé par des fonds européens tels que NGI et des fondations comme Reset.tech. Tout notre budget est public et transparent.

De même, l’ensemble de l’équipe d’Open Terms Archive est présentée sur notre site web. Cette équipe construit et déploie le logiciel et accueille le travail des bénévoles et des partenaires qui créent et maintiennent les collections. Sans eux, Open Terms Archive ne collecterait pas grand-chose !

Récemment, OTA a pris une position claire concernant le fait que Meta (Facebook, Instagram, Whatsapp) retirait un certain nombre de protections concernant les discours haineux sur ses réseaux. Pouvez vous nous en dire plus ?

Open Terms Archive fait apparaître les modifications des CGU de Meta. En rouge, les suppressions, en vert, les ajouts. On peut y lire "Nous autorisons les allégations de maladie mentale ou d’anormalité lorsqu’elles sont fondées sur le genre ou l’orientation sexuelle, compte tenu du discours politique et religieux sur le transgendérisme et l’homosexualité

Open Terms Archive fait apparaître les modifications des CGU de Meta. En rouge, les suppressions, en vert, les ajouts. On peut y lire « Nous autorisons les allégations de maladie mentale ou d’anormalité lorsqu’elles sont fondées sur le genre ou l’orientation sexuelle, compte tenu du discours politique et religieux sur le transgendérisme et l’homosexualité (ligne 1346) ». Source : fichier git en ligne.

 

Open Terms Archive ne prend pas de position. Tous nos mémos sont uniquement des descriptions aussi neutres que possible des changements qui sont détectés, pour les rendre plus compréhensibles par le grand public. Ces mémos sont rédigés par des contributeurs tiers ou exceptionnellement par l’équipe elle-même, en suivant des règles de rédaction claires. Nous tenons à maintenir cette neutralité, car il est important pour nous de pouvoir collaborer avec l’industrie pour la standardisation des formats des documents contractuels.

La diffusion de ces mémos par les individus et partenaires peut ensuite s’accompagner d’un message plus orienté, qui leur revient. Dans le cas spécifique des changements des standards de la communauté de Meta, nous avons fait le choix de ne pas hésiter à laisser les membres de l’équipe diffuser eux-mêmes des messages non neutres, en raison de l’importance des changements et du contexte général de transformation très rapide des politiques des big tech depuis l’élection de Donald Trump aux États-Unis.

À moyen/long terme, comment envisagez-vous l’avenir de OTA ?

Avant tout, nous espérons que les données produites seront exploitées par les acteurs capables d’influencer les plateformes pour qu’elles respectent plus leurs utilisateurs : les régulateurs, les parlementaires, les associations de protection des consommateurs, et les journalistes. C’est ce que nous expliquons dans notre modèle d’impact.

Nous espérons bien évidemment couvrir un nombre croissant de services, de juridictions, de langues, et de types de documents contractuels, mais la collecte de ces données est d’abord un moyen de renforcer la capacité de ceux qui disposent d’un pouvoir réel face aux grands acteurs du numérique. Des projets qui s’appuieraient sur nos API seraient également très bienvenus à cette fin !

L’autonomisation d’Open Terms Archive, prévue cette année, constitue une étape clé dans le développement de notre organisation. Nous envisageons de nous établir en tant qu’association loi 1901 pour continuer à promouvoir la transparence des plateformes numériques et consolider nos actions en tant qu’acteur de l’intérêt général. Pour réussir cette transformation, nous nous appuyons sur nos partenaires actuels et souhaitons en développer de nouveaux.

Identifiez-vous des besoins (financiers, humains, autres) qui pourrait vous aider à atteindre votre objectif ? Peut-on vous aider (et si oui comment) ?

En premier lieu, nous cherchons toujours des personnes pour contribuer à l’amélioration du suivi des documents existants ou à l’ajout de nouveaux documents. Cela peut se faire facilement pour les personnes ayant des compétences techniques type développement web, ou même sans. De nombreuses collections pourraient bénéficier d’un peu d’aide, comme par exemple la collection des principaux services français, celle des applications de rencontre ou encore celle des services publics français. Nous organisons des rendez-vous mensuels en visio pour commencer à contribuer 🙂 Rejoignez notre communauté pour obtenir de l’aide !

Au-delà du suivi des documents, les analyser et produire des mémos pour traduire les changements détectés en des articles compréhensibles par le grand public est tout aussi important ! Là encore, notre documentation explique comment faire et rejoindre notre communauté vous aidera à démarrer 😃

Il est également possible et utile de contribuer financièrement à la maintenance de ces collections : les dons permettent de payer les serveurs et le travail d’un community manager technique qui prend en charge les relectures des contributions pour en garantir la qualité.

 

Soutenir Open Terms Archive sur OpenCollective

Soutenir Open Terms Archive sur OpenCollective

 

La question financière reste évidemment critique pour maintenir l’activité de l’équipe cœur et garantir ainsi la disponibilité et l’évolution du logiciel, le support, l’adoption et la valorisation des données pour faire évoluer la gouvernance des plateformes. Nous cherchons donc en permanence des partenaires et des financeurs. Si vous connaissez des organisations intéressées, faites-nous signe (contact@opentermsarchive.org) !

Dernière question, traditionnelle : y a-t-il une question que l’on ne vous a pas posée ou un élément que vous souhaiteriez ajouter ?

Open Terms Archive est reconnu comme Digital Public Good (« bien commun numérique ») par la DPGA, une initiative de l’ONU pour distinguer des logiciels libres avec une gouvernance ouverte qui participent à accomplir les objectifs de développement durable. On avait envie de partager cette initiative car elle est alignée avec nos valeurs, elle met en avant d’autres beaux outils, et qu’elle nous a bien aidé en nous permettant par exemple d’être distingué comme outil de lutte contre les manipulations de l’information lors du Sommet du Prix Nobel 2023 ! Si vous opérez des logiciels qui répondent à ces critères, on vous encourage à vous en rapprocher !

10.02.2025 à 07:42

Khrys’presso du lundi 10 février 2025

Khrys

Comme chaque lundi, un coup d’œil dans le rétroviseur pour découvrir les informations que vous avez peut-être ratées la semaine dernière. Tous les liens listés ci-dessous sont a priori accessibles librement. Si ce n’est pas le cas, pensez à activer … Lire la suite­­
Texte intégral (12853 mots)

Comme chaque lundi, un coup d’œil dans le rétroviseur pour découvrir les informations que vous avez peut-être ratées la semaine dernière.


Tous les liens listés ci-dessous sont a priori accessibles librement. Si ce n’est pas le cas, pensez à activer votre bloqueur de javascript favori ou à passer en “mode lecture” (Firefox) ;-)

Brave New World

Spécial Palestine et Israël

Spécial femmes dans le monde

  • Affaire du baiser forcé : début du procès de Luis Rubiales, ex-patron du football espagnol (france24.com)

    Le procès de Luis Rubiales s’est ouvert lundi matin près de Madrid. L’ancien patron du football espagnol est jugé pour le baiser imposé devant le monde entier à l’internationale Jennifer Hermoso, en 2023, et les pressions exercées sur elle ensuite pour étouffer le scandale.

  • Pourquoi des portraits de femmes et de personnes issues de minorités ethniques exposés dans un musée aux États-Unis ont-ils été dissimulés ? (liberation.fr)

    Un musée du Maryland, géré par la NSA, a volontairement dissimulé des panneaux retraçant l’apport de femmes et de personnes racisées à la cryptographie. Après un tollé, l’établissement a évoqué une « erreur » commise dans la précipitation pour répondre aux récents décrets présidentiels.

  • Purge numérique : GitHub révèle comment des ingénieurs logiciels modifient les bases de données fédérales pour supprimer les références à la diversité et à l’inclusion (developpez.com)
  • Accenture scraps diversity and inclusion goals, memo says (neuters.de)

    Accenture (ACN.N) has scrapped its global diversity and inclusion goals after an evaluation of the changing U.S. political landscape, according to an internal memo seen by Reuters on Friday.Big tech companies Meta, Alphabet and Amazon are among a series of firms that had scrapped their diversity, equity, and inclusion (DEI) goals leading up to and after Republican Donald Trump’s return to the U.S. presidency.

  • L’Amérique MAWAMA (temoignagechretien.fr)

    Trump, qui s’est fait élire sous la bannière MAGA (Make America Great Again), mène sans la moindre retenue une politique MAWAMA (Make America White and Male Again – Recréer une Amérique blanche et mâle). Prenons garde, ce virus est plus dangereux que le Covid et peut aisément traverser l’Atlantique.

  • How AI imagery could be used to develop fake archaeology (theconversation.com)

    Even before the use of AI, it was widely accepted within archaeology that visualisations of the past are highly fraught and should be treated with extreme caution. For example, archaeologist Stephanie Moser examined 550 reconstructions published in academic and popular texts on human evolution. Her review found highly biased depictions, such as only males hunting, making art and tools and performing rituals, while women were in more passive roles. A similar study by Diane Gifford-Gonzalez revealed that “not one of 231 depictions of prehistoric males shows a man touching a child, woman, or an older person of either sex … no child is ever shown doing useful work.” These reconstructions do not reflect scientists’ nuanced understanding of the past. We know humans organised themselves in an incredible array of variety, with a multitude of gender roles and self-expression. A recent DNA-based study, for example, showed that women were actually at the centre of societies in the iron age.

Spécial France

Spécial femmes en France

Spécial médias et pouvoir

Spécial emmerdeurs irresponsables gérant comme des pieds (et à la néolibérale)

Spécial recul des droits et libertés, violences policières, montée de l’extrême-droite…

Spécial résistances

Spécial outils de résistance

Spécial GAFAM et cie

L’histoire de la semaine

Les autres lectures de la semaine

Les BDs/graphiques/photos de la semaine

Les vidéos/podcasts de la semaine

Les trucs chouettes de la semaine

Retrouvez les revues de web précédentes dans la catégorie Libre Veille du Framablog.

Les articles, commentaires et autres images qui composent ces « Khrys’presso » n’engagent que moi (Khrys).

09.02.2025 à 09:00

Open Source, l’IA ?

Framasoft

Cette semaine, on vous invite à saisir les limites de l’IA dite « open source » en regardant comment ces jeux de données sont utilisés et comment ils agissent.
Texte intégral (7401 mots)

Cet article est une republication, avec l’accord de l’auteur, Hubert Guillaud. Il a été publié en premier le 04 juin 2024 sur le site Dans Les Algorithmes sous licence CC BY-NC-SA.


 

On parle beaucoup des données d’entraînements de l’IA générative, mais sans exactement comprendre ce que ces données d’entraînement recouvrent. Et pour cause : les grands modèles de l’IA générative ne communiquent pas sur les données d’entraînements qu’ils utilisent et, du fait de la taille de ces jeux de données, la compréhension de leurs failles et limites, est difficile à saisir. Cette semaine, on vous invite à saisir les limites de l’IA dite « open source » en regardant comment ces jeux de données sont utilisés et comment ils agissent.

Mettez votre casque de spéléologue et plongez dans une des grandes bases d’images qui façonnent l’IA, Laion 5B !

 

 

 

 

Les progrès ultrarapides de l’IA semblent de plus en plus reposer sur l’open source, c’est-à-dire sur le fait que des milliers de personnes participent à sa conception et que les progrès des uns puissent être rapidement assimilés pour renforcer le progrès des autres. L’open source semble même promettre de devenir la principale modalité de régulation des IA, produisant une gouvernance de facto, purement technique, comme s’en inquiétait le chercheur Bilel Benbouzid il y a quelques mois – au risque de dévitaliser toutes les autres modalités de gouvernance disponibles !

Le problème, c’est que cette approche par l’open source relève bien plus d’un mode de collaboration distribué que de la définition canonique de l’open source. Elle repose sur une définition mouvante, changeante, à géométrie variable, estime le journaliste scientifique Edd Gent pour la Technology Review. Chaque acteur semble pouvoir adapter le concept à ses propres besoins et, plus que permettre les contributions d’innombrables acteurs, l’open source semble de plus en plus consolider la domination des principaux acteurs du secteur. Le problème n’est pas les grands principes fondamentaux de l’open source, balisés depuis longtemps, que leurs applications pratiques. La plupart des grands acteurs de l’IA publient leurs modèles en open source, enfin, sur le papier… Car ces modèles sont-ils vraiment en open source ? Llama 2 de Meta et Gemini de Google, sont tous deux publiés avec des licences qui restreignent ce que les utilisateurs peuvent faire avec ces modèles, ce qui est un anathème vis-à-vis des principes de l’open source, qui interdit l’imposition de toute restriction basée sur les cas d’utilisation. Si les modèles sont accessibles et réutilisables, nombre d’informations sur leurs fonctionnements ne le sont pas, comme les données d’entraînements, les poids donnés à ces données ou encore les mesures prises pour atténuer leurs biais ou leurs réponses.

Le concept de l’open source a été conçu pour garantir que les développeurs puissent utiliser, étudier, modifier et partager des logiciels sans restrictions. Mais ces concepts clés ne se traduisent pas parfaitement du logiciel à l’IA, explique Stefano Maffulli de l’Open source initiative (OSI), notamment du fait de la très grande imbrication des systèmes entre eux. L’un des grands obstacles à la publication ouverte est lié aux grands nombres d’ingrédients qui entrent dans la composition des modèles d’IA actuels, qui peuvent aller du code source, à l’accès au modèle entraîné, à ses données d’entraînement, aux codes utilisés pour prétraiter ces données… et plus encore à des traitements provenant d’autres IA. C’est un peu « comme si on avait défini des libertés fondamentales, sans que les mécanismes qui permettent d’exercer ces droits ne soient clairs ». Pour l’instant, l’accès aux modèles d’IA générative alimente l’innovation, mais si les grandes entreprises changent de politique, elles pourraient refermer ces accès et impacter toutes les applications qui reposent sur ces modèles.

Ouvert, fermé, semi-ouvert… mais qu’attend-on de l’IA open source ?

Dans ces accès plus ou moins ouverts, toujours partiels, les données constituent de loin le plus gros point de friction. Toutes les grandes sociétés d’IA ont simplement publié des modèles pré-entraînés, sans donner accès aux ensembles de données sur lesquels ils avaient été formés. Ce qui restreint sérieusement les possibilités de modification et d’étude des modèles et les déqualifie pour être qualifié d’open source.

L’accès à des données de formation de haute qualité et ouvertes constitue à la fois le goulot d’étranglement de la recherche en IA et l’avantage concurrentiel de chaque modèle. Cette conception restrictive de l’open source assure à la fois une forme de bonne réputation et de l’autre, permet à ces entreprises d’économiser des milliards en coûts de développement tout en permettant d’améliorer la qualité de leurs systèmes en développant des écosystèmes puissants autour de leurs solutions, comme le pointaient récemment des économistes de Harvard, à l’image d’Android de Google qui a permis à l’entreprise d’obtenir une position dominante dans le domaine du smartphone. L’open source permet de standardiser très rapidement les développements et facilite l’intégration de nouvelles solutions.

Sarah Myers West, codirectrice de l’AI Now Institute, rappelle que la plupart des projets d’IA open source ne sont pas très ouverts, même si des barrières structurelles plus profondes, notamment en termes de puissance économique des acteurs, de quantité de données ou de puissance de calcul entrent également en compte. Pour la chercheuse, il y a également un manque de clarté sur ce qu’on attend de l’IA open source : est-ce de renforcer la sécurité ? La responsabilité ? De favoriser l’écosystème ? La concurrence ? Ou le monopole des plus grands acteurs ?…

Pour l’OSI, les questions sur l’utilisation ne doivent pas concerner la communauté open source. Pourtant, le débat est bien là. Penser que la technologie est neutre du moment qu’elle est open source alors que ses enjeux, comme l’éthique, sont hors de portée des principes de l’open source, tient du mythe explique Zuzanna Warso, responsable de la recherche à Open Future.

En 2022, des chercheurs ont introduit les licences d’IA responsables (RAIL) qui sont similaires aux licences open source, mais incluent des clauses pouvant restreindre des cas d’utilisation spécifique, explique Danish Contractor qui a œuvré à leur mise en place. 28 % des modèles d’IA open source utiliseraient les licences RAIL. La licence Google attachée à Gemmi énumère également des cas d’utilisation interdits. Le Allen Institute for AI a développé des licences ImpACT qui restreignent la redistribution des modèles et des données en fonction de leurs risques potentiels… Avec le danger que la multiplication de licences spécifiques génèrent des systèmes incompatibles entre eux et freinent l’ouverture actuelle…

Le débat n’est pas sans rappeler celui sur la démultiplication des licences libres qu’on avait évoquées il y a quelques années, qui interrogeait déjà l’éthique comme l’économie du libre.

Suite à un atelier sur la responsabilité des modèles ouverts, un récent travail d’un aréopage de chercheurs s’est penché sur l’impact social de l’ouverture des modèles de fondation. Selon ces chercheurs, les risques liés à l’utilisation de ces modèles proviennent principalement du fait que les développeurs abandonnent le contrôle sur qui peut les utiliser lorsqu’ils sont publiés en open source. Ils proposent de les analyser selon une grille des risques potentiels et invitent leurs développeurs à clarifier les responsabilités entre les développeurs et les utilisateurs de ces modèles et les régulateurs à accélérer sur l’évaluation des risques.

Le risque, à défaut de publier leurs données d’entraînements, c’est que les règles de fonctionnement se démultiplient selon les outils, selon des modalités plus translucides que transparentes, à l’image d’OpenAI, qui a dévoilé récemment certaines des règles de fonctionnement de son chatbot qui tiennent plus de règles de comportements pour ceux qui l’utilisent comme pour le chatbot… Par exemple, afin qu’il ne donne pas de solutions toutes faites, mais guide l’utilisateur pour l’inciter à les trouver lui-même. Bref, l’enjeu de l’open source se brouille à mesure que celle-ci devient de plus en plus une modalité de publication en clair-obscur qu’une assurance de transparence totale et entière.

Le nœud gordien des données d’entraînement

L’enjeu de l’ouverture des données d’entraînement semble rester au cœur du problème, car tant qu’on ne sait pas sur quoi s’entraînent les modèles, difficile de saisir leurs lacunes.

Si aucun modèle d’IA n’a pour l’instant listé précisément depuis quelles données leurs modèles sont formés, l’on sait qu’une importante ressource pour plusieurs d’entre eux (notamment pour Google et Meta) repose sur Common Crawl, un répertoire de données géant qui se présente comme « libre et ouvert ». Le problème, c’est que nombre de contenus de Common Crawl ne sont ni libres ni ouverts, mais scrappés, aspirés depuis l’internet sans avoir obtenu le consentement des acteurs qui les ont produits. Dans cet immense répertoire du web, on trouve à la fois Wikipédia, de grands sites de presse ou des livres piratés… Si le droit d’auteur n’y est pas respecté, c’est parce que sous couvert du « fair use » américain – cet usage raisonnable des contenus soumis au droit d’auteur – le droit d’auteur comporte des exceptions, comme celui de pouvoir utiliser des contenus sous droits pour en produire autre chose mais sans y donner accès… Ce qui laisse à penser que, pour l’instant, le droit d’auteur n’est pas vraiment un obstacle au déploiement l’IA. C’est cet « usage raisonnable » que les éditeurs d’IA mobilisent pour capter des contenus sur lesquels ils n’ont pas les droits, même si on constate désormais que pour se prémunir et s’assurer de résultats à jour, les acteurs de l’IA générative se mettent à proposer des compensations financières aux éditeurs de presse, notamment, pour accéder à des contenus à jour et de qualité, permettant d’améliorer les réponses de leurs IA.

Dans une enquête approfondie sur Common Crawl, la fondation Mozilla rappelle que ce scrapping d’internet est né en 2007 avec pour ambition de mettre à disposition un immense répertoire comme seules les grandes entreprises du net avaient alors accès. Le but de Common Crawl n’était pas de produire une IA responsable, mais simplement de fournir des données massives. Ainsi, Common Crawl ne supprime pas les discours de haine qu’il amasse, ni les contenus sous droits… Il moissonne sans aucune autre préoccupation. Common Crawl ne contient ni l’intégralité du web ni même un échantillon « représentatif » de celui-ci. Sa couverture linguistique est très anglophone et un nombre croissant de domaines refusent désormais leur indexation (comme Facebook ou le New York Times, même si on trouve des versions anciennes du New York Times dans Common Crawl). Si on cherche à l’utiliser comme source pour former une IA générative, Common Crawl doit être utilisé avec prudence et beaucoup utilisent des versions filtrées ou produisent des filtres – trop souvent simplistes… Pour Mozilla, Common Crawl devrait pourtant travailler à mieux mettre en évidence les limites et biais de sa base. Mozilla invite d’ailleurs les créateurs d’IA à travailler plus ouvertement sur les questions de filtrages de données qui se font trop souvent à la serpe.

Capture d'écran de la page web de l'analyse de l'impact de Common Crawl par Mozilla.

« Des données d’entraînements pour le prix d’un sandwich », l’analyse de l’impact de Common Crawl par Mozilla.

 

Comme le montrent les limites de Common Crawl, l’enjeu à produire un répertoire de données d’entraînement libre et ouvert reste entier. Le lancement récent de Common Corpus, un corpus de textes pour l’IA relevant entièrement du domaine public, coordonné par la startup française Pleias, apporte enfin une base de données d’entraînement responsable, rapporte Wired. Certes, le modèle ne donne pas accès à des contenus récents puisque ses contenus de sources libres de droit, mais cela pourra être ajouté par des accords de gré à gré avec des éditeurs, voire des accords de gestion collective avec des représentants de la presse ou de l’édition.

La question de la transparence des données d’entraînement progresse donc… à petit pas, sans que le législateur ne se soit hélas saisi de cette demande récurrente pour l’imposer. Mais même en imposant la transparence des données d’entraînement, il faut comprendre que ce qu’elles représentent n’est pas si simple à faire parler.

Comprendre les limites des données d’entraînement : l’exemple de Laion-5B

Le programmeur et data journalist Christo Buschek et l’artiste Jer Thorp ont publié une analyse dans une forme très visuelle de l’un des jeux d’entraînement phare de l’IA générative : la base d’images Laion-5B. Laion-5B est un très grand ensemble (5B signifie 5 billions c’est-à-dire 5 milliards) open source d’images légendées de texte extraits d’Internet, conçu pour les grands modèles d’IA. Il a été publié en 2022 par Laion, une organisation allemande à but non lucratif. Midjourney et Stable Diffusion, deux des grands modèles de l’IA générative d’images, sont, par exemple, en partie entraînés sur Laion-5B (même si on ne connaît pas toutes les sources de leurs données d’entraînement) et les contenus qui forment Laion-5B sont en partie extraits de Common Crawl.

La base d’image de Laion-5B contient donc des images en provenance du web, mais certains sites web y sont plus représentés que d’autres. C’est le cas de Pinterest par exemple, qui propose 155 millions d’images (avec leurs légendes), soit environ 1/40e des contenus de la base. 140 millions d’images (2,4 %) viennent de Shopify, la plateforme pour créer des sites de commerce en ligne. 72 millions viennent de SlidePlayer, une plateforme de partage de présentations PowerPoint. Si ces sites sont très représentés dans Laion, c’est parce qu’ils hébergent beaucoup d’images et également parce que leurs images sont souvent décrites, via des légendes ou la balise ALT, une balise de description des images initiée pour améliorer l’accessibilité des sites web en permettant d’avoir une description de celles-ci pour ceux qui ne peuvent pas les voir. On estime que moins de 40 % des images sur le web ont cette balise renseignée, mais pour ces 3 sites, le pourcentage est bien plus élevé (SlidePlayer ajoute des balises ALT en utilisant les textes des présentations, Pinterest pousse ses utilisateurs à renseigner leurs images pour gérer leurs collections et sur Shopify, les vendeurs les renseignent pour améliorer leur référencement). Reste que ces descriptions n’en sont pas toujours, on le comprend avec l’exemple de SlidePlayer qui automatise une description d’image avec du texte qui ne lui correspond pas nécessairement. « La balise ALT décrit bien plus ce que le propriétaire du site veut que l’algorithme lise de son image que ce que les humains y voient », soulignent Buschek et Thorp. Par exemple, dans Shopify, la description d’une image de lunettes va avoir tendance à décrire le produit, plus que la personne qui les porte. Au final, ces descriptions contiennent peu d’informations sur la façon dont les humains voient le monde et bien plus sur la façon dont les moteurs de recherche voient le monde. Il s’agit d’ensembles de données fortement façonnés par les logiques commerciales.

Image d'illustration des problèmes d'étiquetage, extraite de l’analyse de Laion par Christo Buschek et Jer Thorp.On voit une photo de femme en maillot et lunettes de soleil à gauche, et l'Alt Text généré à droite, indiquant : "Heart Shaped Sunnies - Chynna Dolls Swimwear"

Le texte de la balise ALT qui décrit l’image de gauche extraite d’un magasin de Shopify ne décrit pas vraiment l’image… Il balise uniquement le produit « Lunettes de soleil en forme de cœur, maillots de bain Chynna Dolls ». Image extraite de l’analyse de Laion par Christo Buschek et Jer Thorp.

 

Un élément clé de la construction de LAION-5B consiste à sélectionner des images et des légendes associées dans Common Crawl, ou l’attribut ALT correspondrait le plus au contenu de l’image. Pour cela, les développeurs de Laion ont utilisé un réseau neuronal d’OpenAI, CLIP, qui permet d’obtenir un score de similarité entre l’image et sa balise – ce score de similarité étant lui-même produit depuis une comparaison avec des images légendées d’ImageNet, un des projets fondateurs de l’IA.

Rappelons qu’ImageNet initié dès 2006 par celle devenue la responsable de l’IA à Stanford, la professeure Fei-Fei Li, a été la première grande base de données d’images labellisées par des travailleurs du clic grâce à l’utilisation du Mechanical Turk d’Amazon, selon des catégorisations réductionnistes et problématiques, comme le dénonçait la chercheuse Kate Crawfordmontrant que les descriptions d’images regorgeaient de stéréotypes et d’absurdités.

Buschek et Thorp ont alors regardé les images exclues et incluses par Laion. Visiblement la similarité est forte quand il y a un texte dans l’image qui correspond à la balise (comme pour l’image d’un panneau « stop » avec une balise de texte correspondant). Comme souvent dans les distributions, les scores de similarité sont très inégalement répartis et un petit changement dans la limite de similarité basse choisie par Laion pour incorporer ou non des images conduit à ajouter ou supprimer des centaines de millions d’images. Dans ce score de similarité entre le texte et l’image, l’essentiel des images ont en fait une assez mauvaise note. Très peu d’images obtiennent un score au-dessus de 0,5 (sur un score allant de -1 à 1) : cela n’arrive que pour 22 645 images sur 5,85 milliards ! Les taux de similarité retenus semblent surtout l’avoir été pour donner de l’ampleur à la base, plus que pour s’assurer de la qualité des descriptions. Laion reste un jeu de données purement construit pour l’IA générative, massif plus que de qualité. Les balises descriptives des images demeurent donc souvent de très mauvaise qualité, comme si l’important était surtout que la balise ALT contienne du texte.

Ce que montrent ces exemples en tout cas, c’est le rôle majeur de l’intrication des modèles entre eux : Laion est lui-même créé sur des modèles qui ne sont ni ouverts ni inspectables, comme le langage detector de Google (qui permet de détecter la langue d’un texte) ou le Clip d’OpenAI. « Les omissions, les biais et les angles morts de ces modèles et ensembles de formation empilés façonnent tous les nouveaux modèles et nouveaux ensembles de formation qui en résultent. » « Il y a des modèles au-dessus des modèles et des ensembles de formation au-dessus des ensembles de formations », expliquent les chercheurs. Les biais et défaillances de chacun s’y imbriquent en cascades.

Les deux chercheurs ont bien sûr observé les données de Laion-5B. Le problème, c’est que Laion-5B n’existe pas : c’est un gigantesque ensemble d’entraînement qui se décompose en plusieurs sous-ensembles. Il y a un sous-ensemble où le texte a été identifié algorithmiquement grâce au modèle de détection de la langue de Google comme de l’anglais, qui contient 2,3 milliards de paires images-textes. Un autre de 2,6 milliards qui contient du texte autre que l’anglais, et un dernier de 1,27 milliards d’images ou la langue n’a pas pu être détectée. Les images par langues sont donc peu représentatives de la population qui la parle. Mais quand on regarde des ensembles de données sur certaines langues, on se rend compte que l’étiquetage n’est pas toujours dans la langue spécifiée et que bien souvent, les textes sensés être dans une autre langue sont en fait en anglais… En fait, la détection de langue sur quelques mots peut avoir bien des ratés, et visiblement, les 3 grands ensembles de Laion-5B en regorgent. Bien souvent, les balises ALT ne sont en effet renseignées que de quelques mots que les systèmes de détection de langue peinent à classer.

Laion a créé d’autres sous-ensembles d’association images-textes spécifiques. C’est le cas de Laion-Aesthetics, un ensemble d’images dites de « haute qualité visuelle ». Midjourney et Stable Diffusion utilisent un résultat affiné de ce sous-ensemble pour générer une image. Ce modèle a été créé depuis 3 sources : 15 000 images de logos ainsi que 2 ensembles d’images jugées visuellement attrayantes par des humains. 238 000 images proviennent d’images de synthèses produites par des IA génératives et notées par des communautés d’utilisateurs qui les échangent sur Discord et rassemble les images les mieux notées. Un forum Discord où les utilisateurs sont majoritairement occidentaux, instruits et fortunés ce qui fait que leur appréciation n’est pas sans biais. Un dernier ensemble de données provient du site dpchallenge.com, un forum de concours de photos, où là aussi une poignée d’évaluateurs notent les images que les participants, surtout américains, s’échangent. A l’aide de ces images, les développeurs de Laion ont produit un modèle qui produit un score esthétique des images qui permet d’améliorer l’esthétique des images générées. Une autre vérité est ainsi révélée : « Les concepts de ce qui est et de ce qui n’est pas visuellement attrayant peuvent être influencés de manière démesurée par les goûts d’un très petit groupe d’individus et par les processus choisis par les créateurs d’ensembles de données pour organiser les ensembles de données ». « Le tout petit façonne le géant », résument les chercheurs, pour dire que l’avis d’une poignée de participants à un forum obscur joue un rôle majeur dans le développement esthétique de l’IA générative ! L’esthétique de l’IA générative dépend donc de trois ploucs du Midwest qui façonnent le design du futur !

Comme l’expliquent les chercheurs, les faiblesses de Laion qu’ils mettent à jour sont visibles parce que Laion publie ses données en open source. Non seulement les modèles comportent d’innombrables biais, mais, on le comprend, l’écosystème repose sur des biais structurels que la « curation statistique amplifie ». En décembre, des chercheurs de l’Observatoire internet de Stanford ont identifié plus de 3000 images sous la catégorie abus sexuel sur enfants dans Laion-5B. Depuis, Laion-5B n’est plus disponible au téléchargement et les développeurs disent travailler à résoudre le problème. Cela n’empêche pas que d’innombrables copies soient disponibles.

Cet exemple permet de saisir plusieurs limites et problèmes de l’IA. La forte intrication des biais des modèles qui s’alimentent les uns les autres. La très faible qualité des modèles, qui tient surtout de qualités statistiques globales, assez fragiles. Et enfin, le fait que l’open source ne garantit rien de particulier, si ce n’est la disponibilité des jeux de données. Le caractère open source de Laion-5B ne permet finalement que d’entrapercevoir les problèmes que tous les jeux d’entraînement non ouverts invisibilisent.

La qualité plutôt que la quantité ?

L’analyse de Buschek et Thorp entre dans le cadre du programme de recherche Knowing Machines, – piloté par Kate Crawford, l’auteure de l’excellent Contre-Atlas de l’intelligence artificielle – qui vise à développer des méthodologies et des outils critiques pour analyser les données d’entraînement et de formation des modèles de l’apprentissage automatique.

Parmi les très riches contributions qu’on trouve sur Knowing Machines, signalons par exemple une rapide étude qui s’est intéressée au droit d’auteur dans Laion en regardant le matériel copyrighté dans la base de données et montre que la question est très mal traitée, notamment parce que nombre d’images peuvent être labellisées par un copyright faussement attribué, comme quand le fournisseur d’une image numérique s’attribue une œuvre du domaine publique. « Il ne fait aucun doute que de nombreuses images de Laion sont protégées par le droit d’auteur. Mais répondre à la question de savoir exactement quelles images et dans quelle mesure leur utilisation constitue une violation s’avère plus compliqué, en particulier lorsque les informations de droit d’auteur sur les images sont manquantes, obsolètes ou erronées », ce qui est généralement et globalement le cas.

Dans Knowing Machines on trouve également une passionnante enquête sur les créateurs de jeux de données, une autre sur la constitution d’une base de données d’images très spécifique mais de haute qualité, celles résultantes de l’observation des oiseaux, où les bases de données se construisent en opposition à la logique extractiviste du Big data, proche des riches réflexions du Féminisme des données. On y trouve également un ensemble de réflexions sur les enjeux juridiques de l’IA.

Mais surtout, Kate Crawford y signe une très intéressante mise en perspective. Elle rappelle que ces dernières années, le déploiement de l’IA s’est construit sur des données de plus en plus massives. Les données de formation et d’entraînement des modèles sont passées d’une échelle relativement petite à des ensembles massifs, à peu près aveugles à toute curation. En 2003, la base Caltech 101 comptait moins de 10 000 images. En 2010, ImageNet approchait les 14 millions d’images. En 2022, Laion-5B compte plus de 5 milliards d’images récupérées sur le Web, avec leurs légendes de texte correspondantes. En avril 2023, CommonPool de Laion a été lancé avec 12,8 milliards de paires image-texte. Nous arrivons à un point où l’ensemble du territoire d’Internet est devenu la carte de l’IA.

« Il existe une idée fausse largement répandue selon laquelle tout cela fonctionne bien, et par conséquent, comprendre ce que contiennent les données d’entraînement n’a pas d’importance », rappelle Crawford. Et en effet, la puissance des outils de génération de textes ou d’images fait toujours l’impasse sur leurs lacunes et leurs défaillances, comme si elles tenaient du bug plutôt que de la fonctionnalité. Nous sommes dans un moment où, dans la course à la production, seule la taille compte. Toutes les autres considérations et problèmes liés aux données d’entraînement, ce qu’elles représentent et comment elles représentent le monde, sont passées sous silence.

Or, prévient Crawford, les données de formation comptent plus que jamais. « Elles déterminent les limites du connu et de l’inconnu ». « Elles codent les visions du monde ». Il est donc essentiel de comprendre comment les données sont utilisées dans ces systèmes. Or, l’accent mis sur l’échelle et l’inattention au contexte conduit à créer un « jeu d’ingénieurs », où l’enjeu ne consiste qu’à produire de nouveaux modèles sur la base du plus grand nombre de données possibles. Peu importe d’où elles proviennent, de quoi il s’agit ou qui les ont assemblés et pourquoi ! Les résultats de cette course conduisent à produire des stéréotypes raciaux, de genre ou de classe profondément inscrits dans ces machines, dont il n’est pas sûr qu’on puisse s’extraire.

Pourtant, malgré les exemples qui s’accumulent… tout le monde continue de détourner le regard, comme si ces biais n’étaient pas importants. Or, à mesure qu’elle est rendue productive, l’IA générative se révèle bien plus biaisée que nous le sommes. Elle accentue et déforme nos stéréotypes au risque d’entraver tout progrès dans les représentations, comme le pointait une enquête de Bloomberg qui montrait comment Stable Diffusion amplifiait les stéréotypes de race et de genre. Comme le pointait Algorithm Watch, si certains générateurs d’images produisent des stéréotypes plus problématiques que d’autres, tous échouent en matière de diversité. Une enquête du Washington Post de novembre, montrait quant à elle que quand ces systèmes sont invités par exemple à illustrer des bénéficiaires de services sociaux, ils représentent massivement des personnes de couleurs alors qu’en fait, aux États-Unis, 63 % des bénéficiaires des services sociaux sont blancs (contre seulement 27 % de noirs). Pire, comme le montrait une étude sur le classement des images dans les grands modèles de l’IA générative, plus les modèles augmentent en taille, plus l’essentialisation raciste est exacerbée.

Bien sûr, l’enjeu consiste alors à corriger ces effets, comme a tenté de le faire Google avec Gemini. Mais en insérant des correctifs invisibles aux prompts pour qu’ils introduisent de la diversité, Gemini s’est pris les pieds dans les polémiques, en étant accusé de produire des images de papes, de vikings ou de pères fondateurs de l’Amérique noirs. Les IA génératives sont par nature sujettes aux stéréotypes puisqu’elles doivent générer des images les plus communément associées à un mot, selon les représentations largement importées de données américaines et européennes.

Dans The Atlantic, Chris Gilliard estime que l’IA générative n’est pas conçue pour refléter la réalité. Il rappelle également que ces problèmes de déformations de la réalité ne datent pas des IA génératives, mais sont plus anciens. Safiya Noble dans son livre, Algorithms of Oppression avait déjà montré que les programmes de ciblages publicitaires avaient des effets à grande échelle sur certaines communautés plutôt que d’autres. Voilà longtemps que l’on a compris que les systèmes techniques reproduisaient et perpétuaient les préjugés racistes. Ces problèmes n’ont jamais été résolus, mais bien plutôt occultés, comme quand, en 2015, Google a ôté l’étiquette gorille de sa base d’image parce qu’elle avait étiqueté ainsi une photo de personnes de couleurs. Par précaution, près de 10 ans plus tard, on ne peut toujours pas chercher de gorilles sur Google Photo !

« Des représentations de nazis noirs et l’étiquetage raciste des personnes noires sont les deux faces d’une même médaille », explique Gillard. Les résultats racistes de l’IA sont le plus souvent attribués à de mauvaises données et au manque de données suffisamment diversifiées. De l’autre côté, l’extrême droite critique l’IA parce qu’elle serait trop corrigée, « lobotomisée », c’est-à-dire corrigée pour paraître plus universaliste qu’elle n’est. Pour Gillard, nous tourner vers l’IA générative pour obtenir une représentation est une illusion où s’immisce une machinerie qui écrase la réalité et la reconstitue sous des formes qui ne peuvent pas en être.

 

Exemples de propositions d’images de papes, de vikings et de nazis proposés par Gemini…

 

Mais le problème est assurément plus profond. Une récente étude menée par Valentin Hofmann montrait par exemple que selon la manière dont on leur parle, les grands modèles de langage ne font pas les mêmes réponses. Si on utilise des variantes d’anglais afro-américain par exemple, les réponses de l’IA générative sont bien plus négatives que si on utilise un anglais plus châtié ! Elles attribuent des emplois moins prestigieux à ces locuteurs, ou condamnent à des peines plus lourdes des personnes qui parlent l’afro-américain si les IA sont amenées à juger quelqu’un depuis les mots qu’ils prononcent. L’augmentation de la taille des modèles leur permet de mieux comprendre l’anglais afro-américain et d’être plus attentifs aux préjugés explicites, mais pas aux préjugés dialectaux. Au contraire, c’est comme si on exacerbait l’écart entre stéréotypes cachés et manifestes et qu’on apprenait aux LLM à dissimuler superficiellement le racisme qu’ils entretiennent à un niveau plus profond, comme l’a fait, visuellement, Gemini. Au final, les modèles linguistiques renforcent les préjugés des stéréotypes raciolinguistiques. Mais surtout, prévient le chercheur, les utilisateurs confondent la diminution des préjugés manifestes avec le signe que le racisme des LLM serait résolu. Il est probable que les préjugés dialectaux s’étendent à mesure que les modèles saisissent mieux les différences d’expressions. Cet effet est très bien mis en avant par un test récemment publié par Bloomberg utilisant ChatGPT. Le testing était particulièrement simple. Les journalistes ont demandé à ChatGPT de classer des CV dont le seul élément qui changeait était le nom des personnes. Sans surprise, les CV avec des noms à consonance afro-américaine étaient à chaque fois les plus mal classés !

Ces exemples nous permettent d’identifier une autre grande lacune du manque d’ouverture des modèles. Non seulement ils ne publient pas leurs données d’entrainements, mais ils ne documentent pas non plus les corrections qu’ils produisent et donc nous empêchent de comprendre les limites de ces corrections. En empêchant certaines commandes (les prompts !) ou en les corrigeant par devers l’action de l’utilisateur, comme l’a fait Gemini avec ses correctifs invisibles, ils rendent assurément l’amélioration des modèles plus difficile. Et ce d’autant que bien des corrections introduites sont très souvent frustres, comme l’expliquait la chercheuse Ksenia Ermoshina en observant le filtrage et la censure des IA génératives d’images russes. Bien souvent, ces mesures de corrections et de filtrages restent bricolées, très perfectibles, à l’image de la disparition du terme gorille de Google Photo. Et c’est un endroit où l’on aurait certainement un grand besoin de travaux communs et partagés.

Kate Crawford et Trevor Paglen avaient mis en place l’ImageNet Roulette (le projet n’est plus disponible) pour permettre aux gens de voir les problèmes que produisaient les logiques de classification, ces balises accolées aux images pour les décrire. Étudier les données pour saisir les idéologies qu’elles portent, leurs points de vue, les préjudices qu’elles incarnent et concentrent et que les systèmes d’IA reproduisent est devenu primordial. Pour Crawford, il faut développer de nouvelles méthodes d’enquêtes et de productions. C’est tout l’enjeu du programme Knowing Machines qu’elle a lancé.

Reste que la question de savoir quelles sont les données utilisées, comment sont-elles pondérées et filtrées –  des enjeux rappelés par tous les chercheurs qui œuvrent à l’éthique des systèmes –  doivent encore beaucoup progresser pour dépasser des modèles bien plus translucides que transparents et s’assurer de leur responsabilité. Ce qui est sûr, c’est que ce n’est pas en mettant ces problèmes sous le tapis de l’efficacité des calculs qu’on résoudra les défaillances massives des machines à amplifier les biais que nous sommes en train de construire. Au contraire. La question de rendre disponible les données d’entraînements des modèles, de discuter des modalités de correction et de l’imbrication des calculs reste un enjeu majeur dont le régulateur devrait se saisir. Nous n’en sommes pas encore là, hélas.

07.02.2025 à 16:00

Framasoft rejoint HIATUS, la coalition critique de l’IA

Framasoft

Le sujet de l’intelligence artificielle est omniprésent dans les discours médiatiques et politiques. Et il serait difficile de nier que ses impacts sur nos vies n’ont, eux, rien d’artificiels. Qu’il s’agisse d’écologie, de surveillance, d’économie, de santé, d’éducation, de médias, … Lire la suite­­
Texte intégral (1949 mots)

Le sujet de l’intelligence artificielle est omniprésent dans les discours médiatiques et politiques. Et il serait difficile de nier que ses impacts sur nos vies n’ont, eux, rien d’artificiels. Qu’il s’agisse d’écologie, de surveillance, d’économie, de santé, d’éducation, de médias, de politique étrangère, ou bien évidemment d’informatique, l’IA percute de plein fouet tous ces sujets, au nom de… au nom de quoi, en fait ?

À Framasoft, nous sommes soucieuses et soucieux de ne pas réduire la « lutte contre l’IA » à une simple lutte contre une technologie. C’est pourquoi nous annoncions en décembre dernier à la fois le site Framamia afin de partager avec vous nos clés de compréhension critiques autour de l’IA, mais aussi le prototype d’une application smartphone, Lokas, avec pour objectif de ne pas camper une position exclusivement intellectuelle, et apporter une contribution « manipulable » afin d’élargir le champ des questions concrètes auxquelles les utilisateur⋅ices de l’IA peuvent se retrouver confrontées.

Car aucune technologie n’est neutre, évidemment. Et l’IA non seulement n’échappe pas à cette règle, mais sert souvent de bouc-émissaire technique, détournant notre regard du véritable problème : le mobile qui anime les entreprises et les gouvernements qui ont tout intérêt à nous imposer cette technologie.

Car au fond, ce n’est pas l’IA que nous détestons ici, c’est le capitalisme débridé qui l’anime, telle une marionnette.

C’est pourquoi Framasoft a participé à la rédaction du manifeste fondateur de « Hiatus », une coalition composée d’une diversité d’organisations de la société civile française qui entendent résister au déploiement massif et généralisé de l’intelligence artificielle.

« L’IA contre les droits humains, sociaux et environnementaux »

Tout concourt à ériger le déploiement massif de l’intelligence artificielle en priorité politique. Prolongeant les discours qui ont accompagné l’informatisation depuis plus d’un demi-siècle, les promesses abondent pour conférer à l’IA des vertus révolutionnaires et imposer l’idée que, moyennant la prise en compte de certains risques, elle serait nécessairement vecteur de progrès. C’est donc l’ensemble de la société qui est sommée de s’adapter pour se mettre à la page de ce nouveau mot d’ordre industriel et technocratique. Partout dans les services publics, l’IA est ainsi amenée à proliférer au prix d’une dépendance technologique accrue. Partout dans les entreprises, les managers appellent à recourir à l’IA pour « optimiser » le travail. Partout dans les foyers, au nom de la commodité et d’une course insensée à la productivité, nous sommes poussés à l’adopter.

Pourtant, sans préjuger de certaines applications spécifiques et de la possibilité qu’elles puissent effectivement répondre à l’intérêt général, comment ignorer que ces innovations ont été rendues possible par une formidable accumulation de données, de capitaux et de ressources sous l’égide des multinationales de la tech et du complexe militaro-industriel ? Que pour être menées à bien, elles requièrent notamment de multiplier la puissance des puces graphiques et des centres de données, avec une intensification de l’extraction de matières premières, de l’usage des ressources en eau et en énergie ?

Comment ne pas voir qu’en tant que paradigme industriel, l’IA a d’ores et déjà des conséquences désastreuses ? Qu’en pratique, elle se traduit par l’intensification de l’exploitation des travailleurs et travailleuses qui participent au développement et à la maintenance de ses infrastructures, notamment dans les pays du Sud global où elle prolonge des dynamiques néo-coloniales ? Qu’en aval, elle est le plus souvent imposée sans réelle prise en compte de ses impacts délétères sur les droits humains et l’exacerbation des discriminations telles que celles fondées sur le genre, la classe ou la race ? Que de l’agriculture aux métiers artistiques en passant par bien d’autres secteurs professionnels, elle amplifie le processus de déqualification et de dépossession vis-à-vis de l’outil de travail, tout en renforçant le contrôle managérial ? Que dans l’action publique, elle agit en symbiose avec les politiques d’austérité qui sapent la justice socio-économique ? Que la délégation croissante de fonctions sociales cruciales à des systèmes d’IA, par exemple dans le domaine de la santé ou l’éducation, risque d’avoir des conséquences anthropologiques, sanitaires et sociales majeures sur lesquelles nous n’avons aujourd’hui aucun recul ?

Or, au lieu d’affronter ces problèmes, les politiques publiques menées aujourd’hui en France et en Europe semblent essentiellement conçues pour conforter la fuite en avant de l’intelligence artificielle. C’est notamment le cas de l’AI Act adopté par l’Union européenne et présenté comme une réglementation efficace alors qu’elle cherche en réalité à promouvoir un marché en plein essor. Pour justifier cet aveuglement et faire taire les critiques, c’est l’argument de la compétition géopolitique qui est le plus souvent mobilisé. À longueur de rapports, l’IA apparaît ainsi comme le marchepied d’un nouveau cycle d’expansion capitaliste, et l’on propose d’inonder le secteur d’argent public pour permettre à l’Europe de se maintenir dans la course face aux États-Unis et à la Chine.

Ces politiques sont absurdes, puisque tout laisse à penser que le retard de l’Europe dans ce domaine ne pourra pas être rattrapé, et que cette course est donc perdue d’avance. Surtout, elles sont dangereuses dans la mesure où, loin de constituer la technologie salvatrice souvent mise en avant, l’IA accélère au contraire le désastre écologique, renforce les injustices et aggrave la concentration des pouvoirs. Elle est de plus en plus ouvertement mise au service de projets autoritaires et impérialistes. Non seulement le paradigme actuel nous enferme dans une course technologique insoutenable, mais il nous empêche aussi d’inventer des politiques émancipatrices en phase avec les enjeux écologiques.

La prolifération de l’IA a beau être présentée comme inéluctable, nous ne voulons pas nous résigner. Contre la stratégie du fait accompli, contre les multiples impensés qui imposent et légitiment son déploiement, nous exigeons une maîtrise démocratique de cette technologie et une limitation drastique de ses usages, afin de faire primer les droits humains, sociaux et environnementaux.

Premiers signataires :

  • Annick Hordille, membre du Nuage était sous nos pieds
  • Baptiste Hicse, membre de Stop Micro
  • Camille Dupuis-Morizeau, membre du conseil d’administration de Framasoft
  • David Maenda Kithoko, président de Génération Lumière
  • Denis Nicolier, co-animateur de Halte au contrôle numérique
  • Emmanuel Charles, co-président de ritimo
  • Éléonore Delatouche, fondatrice de Intérêt à agir
  • Judith Allenbach, présidente du Syndicat de la Magistrature
  • Judith Krivine, présidente du Syndicat des avocats de France (SAF)
  • Julie Le Mazier, co-secrétaire nationale de l’Union syndicale Solidaires
  • Julien Lefèvre, membre de Scientifiques en rébellion
  • Marc Chénais, directeur de L’Atelier Paysan
  • Nathalie Tehio, présidente de la LDH (Ligue des droits de l’Homme)
  • Olivier Petitjean, co-fondateur de L’Observatoire des multinationales
  • Raquel Radaut, porte-parole de La Quadrature du Net
  • Sandra Cossart, directrice de Sherpa
  • Soizic Pénicaud, membre de Féministes contre le cyberharcèlement
  • Sophie Venetitay, secrétaire générale du SNES-FSU
  • Stéphen Kerckhove, directeur général d’Agir pour l’environnement
  • Thomas Thibault, président du Mouton Numérique
  • Vincent Drezet, porte parole d’Attac France
  • Yves Mary, cofondateur et délégué général de Lève les yeux

 

Liste complète des organisations premières signataires à retrouver sur : https://hiatus.ooo

 

03.02.2025 à 07:42

Khrys’presso du lundi 3 février 2025

Khrys

Comme chaque lundi, un coup d’œil dans le rétroviseur pour découvrir les informations que vous avez peut-être ratées la semaine dernière. Tous les liens listés ci-dessous sont a priori accessibles librement. Si ce n’est pas le cas, pensez à activer … Lire la suite­­
Texte intégral (12469 mots)

Comme chaque lundi, un coup d’œil dans le rétroviseur pour découvrir les informations que vous avez peut-être ratées la semaine dernière.


Tous les liens listés ci-dessous sont a priori accessibles librement. Si ce n’est pas le cas, pensez à activer votre bloqueur de javascript favori ou à passer en “mode lecture” (Firefox) ;-)

Brave New World

Spécial Palestine et Israël

Spécial femmes dans le monde

RIP

Spécial France

Spécial femmes en France

RIP

Spécial médias et pouvoir

Spécial emmerdeurs irresponsables gérant comme des pieds (et à la néolibérale)

Spécial recul des droits et libertés, violences policières, montée de l’extrême-droite…

Spécial résistances

Spécial GAFAM et cie

Les autres lectures de la semaine

Les BDs/graphiques/photos de la semaine

Les vidéos/podcasts de la semaine

Les trucs chouettes de la semaine

Retrouvez les revues de web précédentes dans la catégorie Libre Veille du Framablog.

Les articles, commentaires et autres images qui composent ces « Khrys’presso » n’engagent que moi (Khrys).

02.02.2025 à 09:00

Se libérer du technocolonialisme

Framasoft

Qu’est-ce que le technocolonialisme et comment faire advenir les luttes pour l’indépendance dont nous avons besoin ?
Texte intégral (5630 mots)

Chez Framasoft, nous travaillons activement à créer des clés de compréhension sur les enjeux du numérique.

Ces enjeux sont vastes, multiples, parfois complexes à saisir.
C’est d’autant plus vrai depuis la surmédiatisation de l’Intelligence Artificielle (IA) et la popularisation de services comme ChatGPT, Copilot ou Gemini.

Alors quand, au détour des internets, Hubert Guillaud, journaliste et spécialiste des systèmes techniques et numériques, décortique les ouvrages scientifiques qui traitent de l’IA, ça nous interpelle, ça nous fascine…

Cet article est une republication, avec l’accord de l’auteur. Il a été publié en premier le 30 septembre 2024 sur le site Dans Les Algorithmes sous licence CC BY-NC-SA.


 

Si les grandes entreprises de la tech sont devenues des empires, c’est bien que nous avons été colonisés par leurs déploiements techniques. Dans Data Grab, Ulises A. Mejias et Nick Couldry explorent ce que signifie le grand accaparement de nos données. Qu’est-ce que le technocolonialisme et comment faire advenir les luttes pour l’indépendance dont nous avons besoin ?

 

 

 

 

 

 

 

En cartographiant la logique profondément coloniale de nos technologies, avec Anatomy of AI et Calculating Empires, Kate Crawford et Vladan Joker ont attiré notre attention sur le caractère extractiviste sans précédent des technologies numériques, construites depuis « les logiques du capital, du maintien de l’ordre et de la militarisation » qui accélèrent les asymétries de pouvoir existantes. Dans leur nouveau livre, Data Grab : the new colonialism of Big Tech (and how to fight back)  (Pillage de données : le nouveau colonialisme des Big Tech (et comment le combattre), WH Allen, 2024, non traduit),  Ulises A. Mejias et Nick Couldry interrogent la métaphore technocoloniale. Peut-on dire que la technologie procède d’un colonialisme ? Et si c’est le cas, alors comment nous en libérer ?

 

Explorer, étendre, exploiter, exterminer : une continuité

A la fin de leur précédent livre, The costs of connection (Stanford University Press, 2019) Mejias et Couldry en appelaient déjà à « décoloniser internet » de l’emprise des multinationales qui le dominent. Mais derrière la formule qui fait florès, peut-on vraiment affirmer que le colonialisme technologique repose sur les mêmes caractéristiques que le colonialisme d’hier ?

Le colonialisme, historique, repose d’abord sur un accaparement sans précédent des terres, des biens, des ressources, des personnes, dont les effets, les conséquences et les répercussions continuent encore aujourd’hui. Il repose sur un quadriptyque, expliquent les chercheurs : « explorer, étendre, exploiter, exterminer ». Comparativement, l’accaparement des données semble bien anodin. Pourtant, estiment les chercheurs, ce technocolonialisme partage beaucoup de caractéristiques avec son ancêtre. D’abord, il est comme lui global et se déroule à très large et très vaste échelle. Mais surtout, il « prolonge et renouvelle cet héritage de dépossession et d’injustice » commencé avec la colonisation. En 1945, un habitant de la planète sur trois était dépendant de l’ordre colonial. Aujourd’hui, un habitant de la planète sur trois a un compte Facebook, comparent un peu rapidement les auteurs. Les contextes et impacts sont différents, mais l’échelle du déploiement de la domination des Big Tech rappelle nécessairement cette histoire, estiment-ils. Le pouvoir de Meta par exemple contribue à une diffusion étendue de la désinformation qui a conduit jusqu’à des violences génocidaires et des interférences politiques.

Le colonialisme s’est toujours justifié par sa mission civilisatrice, visant non seulement à contrôler les corps, mais également les esprits et les consciences, comme l’ont fait dans le passé l’Eglise et la Science. Et les Big Tech aussi se targuent d’une mission civilisatrice. La mission civilisatrice, les motifs économiques, l’exercice du pouvoir et l’introduction de technologies spécifiques façonnent l’histoire du colonialisme. Par le passé, la mission civilisatrice s’est toujours faite par le déploiement de nouvelles force de surveillance, de discrimination, d’exploitation. Et c’est également ce qu’on retrouve aujourd’hui avec l’extension de la surveillance au travail, la généralisation de la reconnaissance faciale, du scoring, ou l’exploitation des travailleurs du clic du monde entier. Comme le dit le philosophe Achille Mbembe dans Sortir de la grande nuit : Essai sur l’Afrique décolonisée (2010)  : « Notre époque tente de remettre au goût du jour le vieux mythe selon lequel l’Occident seul a le monopole de l’avenir. »

Couverture du livre de Ulises A. Mejias et Nick Couldry, Data Grab.

Couverture du livre de Ulises A. Mejias et Nick Couldry, Data Grab.

Le colonialisme de données est « un ordre social dans lequel l’extraction continue de données génère des richesses massives et des inégalités à un niveau global ». Ce nouvel ordre social repose un nouveau contrat social où le progrès nécessite de remettre nos données aux entreprises, sans condition. Certes, les grandes entreprises de la tech ne nous proposent pas de nous réduire en esclavage et le fait de refuser leurs services ne conduit pas à l’extermination. Reste que le pillage de données n’est pas le fait de quelques entreprises malhonnêtes, mais se produit à tous les niveaux. L’exemple le plus éclairant est certainement l’IA générative qui a eu besoin de collecter toutes les données possibles pour alimenter ses moteurs. Une sorte de prédation généralisée motivée pour le bien de l’humanité. Pour Mejias et Couldry, chausser les lunettes du colonialisme pour regarder la prédation en cours permet surtout de faire apparaître les similarités entre le colonialisme historique et le technocolonialisme, qui reposent, l’un comme l’autre sur l’appropriation de ressources et qui se justifie toujours pour servir un but plus grand (le progrès économique). Ce pillage est toujours imposé par une alliance entre les Etats et les entreprises. Il a toujours des effets désastreux sur l’environnement et il renforce toujours les inégalités, entre des élites extractivistes et des populations exploitées. Enfin, cette prédation se justifie toujours par des alibis : un narratif civilisationnel.

La numérisation de nos existences implique un profond changement dans les relations de pouvoir dans lesquelles nous sommes pris. Le capitalisme ne peut pas être compris sans le rôle qu’a joué le colonialisme dans son expansion, rappellent les chercheurs. « Le capitalisme a une dimension coloniale, non pas par accident, mais par conception ». Et l’exploitation est une fonction des opérations routinières de nos outils numériques. Le colonialisme des données exploite nos existences mêmes. Comme le disait Achille Mbembe dans Brutalisme : « nous sommes le minerai que nos objets sont chargés d’extraire ».

Piller, c’est déposséder sans égard pour les droits de ceux qu’on dépossède

Ce pillage de données transforme déjà en profondeur tous les aspects de nos vies : l’éducation, la santé, les lieux de travail, la consommation, la production… La grande différence que l’on pourrait faire entre le colonialisme historique et ce nouveau colonialisme, c’est que la violence physique semble y être largement absente. En fait, estiment les chercheurs, la violence est devenue plus symbolique. Le pillage lui-même est devenu sans friction, puisqu’il suffit d’accepter les conditions d’utilisation pour qu’il se déploie. Cela ne signifie pas pour autant que toute violence ait disparu. L’enjeu colonial, d’extraction et de dépossession, lui, continue. Il signifie toujours déposséder l’autre sans égard pour ses droits. La justification est d’ailleurs toujours la même : « rendre ce qui est pillé plus productif », selon une définition de la productivité qui correspond aux intérêts du pilleur. Quant à l’exploitation du travail humain, elle n’a pas disparu, comme le rappellent les travailleurs du clic. Cette exploitation est toujours aussi intensive en technologie, nécessite toujours des outils très spécifiques et spécialisés et bénéficie d’abord à ceux à qui ils appartiennent, à l’image des plateformes d’IA qui bénéficient d’abord à ceux qui les proposent et les exploitent.

« L’exploitation des données est une continuation de la violence coloniale via d’autres moyens ». Elle produit toujours de la discrimination et de la perte d’opportunité pour ceux qui en sont les victimes, selon des logiques de classification sociales. Les distinctions de « classe, de genre, de race ont toujours été instrumentées pour créer le mythe que ces différences avaient besoin d’être gérées et organisées par la rationalité occidentale ». Le colonialisme des données renouvelle la mission historique du colonialisme via de nouveaux moyens que sont les systèmes de prise de décision automatisés, les plateformes… dont les effets « sont plus subtils et difficiles à tracer qu’avant ». La discrimination s’inscrit désormais dans nos outils numériques, comme le montrait Virginia Eubanks dans Automating Inequality, en inscrivant les inégalités dans des plateformes profondément asymétriques. L’extraction de données permet d’attacher les personnes à des catégories. Les systèmes de scoring déterminent des scores qui reflètent et amplifient les discriminations forgées par le colonialisme.

Les deux auteurs ont des mots assez durs sur la science occidentale, rappelant qu’elle naît en partie pour la gestion coloniale (la botanique, la zoologie, l’anthropologie…). Qu’elle invente des techniques et des outils (la carte, les rapports, les tableaux…) pas seulement au profit de la science, mais bien également en coordination avec l’expansion économique et militaire. Cette science a été très vite appliquée pour surveiller, contrôler et gérer les populations colonisées. La Big Science et les Big Techs aujourd’hui sont toujours au service de relations de pouvoir asymétriques. Or, rappellent les chercheurs, le colonialisme des données à besoin de nous. « Sans nos données, il ne fonctionne pas ». Nous participons à notre propre exploitation.

La donnée a une caractéristique particulière cependant. C’est un bien non-rival. Elle peut-être copiée et réutilisée sans fin. Cela n’empêche pas qu’elle soit exploitée dans des territoires de données très spécifiques que sont les plateformes, interreliées, qui imposent leurs propres lois depuis les codes qu’elles produisent. Ce nouveau monde de données dirige nos activités vers des canaux numériques qui sont entièrement sous le contrôle des entreprises qui les proposent. Si les données sont un bien non-rival, ce qu’elles capturent (nous !) est bien une ressource finie.

Pour les deux chercheurs, l’exploitation des données est née en 1994, quand Lou Montulli, employé de Netscape, invente le cookie. En 30 ans, les structures de pouvoir du net ont domestiqué la surveillance en avantage commercial via une machinerie numérique tentaculaire, comme le montrait Soshana Zuboff. Les ordinateurs ont été placés au cœur de toute transaction, comme l’expliquait Hal Varian, l’économiste en chef de Google dès 2013. Tout ce qui est personnel ou intime est devenu un terrain d’exploitation. Nous sommes au cœur de territoires de données où le monde des affaires écrit les contrats, en les présentant comme étant à notre bénéfice. Nous sommes cernés par des relations d’exploitation de données qui maximisent l’extraction d’une manière particulièrement asymétrique. Une forme d’hypernudge qui optimise nos comportements pour servir les objectifs des collecteurs. Ce colonialisme n’opère pas que dans le domaine de la publicité ciblée, rappellent les auteurs, elle s’étend aux finances personnelles, à l’agriculture de précision, à l’éducation, la santé, le travail… selon des logiques d’opacité (on ne sait pas exactement quelles données sont collectées), d’expansionnisme (les données d’un secteur servent à d’autres), d’irresponsabilité (sans rendre de comptes) et dans une conformité juridique très incertaine. La gestion des humains est devenue rien d’autre que la gestion d’une base de données, au risque d’y délaisser les plus vulnérables. Ces systèmes ravivent les inégalités du vieil ordre colonial.

La mission civilisatrice des données : produire notre acceptation

Dans un chapitre sur la mission civilisatrice des données, les deux chercheurs expliquent que celle-ci repose d’abord sur la commodité. Elle repose également sur une narration connectiviste, quasi religieuse, qui invisibilise la surveillance qu’elle active en suggérant que l’extraction de données est inévitable. Qu’elle doit être continue, profonde, totale. Ce narratif met de côté tous les problèmes que cette extraction génère, comme le fait qu’elle divise les gens, les épuise, les traumatise… On oublie que la connexion limite plus qu’elle augmente la diversité. « Les plateformes plus que les gens, décident quelles connexions sont plus avantageuses pour elles », à l’image des recommandations qu’elles produisent sans qu’on ait notre mot à dire, qu’importe la polarisation ou la radicalisation qu’elles produisent. La viralité est le modèle économique. Nous sommes le jeu auquel joue l’algorithme.

Ce storytelling impose également un autre discours, celui que l’IA serait plus intelligente que les humains. Comme le microscope a participé au succès de l’impérialisme (soulignant le lien entre la méthode scientifique et l’entreprise coloniale comme moyen de réduire et d’abstraire le monde naturel en objets capables d’être gérés), l’IA est l’outil pour rendre l’extraction de données inévitable. D’un outil pour comprendre le monde, la méthode scientifique est aussi devenue un processus pour éliminer l’opposition à la gestion coloniale. Couldry et Mejias rappellent pourtant que la science n’a pas servi qu’un sombre objectif colonial, mais que l’abstraction scientifique et le développement technologique qu’elle a produit a accompagné l’extractivisme colonial. Le narratif sur l’intelligence de l’IA, comme l’explique Dan McQuillan dans Resisting AI, sert à opacifier ses effets. Il nous pousse à croire que l’optimisation statistique serait le summum de la rationalité, qu’il permettrait justement d’éliminer nos biais quand il ne fait que les accélérer. Pour les deux chercheurs, l’IA discriminatoire et opaque par essence sert d’abord et avant tout à dissimuler les limites de la rationalité, à la parer de neutralité, à automatiser la violence et la discrimination qu’elle produit. L’IA n’est que la nouvelle étape d’une production coloniale de connaissance qui prend toutes les productions humaines pour générer une connaissance qui nous est présentée comme son apothéose, quand elle est avant tout un moyen de s’assurer la continuité de l’appropriation des ressources.

Si le discours civilisationnel fonctionne, c’est d’abord parce que ce narratif renforce la hiérarchie des pouvoirs et vise à verrouiller la position des dominés comme dominés. Il colonise l’imagination de ce que doit être le futur : un avenir connecté, un avenir que l’on doit accepter, un avenir normal et inaltérable. Ce que ce narratif vise à produire, c’est notre acceptation. Il n’y a pas d’alternative !

La nouvelle classe coloniale

La surveillance se porte bien, comme le pointent les chiffrages du site Big Tech sells War. La sécurité, la défense et la surveillance sont désormais largement aux mains des grandes entreprises de la tech. Le pire colonialisme d’hier ressemble à celui d’aujourd’hui. Et comme hier, il implique l’existence d’une véritable classe coloniale. Celle-ci ne porte plus le casque blanc. Elle opère à distance, dans les bureaux feutrés de quelques grandes entreprises. Mejias et Couldry rappellent qu’à la grande époque, la Compagnie britannique des Indes orientales était une entreprise commerciale de 250 000 employés gérés depuis Londres par une équipe de 35 à 159 employés seulement. Uber, avec 32 000 employés coordonne les opérations de 5 000 0000 de livreurs et chauffeurs pour quelque 131 millions d’utilisateurs.

La classe coloniale de la donnée naît dès le milieu des années 80 dans les entreprises qui proposent les premières cartes de crédit et qui se mettent à collecter des données sur les consommateurs pour cela. Leur but ? Distinguer les consommateurs afin de trouver les plus fidèles. Dans les années 90, ces conceptions commencent à essaimer dans les théories de gestion. Couplées aux data sciences, elles donneront naissance aux Big data, c’est-à-dire aux théories de l’exploitation des données qu’incarnent les plus grandes entreprises de la tech. Amazon incarne l’explorateur, celui qui conquiert de nouveaux territoires pour l’extraction depuis le commerce de détail. Google et Apple, les expansionnistes de la donnée qui dominent de vastes empires de services et d’infrastructures cherchant à pousser toujours plus loin leurs emprises. Facebook est l’exploiteur le plus systémique des données. Les deux auteurs dressent rapidement les évolutions extractivistes des grands acteurs de la tech et de bien d’autres. Nous sommes désormais cernés par une infrastructure d’extraction, dominée par une bureaucratie d’acteurs, qui n’est pas sans rappeler la bureaucratie de l’administration coloniale. Celle-ci est dominée par la figure du data scientist, miroir de l’administrateur colonial, qui œuvre dans tous les domaines d’activité. Qu’ils oeuvrent pour Palantir, Salesforce ou LexisNexis, ils façonnent l’Etat algorithmique, transforment la nature même du gouvernement par de nouvelles formes de connaissance et de contrôle, dans un rapprochement dont on peine à prendre la mesure 6500 agences publiques américaines utilisent Amazon Cloud Services. Partout, la technologie est devenue la modalité d’action sur la société. Partout, la technologie est convoquée pour optimiser les financements publics et notamment réduire les dépenses par un profilage toujours plus intensif des administrés en y appliquant partout des calculs probabilistes pour améliorer leur rentabilité, changeant profondément la nature du bien public et la conception de l’Etat providence. Pour ces acteurs, tout ce qui peut être utilisé le sera, simplement parce qu’il est disponible. Toutes les données sont collectées et sont rendues productives du fait même de leur disponibilité. La précision, l’exactitude ou la justice sont sans conséquences, tant que les données produisent des résultats.

S’inspirer des résistances anticoloniales

La critique de l’extractivisme colonial est nourrie. Les données, par nature, sont des objets sans contexte. L’historien et politicien Eric Williams, auteur de Capitalisme et esclavage (1930), a pourtant rappelé que la révolution industrielle qui a survalorisé l’innovation occidentale n’aurait pas été possible sans les ressources tirées de la colonisation. Pour lui, le capitalisme n’aurait pas pu se développer sans le colonialisme et sans la sujétion au travail, notamment par l’esclavage. Le sociologue péruvien, Anibal Quijano a parlé lui de « colonialité » du pouvoir pour parler des liens entre capitalisme et racisme, qui ne se sont pas achevés avec la décolonisation, mais se sont prolongés bien au-delà. Pour résister à la colonialité, Quijano invite à développer une rationalité et une connaissance débarrassée des idées de hiérarchies et de discrimination. Pour lui, la connaissance par exemple se construit bien plus par la diversité des perspectives que par le rejet de la diversité sous un prétexte rationaliste. Pour Mejias et Couldry, la connaissance que produit le Big Data est une connaissance depuis le point de vue des institutions qui les produisent, pas des gens et encore moins des gens depuis leur grande diversité. En cela, elle perpétue les caractéristiques de la science occidentale et la rend profondément colonialiste.

Sylvia Wynter est une autre chercheuse que les auteurs convoquent pour nous aider à trouver un autre rapport à la connaissance, à la science et à la rationalité. Pour elle, nous devons résister à la vision dominante de la science occidentale pour promouvoir une vision plus inclusive. Pour elle, nous avons besoin d’un mode de pensée sur la donnée qui inclut plus de gens et de perspectives, à l’image de ce que répètent les data scientists les plus critiques des perspectives technologiques comme Safiya Noble, Timnit Gebru ou les sociologues Ruha Benjamin, Virginia Eubanks… C’est également les perspectives que défendent Catherine D’Ignazio et Lauren Klein depuis le féminisme de données. C’est le même point de vue qu’exprime le philosophe Achille Mbembe quand il dénonce la continuité du colonialisme par d’autres moyens et nous invite à ne plus voir dans l’occident le centre de gravité du monde, dénonçant l’expansion de l’IA, comme le devenir artificiel de l’humanité. C’est le même enjeu qu’exprime Naomi Klein quand elle dénonce le capitalisme du désastre, qui utilise celui-ci pour créer des opportunités pour exploiter les populations les plus vulnérables. Pour Klein, l’extractivisme est lié au colonialisme qui ne voit le monde que comme une terre de conquête, plutôt que notre maison commune. Un extractivisme qui s’étend dans la plus grande impunité.

Les deux chercheurs terminent leur essai par des exemples de résistance qui peuvent paraître, comme souvent, bien fragiles face au rouleau compresseur de l’extractivisme des données. Pour eux, « le colonialisme de données n’est pas un problème facile à réparer ». On ne peut pas l’effacer d’une loi ou d’une nouvelle technologie… Ils nous invitent cependant à apprendre des résistances anticoloniales passées et de celles qui continuent de se déployer aujourd’hui, comme des résistances locales contre le déploiement des technologies de reconnaissance faciale, comme le propose la coalition Reclaim your Face. Dans de nombreuses industries de la tech, les travailleurs tentent de se syndiquer, non sans difficultés. D’autres montent des mouvements pour résister à l’extractivisme, comme No Tech for ICE, le mouvement qui s’oppose à l’usage des technologies par les agences d’immigration américaines ou No Tech for Apartheid qui s’oppose aux technologies de surveillance des Palestiniens ou Our Data Bodies, qui s’oppose aux technologies de surveillance sur les communautés pauvres et racisées américaines. Quand les Big Tech sont partout, c’est à chacun d’entre nous de résister, expliquent-ils en invitant à boycotter les plateformes, à éteindre ou déposer nos téléphones, comme le propose le Luddite Club des adolescents newyorkais. Mais nous devons aussi radicalement réimaginer la façon dont on utilise les données, comme nous y invite la penseuse argentine Veronica Gago, auteure de La puissance féministe, qui invite à s’extraire des zones d’extractivisme ou encore Ivan Illich qui nous invitait à construire une société conviale, faite d’outils responsables par lesquels les humains contrôleraient les technologies qu’ils utilisent.

Ils nous invitent d’ailleurs à nous défaire des réponses technologiques. Les solutions sont également sociales, politiques, culturelles, éducatives et légales… Et elles doivent se connecter aux gens et aux luttes. Mejias et Couldry nous invitent à travailler ces systèmes en demandant des droits et des régulations, comme l’a fait le RGPD en Europe. Il nous faut protester contre les pratiques extractivistes, oeuvrer avec les autorités pour exiger des transformations concrètes, oeuvrer avec d’autres organisations pour changer l’allocation des financements, exiger des sanctions et des boycotts, mobiliser les citoyens sur ces enjeux, soutenir la taxation des entreprises de la tech, exiger des garanties pour protéger les citoyens, comme le proposent People vs Big Tech. Mais il faut aussi oeuvrer contre les systèmes et développer de nouveaux outils politiques permettant de refuser le colonialisme sur nos données en œuvrant pour le développement de plateformes plus locales que globales. Si choisir un colonisateur national plutôt qu’un service global ne règle pas la question, Mejias et Couldry nous invitent à trouver les moyens de rendre l’extractivisme des données inacceptable. A la suite de Ben Tarnoff, ils nous invitent à imaginer comment nationaliser l’internet et développer à la suite des travaux de Trebor Scholz, des plateformes coopératives. Ils nous invitent à renverser le discours dominant en relayant les critiques à l’égard des systèmes algorithmiques, à partager les histoires édifiantes des victimes des calculs, et à soutenir les organisations qui œuvrent en ce sens. Ils nous invitent à redéfinir la frontière entre ce que nous voulons et ce que nous ne voulons pas. « La crise du colonialisme des données exige notre participation mais sans notre approbation consciente. Elle ne nous confronte pas à la disparition des glaciers ou des forêts tropicales (même si le colonialisme des données vient avec des coûts environnementaux très significatifs), mais à des environnements sociaux appauvris organisés dans un seul but : l’extraction de données et la poursuite du profit. Et c’est un problème, car résoudre la crise environnementale et toutes les crises auxquelles nous sommes confrontés nécessite une collaboration sociale renforcée. Si nos environnements sociaux sont contrôlés par les États et les entreprises, il y a un risque que nous soyons manipulés pour servir leurs intérêts plutôt que les nôtres, ce qui pourrait saper les politiques collectives dont nous avons réellement besoin ». C’est aux colonisés d’agir. Il n’y a rien à attendre des colonisateurs de données. « L’extraction de données est le dernier stade d’un projet qui vise à gouverner le monde dans l’intérêt des puissants. Il nous faut inventer un monde où la donnée est quelque chose que les communautés contrôlent pour les buts qu’elles ont elles-mêmes choisis ». L’IA ne nous sauvera pas. Elle n’est « qu’un mécanisme de plus pour continuer à faire de l’argent et pour transformer le monde en espaces impénétrables que nous ne comprenons pas et sur lesquels nous n’avons aucun contrôle » et qui agit sur nos chances d’accès à des ressources cruciales (prêts, éducation, santé, protection sociale, travail…). Les données discriminent. Les tisser dans des algorithmes et des systèmes toujours plus complexes qui amplifient les biais ne générera que des systèmes de pouvoir encore plus inégaux. Ces systèmes exigent notre transparence la plus totale alors qu’eux-mêmes sont de plus en plus opaques, comme le disaient Ryan Calo et Danielle Citron. Si nous ne démantelons pas ces structures de pouvoir, le colonialisme de données produira de nouvelles injustices, pas leur disparition.

*

Si les perspectives critiques que tirent Mejias et Couldry sont intéressantes, on reprochera néanmoins à leur essai d’être plus philosophique que pragmatique. Les deux chercheurs peinent à documenter concrètement la prédation dont nous sommes l’objet, alors que les exemples ne manquent pas. Leurs propositions conclusives donnent un peu l’impression qu’ils nous invitent à prolonger la lutte, sans documenter justement le coût de la connexion. Leurs recommandations s’inscrivent dans un dictionnaire des luttes bien établies sans parvenir à proposer des leviers sur lesquels celles-ci pourraient converger. Dans leur radicalité, on pourrait s’attendre à ce que leurs propositions le soient également, permettant de construire des objectifs plus ambitieux, comme l’interdiction de la collecte de données, l’interdiction de leurs croisements, l’interdiction des inférences et de la segmentation des publics… On aurait pu attendre d’un livre sur le pillage des données qu’il soit plus radical encore, qu’il nous invite à combattre « la traite » dont nous sommes l’objet par le rétablissement de nos droits, comme l’abolition de l’esclavage ou l’indépendance ont été les leviers décisifs permettant d’envisager de mettre fin au colonialisme. Mejias et Couldry nous offrent une métaphore qui ouvre des perspectives, mais qui semblent bien moins mobilisables qu’on l’attendait.

MAJ du 4/10/2024 : Sur Mais où va le web, Irénée Régnauld revient sur le livre de l’anthropologue Payal Arora, From pessimism to to promise, qui offre un contrepoint au technocolonialisme de Mejias et Couldry. « Pour beaucoup, la peur d’être anonyme et perdu est plus grande que celle d’être surveillé. »

28.01.2025 à 09:25

Des nouvelles d’Argos Panoptès, la solution de supervision de sites web simple et efficace

Luc

Cela fait déjà plus de 8 mois que nous avons annoncé la sortie de la première version d’Argos Panoptès, notre logiciel de supervision dédié aux sites web, sur le Framablog et il est temps de faire un petit point d’étape. … Lire la suite­­
Texte intégral (2269 mots)

Cela fait déjà plus de 8 mois que nous avons annoncé la sortie de la première version d’Argos Panoptès, notre logiciel de supervision dédié aux sites web, sur le Framablog et il est temps de faire un petit point d’étape.

Testé sur le champ de bataille

Si nous avions fait développer Argos, c’était évidemment pour l’utiliser ! Dans le cadre de Framaspace, nous savions que nous allions devoir surveiller un grand nombre de sites web. En effet, outre nos services classiques, il fallait pouvoir vérifier le bon fonctionnement de toutes les instances Nextcloud déployées, et comme nous prévoyons d’en héberger 10 000, ça en fait des sites !

Une petite fille regarde l’objectif, une maison brûle en arrière-plan. Texte : « On a bien dit « Testé sur le champ de bataille » ? »"

La bonne tenue du service

Nous sommes passés d’un peu plus de 1 000 espaces Framaspace en mai dernier à près de 1 700 aujourd’hui, sans compter nos quelques centaines d’autres sites à surveiller (entre les services, les sites vitrines, les services avec plusieurs instances comme les pads, les services en test sur Framalab). On peut se dire que ça ne fait pas une grosse différence, mais sachant que d’autres solutions de supervision (comme statping-ng et Uptime Kuma que nous avions testés) ne supportent pas quelques centaines de sites…

Et surtout, nous avons multiplié les sondes ! Vous le verrez plus bas, nous avons ajouté de nouvelles capacités de supervision à Argos, ce qui nous permet de surveiller plusieurs aspects d’un même site, là où les tests étaient plus basiques auparavant.

Ainsi, pour plus ou moins 700 sites en plus à surveiller, nous sommes passés de 1 986 tests en mai 2024 à 5 585 tests au 20 novembre de la même année, 11 654 tests au 25 novembre (5 jours plus tard !), 26 584 tests au 28 janvier 2025 ! Et ça tient formidablement bien ! Nous n’avons pas dû ajouter d’agent supplémentaire, la base de données ne couine pas, nous sommes alertés très rapidement en cas de défaillance d’un site… Bref, tout marche bien navette 🙂

Capture d’écran du 15 janvier 2025 de la page de statut d’Argos avec 25 946 tests, tous au vert

Une configuration automatisable et automatisée

Un des points importants du cahier des charges d’Argos était d’avoir une configuration facilement lisible (et écrivable) pour un humain, mais surtout automatisable, à savoir pouvoir générer cette configuration par un script ou tout autre moyen informatique. Un des outils testé avant de partir sur un nouveau logiciel ne permettait, pour sa configuration, que l’usage d’une API HTTP (utilisable via une interface web, et qui ne convenait pas très bien pour automatiser complètement le processus de configuration), ce qui n’était pas bien pratique.

La configuration étant en YAML, c’était chose entendue. Un script Python, lisant les Pillars Salt où nous déclarons nos serveurs, les sites qu’ils hébergent et les instances Framaspace déployées, nous permet de générer la configuration d’Argos. Il nous a suffit de l’utiliser dans une recette Salt, elle-même appelée par Hermès, l’agent de manipulation des espaces Framaspace, après l’exécution de sa liste de travaux (ajout ou suppression d’espace, changement de suite office…) pour qu’Argos ait une liste de sites à superviser toujours à jour, sans aucune intervention de notre part.

Un flux de travail très satisfaisant

Ne parlons pas de la configuration d’Argos, ce sujet ayant été traité ci-dessus.

Qu’en est-il de l’utilisation d’Argos au quotidien ? Et bien celui-ci s’insère fort bien dans notre infrastructure de supervision existante :

  • il utilise le mail et Gotify pour nous alerter des problèmes. Gotify est un service (libre, que nous hébergeons nous-même, cela va de soi) qui permet d’envoyer et recevoir des messages. Si on peut avoir un client Gotify sur son téléphone, c’est plutôt via son client web que nous l’utilisons. Lorsqu’Argos envoie un message au serveur Gotify, une notification s’affiche sur mon bureau, me permettant de voir les alertes (et les rétablissements) en temps réel ;
  • n’étant pas devant mon écran 24 heures sur 24, je peux toujours consulter les mails ou les messages sur l’interface web de Gotify. Mais pour savoir que je dois consulter ces messages du passé, j’ai créé une commande pour servir de sonde Nagios, utilisée dans notre service de supervision généraliste (mais vieillissant), Shinken. Couplé à un petit gadget nommé BlinkStick strip et un script de mon cru, je peux observer l’état de la supervision simplement en jetant un œil en haut de mon écran.

Mème avec Buzz l’éclair montrant « Des notifications d’Argos. Des notifications d’Argos partout. » à un Woody atterré

En résumé : Argos est très malléable et peut s’insérer dans plus ou moins n’importe quel manière de travailler.

De nombreuses évolutions ces six derniers mois

Lors de notre article de mai, Argos était en version 0.1.1. Depuis, pas moins de 14 nouvelles versions sont sorties, dont 6 que l’on peut qualifier de majeures. Nous en sommes aujourd’hui à la version 0.7.3.

Mème : Première case : une carte de Uno « Arrête les évolutions d’Argos ou pioche 25 cartes », deuxième case, un personnage représentant Luc avec une main qui tient un nombre impressionnant de cartes.

Parmi les améliorations notables, on peut noter :

  • la génération d’un fichier d’exemple de configuration, pratique pour une première installation : il n’y a plus qu’à le modifier, et en plus il est auto-documenté ;
  • un système d’authentification intégré (fini l’authentification HTTP), ainsi que l’usage possible d’un serveur LDAP ;
  • la possibilité toutefois de laisser un accès anonyme à tout ou partie d’Argos si on le souhaite ;
  • une commande pour être averti si aucun agent ne s’est connecté depuis longtemps (ce qui évite d’avoir un Argos qui dit que tout est OK avec des informations datant de Mathusalem) ;
  • une commande pour tester l’envoi de mails, pour valider les paramètres de configuration mail du logiciel ;
  • une commande pour tester l’envoi de messages Gotify ;
  • une commande qui peut être utilisée pour une sonde Nagios ;
  • l’ajout d’Apprise comme moyen d’envoyer des notifications. Apprise est un véritable couteau suisse de la communication, qui peut être utilisé pour envoyer des messages par mail, SMS, Mattermost, Mastodon et plein d’autres protocoles libres ou non ;
  • l’ajout de nombreux nouveaux types de sondes, permettant aisément :
    • de s’assurer de la correspondance partielle ou complète d’un fichier JSON avec ce qu’on attend de lui ;
    • de s’assurer de la présence ou de la correspondance d’en-têtes HTTP attendues ;
    • de s’assurer que le code de statut HTTP retourné par le site correspond à l’un des codes attendus (on ne pouvait auparavant que tester une correspondance avec un seul code de statut) ;
    • d’utiliser des expressions rationnelles dans certains types de tests (sur du JSON, des en-têtes et le corps de la réponse du site) ;
    • de s’assurer de la redirection de la version HTTP vers la version HTTPS du site (il fallait auparavant déclarer les deux versions du site dans le fichier de configuration d’Argos)
  • une retentative immédiate de requête en cas d’erreur httpx.ReadError (pour éviter les hoquets du réseau) ;
  • la possibilité d’attendre plusieurs états non conformes à ce qui est attendu avant d’émettre une notification (pour éviter les hoquets de service et les problèmes temporaires) ;
  • la possibilité de choisir une fréquence de sonde inférieure à la minute ;
  • les sondes peuvent maintenant tester les sites en IPv4 ou en IPv6 (par défaut, sans configuration, Argos teste les deux) ;
  • les requêtes identiques sont maintenant mutualisées : au lieu de faire deux requêtes pour tester le code de retour et le contenu HTML d’une même page, Argos n’en fera qu’une seule ;
  • la possibilité d’envoyer des données dans les requêtes des sondes (pour tester une authentification, par exemple).

D’autres évolutions à venir…

Mais moins ! Argos en est à un point qui nous convient très bien. Des idées d’évolutions sont là, mais rien d’aussi nécessaire que les évolutions évoquées ci-dessus.

Bien évidemment, nous continuerons à chouchouter ce logiciel, et à le maintenir, mais Framasoft a un carnet de bal bien rempli pour l’année à venir, et nous devons placer nos points d’énergie là où nous en avons le plus besoin.

Mème : Première case, Luc, joyeux, tend les bras vers un gros ballon représentant Argos. Deuxième case, un deuxième personnage, façon blob, enserre la taille de Luc et l’empêche de saisir le ballon. Il est écrit « Reste du boulot » sur le blob.

Soutenez Framasoft !

Que ce soit pour nos services, les logiciels que nous produisons (y a pas qu’Argos, très loin de là !), nos interventions auprès du public ou juste parce qu’on fait des mèmes trop stylés, qui ont encore plus la classe que Georges Abitbol, n’hésitez pas à nous faire un petit don sur notre page de soutien pour que nous puissions continuer nos actions 🙂
Ce don est défiscalisable en France à hauteur de 66 % (si vous payez des impôts).

27.01.2025 à 07:42

Khrys’presso du lundi 27 janvier 2025

Khrys

Comme chaque lundi, un coup d’œil dans le rétroviseur pour découvrir les informations que vous avez peut-être ratées la semaine dernière. Tous les liens listés ci-dessous sont a priori accessibles librement. Si ce n’est pas le cas, pensez à activer … Lire la suite­­
Texte intégral (12065 mots)

Comme chaque lundi, un coup d’œil dans le rétroviseur pour découvrir les informations que vous avez peut-être ratées la semaine dernière.


Tous les liens listés ci-dessous sont a priori accessibles librement. Si ce n’est pas le cas, pensez à activer votre bloqueur de javascript favori ou à passer en “mode lecture” (Firefox) ;-)

Brave New World

Spécial Palestine et Israël

Spécial femmes dans le monde

Spécial France

Spécial femmes en France

Spécial médias et pouvoir

Spécial emmerdeurs irresponsables gérant comme des pieds (et à la néolibérale)

Spécial recul des droits et libertés, violences policières, montée de l’extrême-droite…

Spécial résistances

Spécial outils de résistance

Spécial GAFAM et cie

Les autres lectures de la semaine

Les BDs/graphiques/photos de la semaine

Les vidéos/podcasts de la semaine

Les trucs chouettes de la semaine

Retrouvez les revues de web précédentes dans la catégorie Libre Veille du Framablog.

Les articles, commentaires et autres images qui composent ces « Khrys’presso » n’engagent que moi (Khrys).

20 / 20
 Persos A à L
Mona CHOLLET
Anna COLIN-LEBEDEV
Julien DEVAUREIX
Cory DOCTOROW
EDUC.POP.FR
Marc ENDEWELD
Michel GOYA
Hubert GUILLAUD
Gérard FILOCHE
Alain GRANDJEAN
Hacking-Social
Samuel HAYAT
Dana HILLIOT
François HOUSTE
Tagrawla INEQQIQI
Infiltrés (les)
Clément JEANNEAU
Paul JORION
Michel LEPESANT
Frédéric LORDON
Blogs persos du Diplo
LePartisan.info
 
 Persos M à Z
Henri MALER
Christophe MASUTTI
Romain MIELCAREK
Richard MONVOISIN
Corinne MOREL-DARLEUX
Fabrice NICOLINO
Timothée PARRIQUE
Emmanuel PONT
VisionsCarto
Yannis YOULOUNTAS
Michaël ZEMMOUR
 
  Numérique
Christophe DESCHAMPS
Louis DERRAC
Olivier ERTZSCHEID
Olivier EZRATY
Framablog
Francis PISANI
Pixel de Tracking
Irénée RÉGNAULD
Nicolas VIVANT
 
  Collectifs
Arguments
Bondy Blog
Dérivation
Dissidences
Mr Mondialisation
Palim Psao
Paris-Luttes.info
ROJAVA Info
 
  Créatifs / Art / Fiction
Nicole ESTEROLLE
Julien HERVIEUX
Alessandro PIGNOCCHI
XKCD
🌓