Blogs Le Monde - L'informatique : science et technique au coeur du numérique
06.09.2024 à 07:00
[DA]vid contre Gol[IA]th : Quelle est la place de la créativité humaine dans le paysage de l’intelligence artificielle générative ?
binaire
Texte intégral (6689 mots)
Billet d’introduction: L’expression “David contre Goliath” n’a jamais semblé aussi pertinente que lorsqu’il faut décrire le combat des artistes contre les GAFAM. Cette expression souvent utilisée pour décrire un combat entre deux parties prenantes de force inégale souligne une réalité : celle de la nécessité qu’ont ressenti des artistes de différents milieux et pays de se défendre face à des géants de la tech de l’IA générative pour protéger leur oeuvres, leur passion et leur métier, pour eux et pour les générations futures. Si la Direction Artistique porte le nom de [DA]vid, alors l’IA sera notre Gol[IA]th… C’est parti pour une épopée 5.0 !
Julie Laï-Pei, femme dans la tech, a à cœur de créer un pont entre les nouvelles technologies et le secteur Culturel et Créatif, et d’en animer la communauté. Elle nous partage ici sa réflexion au croisement de ces deux domaines.
Chloé Mercier, Thierry Vieville et Ikram Chraibi Kaadoud
Comment les artistes font-ils face au géant IA, Gol[IA]th ?
A l’heure d’internet, les métiers créatifs ont connu une évolution significative de leur activité. Alors que nous sommes plus que jamais immergés dans un monde d’images, certains artistes évoluent et surfent sur la vague, alors que d’autres reviennent à des méthodes de travail plus classiques. Cependant tous se retrouvent confrontés aux nouvelles technologies et à leurs impacts direct et indirect dans le paysage de la créativité artistique.
Si les artistes, les graphistes, les animateurs devaient faire face à une concurrence sévère dans ce domaine entre eux et face à celle de grands acteurs du milieu, depuis peu (on parle ici de quelques mois), un nouveau concurrent se fait une place : l’Intelligence artificielle générative, la Gen-IA !
C’est dans ce contexte mitigé, entre écosystème mondial de créatifs souvent isolés et puissances économiques démesurées que se posent les questions suivantes :
Quelle est la place de la création graphique dans cet océan numérique ? Comment sont nourris les gros poissons de l’intelligence artificielle pour de la création et quelles en sont les conséquences ?
L’évolution des modèles d’entraînement des IA pour aller vers la Gen-AI que l’on connaît aujourd’hui
Afin qu’une intelligence artificielle soit en capacité de générer de l’image, elle a besoin de consommer une quantité importante d’images pour faire le lien entre la perception de “l’objet” et sa définition nominale. Par exemple, à la question “Qu’est-ce qu’un chat ?” En tant qu’humain, nous pouvons facilement, en quelques coup d’œil, enfant ou adulte, comprendre qu’un chat n’est pas un chien, ni une table ou un loup. Or cela est une tâche complexe pour une intelligence artificielle, et c’est justement pour cela qu’elle a besoin de beaucoup d’exemples !
Ci dessous une frise chronologique de l’évolution des modèles d’apprentissage de l’IA depuis les premiers réseaux de neurones aux Gen-IA :
En 74 ans, les modèles d’IA ont eu une évolution fulgurante, d’abord cantonnée aux sphères techniques ou celle d’entreprises très spécialisées, à récemment en quelques mois en 2023, la société civile au sens large et surtout au sens mondial.
Ainsi, en résumé, si notre IA Gol[IA]th souhaite générer des images de chats, elle doit avoir appris des centaines d’exemples d’images de chat. Même principe pour des images de voitures, des paysages, etc.
Le problème vient du fait que, pour ingurgiter ces quantités d’images pour se développer, Gol[IA]th mange sans discerner ce qu’il engloutit… que ce soit des photos libres de droit, que ce soit des oeuvres photographiques, des planches d’artwork, ou le travail d’une vie d’un artiste, Gol[IA]th ne fait pas de différence, tout n’est “que” nourriture…
Dans cet appétit gargantuesque, les questions d’éthique et de propriétés intellectuelles passent bien après la volonté de développer la meilleure IA générative la plus performante du paysage technologique. Actuellement, les USA ont bien de l’avance sur ce sujet, créant de véritables problématiques pour les acteurs de la création, alors que l’Europe essaie de normer et d’encadrer l’éthique des algorithmes, tout en essayant de mettre en place une réglementation et des actions concrètes dédiées à la question de la propriété intellectuelle, qui est toujours une question en cours à ce jour.
Faisons un petit détour auprès des différents régimes alimentaires de ce géant…
Comment sont alimentées les bases de données d’image pour les Gen-AI ?
L’alimentation des IA génératives en données d’images est une étape cruciale pour leur entraînement et leur performance. Comme tout bon géant, son régime alimentaire est varié et il sait se sustenter par différents procédés… Voici les principales sources et méthodes utilisées pour fournir les calories nécessaires de données d’images aux IA génératives :
-
Les bases de données publiques
Notre Gol[IA]th commence généralement par une alimentation saine, basée sur un des ensembles de données les plus vastes et les plus communément utilisés: par exemple, ImageNet qui est une base de données d’images annotées produite par l’organisation du même nom, à destination des travaux de recherche en vision par ordinateur. Cette dernière représente plus de 14 millions d’images annotées dans des milliers de catégories. Pour obtenir ces résultats, c’est un travail fastidieux qui demande de passer en revue chaque image pour la qualifier, en la déterminant d’après des descriptions, des mot-clefs, des labels, etc…
Entre autres, MNIST, un ensemble de données de chiffres manuscrits, couramment utilisé pour les tâches de classification d’images simples.
Dans ces ensembles de données publics, on retrouve également COCO (à comprendre comme Common Objects in COntext) qui contient plus de 330 000 images d’objets communs dans un contexte annotées, pour l’usage de la segmentation d’objets, la détection d’objets, de la légendes d’image, etc…
Plus à la marge, on retrouve la base de données CelebA qui contient plus de 200 000 images de visages célèbres avec des annotations d’attributs.
-
La collecte de données en ligne (web scraping)
Plus discutable, Gol[IA]th peut également chasser sa pitance… Pour ce faire, il peut utiliser le web scraping. Il s’agit d’un procédé d’extraction automatique d’images à partir de sites web, moteurs de recherche d’images, réseaux sociaux, et autres sources en ligne. Concrètement, au niveau technique, il est possible d’utiliser des APIs (Application Programming Interfaces) pour accéder à des bases de données d’images: il s’agit d’interfaces logicielles qui permettent de “connecter” un logiciel ou un service à un autre logiciel ou service afin d’échanger des données et des fonctionnalités. Il en existe pour Flickr, pour Google Images, et bien d’autres.
Ce procédé pose question sur le plan éthique, notamment au sujet du consentement éclairé des utilisateurs de la toile numérique : Est-ce qu’une IA a le droit d’apprendre de tout, absolument tout, ce qu’il y a en ligne ? Et si un artiste a choisi de partager ses créations sur internet, son œuvre reste-t-elle sa propriété ou devient-elle, en quelque sorte, la propriété de tous ?
Ces questions soulignent un dilemme omniprésent pour tout créatif au partage de leur œuvre sur internet : sans cette visibilité, il n’existe pas, mais avec cette visibilité, ils peuvent se faire spolier leur réalisation sans jamais s’en voir reconnaître la maternité ou paternité.
Il y a en effet peu de safe-places pour les créatifs qui permettent efficacement d’être mis en lumière tout en se prémunissant contre les affres de la copie et du vol de propriété intellectuelle et encore moins de l’appétit titanesque des géants de l’IA.
C’est à cause de cela et notamment de cette méthode arrivée sans fanfare que certains créatifs ont choisi de déserter certaines plateformes/réseaux sociaux: les vannes de la gloutonnerie de l’IA générative avaient été ouvertes avant même que les internautes et les créatifs ne puissent prendre le temps de réfléchir à ces questions. Cette problématique a été aperçue, entre autres, sur Artstation, une plateforme de présentation jouant le rôle de vitrine artistique pour les artistes des jeux, du cinéma, des médias et du divertissement. mais également sur Instagram et bien d’autres : parfois ces plateformes assument ce positionnement ouvertement, mais elles sont rares ; la plupart préfèrent enterrer l’information dans les lignes d’interminables conditions d’utilisation qu’il serait bon de commencer à lire pour prendre conscience de l’impact que cela représente sur notre “propriété numérique”.
-
Les bases de données spécialisées
Dans certains cas, Gol[IA]th peut avoir accès à des bases de données spécialisées, comprenant des données médicales (comme les scans radiographiques, IRM, et autres images médicales disponibles via des initiatives comme ImageCLEF) ou des données satellites (fournies par des agences spatiales comme la NASA et des entreprises privées pour des images de la Terre prises depuis l’espace).
-
Les données synthétiques
Au-delà des images tirées du réel, l’IA peut également être alimentée à partir d’images générées par ordinateur. La création d’images synthétiques par des techniques de rendu 3D permet de simuler des scénarios spécifiques (par exemple, de la simulation d’environnements de conduite pour entraîner des systèmes de conduite autonome), ainsi que des modèles génératifs pré-entraînés. En effet, les images générées par des modèles peuvent également servir pour l’entraînement d’un autre modèle. Mais les ressources peuvent également provenir d’images de jeux vidéo ou d’environnement de réalité virtuelle pour créer des ensembles de données (on pense alors à Unreal Engine ou Unity).
-
Les caméras et les capteurs
L’utilisation de caméras pour capturer des images et des vidéos est souvent employée dans les projets de recherche et développement, et dans une volonté de sources plus fines, de capteurs pour obtenir des images dans des conditions spécifiques, comme des caméras infrarouges pour la vision nocturne, des LIDAR pour la cartographie 3D, etc.
Toutes ces différentes sources d’approvisionnement pour Gol[IA]th sont généralement prétraitées avant d’être utilisées pour l’entraînement : normalisation, redimensionnement, augmentation des données, sont des moyens de préparation des images.
En résumé, il faut retenir que les IA génératives sont alimentées par une vaste gamme de sources de données d’images, allant des ensembles de données publiques aux données collectées en ligne, en passant par les images synthétiques et les captures du monde réel. La diversité et la qualité des données sont essentielles pour entraîner des modèles génératifs performants et capables de produire des images réalistes et variées. Cependant cette performance ne se fait pas toujours avec l’accord éclairé des auteurs des images. Il est en effet compliqué – certains diront impossible – de s’assurer que la gloutonnerie de Gol[IA]th s’est faite dans les règles avec le consentement de tous les créatifs impliqués… Un sujet d’éducation à la propriété numérique est à considérer!
Mais alors, comment [DA]vid et ses créatifs subissent cette naissance monstrueuse ?
Les métiers créatifs voient leur carnet de commande diminuer, les IA se démocratisant à une vitesse folle. [DA]vid, au delà de perdre des revenus en n’étant plus employé par des revues pour faire la couverture du magazine, se retrouve face à une concurrence déloyale : l’image générée a le même style… voir “son style”… Or pour un créatif, le style est l’œuvre du travail d’une vie, un facteur différenciant dans le paysage créatif, et le moteur de compétitivité dans le secteur… Comment faire pour maintenir son statut d’acteur de la compétitivité de l’économie alors que les clients du secteur substituent leur commande par des procédés éthiquement questionnables pour faire des économies ?
Gol[IA]th mange sans se sentir rompu, qu’il s’agisse de données libres ou protégées par des droits d’auteur, la saveur ne change pas. L’espoir de voir les tribunaux s’animer, pays après pays, sur des questionnements de violation, ou non, des lois protégeant les auteurs, s’amenuise dans certaines communautés. En attendant, les [DA]vid créatifs se retrouvent livrés à eux-mêmes, lentement dépossédés de l’espoir de pouvoir échapper au géant Gol[IA]th. Alors que l’inquiétude des artistes et des créateurs grandit à l’idée de voir une série d’algorithmes reproduire et s’accaparer leur style artistique, jusqu’à leur carrière, certains s’organisent pour manifester en occupant l’espace médiatique comme l’ont fait les acteurs en grève à Hollywood en 2023, et d’autres choisissent d’attaquer le sujet directement au niveau informatique en contactant Ben Zhao et Heather Zheng, deux informaticiens de l’Université de Chicago qui ont créé un outil appelé “Fawkes”, capable de modifier des photographies pour déjouer les IA de reconnaissance faciale.
La question s’imposant étant alors :
“Est-ce que Fawkes peut protéger notre style contre des modèles de génération d’images comme Midjourney ou Stable Diffusion ?”
Bien que la réponse immédiate soit “non”, la réflexion a guidé vers une autre solution…
“Glaze”, un camouflage en jus sur une oeuvre
Les chercheurs de l’Université de Chicago se sont penchés sur la recherche d’une option de défense des utilisateurs du web face aux progrès de l’IA. Ils ont mis au point un produit appelé “Glaze”, en 2022, un outil de protection des œuvres d’art contre l’imitation par l’IA. L’idée de postulat est simple : à l’image d’un glacis ( une technique de la peinture à l’huile consistant à poser, sur une toile déjà sèche, une fine couche colorée transparente et lisse) déposer pour désaturer les pigments “Glaze” est un filtre protecteur des créations contre les IAs.
“Glaze” va alors se positionner comme un camouflage numérique : l’objectif est de brouiller la façon dont un modèle d’IA va “percevoir” une image en la laissant inchangée pour les yeux humains.
Ce programme modifie les pixels d’une image de manière systématique mais subtile, de sorte à ce que les modifications restent discrètes pour l’homme, mais déconcertantes pour un modèle d’IA. L’outil tire parti des vulnérabilités de l’architecture sous-jacente d’un modèle d’IA, car en effet, les systèmes de Gen-AI sont formés à partir d’une quantité importante d’images et de textes descriptifs à partir desquels ils apprennent à faire des associations entre certains mots et des caractéristiques visuelles (couleurs, formes). “Ces associations cryptiques sont représentées dans des « cartes » internes massives et multidimensionnelles, où les concepts et les caractéristiques connexes sont regroupés les uns à côté des autres. Les modèles utilisent ces cartes comme guide pour convertir les textes en images nouvellement générées.” (- Lauren Leffer, biologiste et journaliste spécialisée dans les sciences, la santé, la technologie et l’environnement.)
“Glaze” va alors intervenir sur ces cartes internes, en associant des concepts à d’autres, sans qu’il n’y ait de liens entre eux. Pour parvenir à ce résultat, les chercheurs ont utilisé des “extracteurs de caractéristiques” (programmes analytiques qui simplifient ces cartes hypercomplexes et indiquent les concepts que les modèles génératifs regroupent et ceux qu’ils séparent). Les modifications ainsi faites, le style d’un artiste s’en retrouve masqué : cela afin d’empêcher les modèles de s’entraîner à imiter le travail des créateurs. “S’il est nourri d’images « glacées » lors de l’entraînement, un modèle d’IA pourrait interpréter le style d’illustration pétillante et caricatural d’un artiste comme s’il s’apparentait davantage au cubisme de Picasso. Plus on utilise d’images « glacées » pour entraîner un modèle d’imitation potentiel, plus les résultats de l’IA seront mélangés. D’autres outils tels que Mist, également destinés à défendre le style unique des artistes contre le mimétisme de l’IA, fonctionnent de la même manière.” explique M Heather Zheng, un des deux créateurs de cet outil.
Plus simplement, la Gen-AI sera toujours en capacité de reconnaître les éléments de l’image (un arbre, une toiture, une personne) mais ne pourra plus restituer les détails, les palettes de couleurs, les jeux de contrastes qui constituent le “style”, i.e., la “patte” de l’artiste.
Bien que cette méthode soit prometteuse, elle présente des limites techniques et dans son utilisation.
Face à Gol[IA]th, les [DA]vid ne peuvent que se cacher après avoir pris conscience de son arrivée : dans son utilisation, la limite de “Glaze” vient du fait que chaque image que va publier un créatif ou un artiste doit passer par le logiciel avant d’être postée en ligne.. Les œuvres déjà englouties par les modèles d’IA ne peuvent donc pas bénéficier, rétroactivement, de cette solution. De plus, au niveau créatif, l’usage de cette protection génère du bruit sur l’image, ce qui peut détériorer sa qualité et s’apercevoir sur des couleurs faiblement saturées. Enfin au niveau technique, les outils d’occultation mise à l’œuvre ont aussi leurs propres limites et leur efficacité ne pourra se maintenir sur le long terme.
En résumé, à la vitesse à laquelle évoluent les Gen-AI, “Glaze” ne peut être qu’un barrage temporaire, et malheureusement non une solution : un pansement sur une jambe gangrenée, mais c’est un des rares remparts à la créativité humaine et sa préservation.
Il faut savoir que le logiciel a été téléchargé 720 000 fois, et ce, à 10 semaines de sa sortie, ce qui montre une véritable volonté de la part des créatifs de se défendre face aux affronts du géant.
La Gen-AI prend du terrain sur la toile, les [DA]vid se retrouvent forcés à se cacher… Est-ce possible pour eux de trouver de quoi charger leur fronde ? Et bien il s’avère que la crainte a su faire naître la colère et les revendications, et les créatifs et les artistes ont décidé de se rebeller face à l’envahisseur… L’idée n’est plus de se cacher, mais bien de contre-attaquer Gol[IA]th avec les armes à leur disposition…
“Nightshade”, lorsque la riposte s’organise ou comment empoisonner l’IA ?
Les chercheurs de l’Université de Chicago vont pousser la réflexion au delà de “Glaze”, au delà de bloquer le mimétisme de style, “Nightshade” est conçu comme un outil offensif pour déformer les représentations des caractéristiques à l’intérieur même des modèles de générateurs d’image par IA…
« Ce qui est important avec Nightshade, c’est que nous avons prouvé que les artistes n’ont pas à être impuissants », déclare Zheng.
Nightshade ne se contente pas de masquer la touche artistique d’une image, mais va jusqu’à saboter les modèles de Gen-AI existants. Au-delà de simplement occulter l’intégrité de l’image, il la transforme en véritable “poison” pour Gol[IA]th en agissant directement sur l’interprétation de celui-ci. Nightshade va agir sur l’association incorrecte des idées et des images fondamentales. Il faut imaginer une image empoisonnée par “Nightshade” comme une goutte d’eau salée dans un récipient d’eau douce. Une seule goutte n’aura pas grand effet, mais chaque goutte qui s’ajoute va lentement saler le récipient. Il suffit de quelques centaines d’images empoisonnées pour reprogrammer un modèle d’IA générative. C’est en intervenant directement sur la mécanique du modèle que “Nightshade” entrave le processus d’apprentissage, en le rendant plus lent ou plus coûteux pour les développeurs. L’objectif sous-jacent serait, théoriquement, d’inciter les entreprises d’IA à payer les droits d’utilisation des images par le biais des canaux officiels plutôt que d’investir du temps dans le nettoyage et le filtrage des données d’entraînement sans licence récupérée sur le Web.
Ce qu’il faut comprendre de « Nightshade » :
- Empoisonnement des données: Nightshade fonctionne en ajoutant des modifications indétectables mais significatives aux images. Ces modifications sont introduites de manière à ne pas affecter la perception humaine de l’image mais à perturber le processus de formation des modèles d’IA. Il en résulte un contenu généré par l’IA qui s’écarte de l’art prévu ou original.
- Invisibilité: Les altérations introduites par Nightshade sont invisibles à l’œil humain. Cela signifie que lorsque quelqu’un regarde l’image empoisonnée, elle apparaît identique à l’originale. Cependant, lorsqu’un modèle d’IA traite l’image empoisonnée, il peut générer des résultats complètement différents, pouvant potentiellement mal interpréter le contenu.
- Impact: L’impact de l’empoisonnement des données de Nightshade peut être important. Par exemple, un modèle d’IA entraîné sur des données empoisonnées pourrait produire des images dans lesquelles les chiens ressemblent à des chats ou les voitures à des vaches. Cela peut rendre le contenu généré par l’IA moins fiable, inexact et potentiellement inutilisable pour des applications spécifiques.
Voici alors quelques exemples après de concepts empoisonnés :
Plus précisément, « Nightshade transforme les images en échantillons ’empoisonnés’, de sorte que les modèles qui s’entraînent sur ces images sans consentement verront leurs modèles apprendre des comportements imprévisibles qui s’écartent des normes attendues, par exemple une ligne de commande qui demande l’image d’une vache volant dans l’espace pourrait obtenir à la place l’image d’un sac à main flottant dans l’espace », indiquent les chercheurs.
Le « Data Poisoning » est une technique largement répandue. Ce type d’attaque manipule les données d’entraînement pour introduire un comportement inattendu dans le modèle au moment de l’entraînement. L’exploitation de cette vulnérabilité rend possible l’introduction de résultats de mauvaise classification.
« Un nombre modéré d’attaques Nightshade peut déstabiliser les caractéristiques générales d’un modèle texte-image, rendant ainsi inopérante sa capacité à générer des images significatives », affirment-ils.
Cette offensive tend à montrer que les créatifs peuvent impacter les acteurs de la technologie en rendant contre-productif l’ingestion massive de données sans l’accord des ayant-droits.
Plusieurs plaintes ont ainsi émané d’auteurs, accusant OpenAI et Microsoft d’avoir utilisé leurs livres pour entraîner ses grands modèles de langage. Getty Images s’est même fendu d’une accusation contre la start-up d’IA Stability AI connue pour son modèle de conversion texte-image Stable Diffusion, en Février 2023. Celle-ci aurait pillé sa banque d’images pour entraîner son modèle génératif Stable Diffusion. 12 millions d’œuvres auraient été « scrappées » sans autorisation, attribution, ou compensation financière. Cependant, il semble que ces entreprises ne puissent pas se passer d’oeuvres soumises au droit d’auteur, comme l’a récemment révélé OpenAI, dans une déclaration auprès de la Chambre des Lords du Royaume-Uni concernant le droit d’auteur, la start-up a admis qu’il était impossible de créer des outils comme le sien sans utiliser d’œuvres protégées par le droit d’auteur. Un aveu qui pourrait servir dans ses nombreux procès en cours…
Ainsi, quelle est la place de la créativité humaine dans le paysage de l’intelligence artificielle générative ?
En résumé, dans sa gloutonnerie, Gol[IA]th a souhaité engloutir les [DA]vid qui nous entourent, qui ont marqué l’histoire et ceux qui la créent actuellement, dans leur entièreté et leur complexité : en cherchant à dévorer ce qui fait leur créativité, leur style, leur patte, au travers d’une analyse de caractéristiques et de pixels, Gol[IA]th a transformé la créativité humaine qui était sa muse, son idéal à atteindre, en un ensemble de données sans sémantique, ni histoire, ni passion sous-jacente.
C’est peut être un exemple d’amour nocif à l’heure de l’IA, tel que vu par l’IA ?
Sans sous-entendre que les personnes à l’origine de l’écriture des IA génératives ne sont pas des créatifs sans passion, il est probable que la curiosité, la prouesse et l’accélération technologique ont peu à peu fait perdre le fil sur les impacts que pourrait produire un tel engouement.
A l’arrivée de cette technologie sur le Web, les artistes et les créatifs n’avaient pas de connaissance éclairée sur ce qui se produisait à l’abri de leurs regards. Cependant, les modèles d’apprentissage ont commencé à être alimentés en données à l’insu de leur ayant-droits. La protection juridique des ayant-droits n’évoluant pas à la vitesse de la technologie, les créatifs ont rapidement été acculés, parfois trop tard, les Gen-AI ayant déjà collecté le travail d’une vie. Beaucoup d’artistes se sont alors “reclus”, se retirant des plateformes et des réseaux sociaux pour éviter les vols, mais ce choix ne fut pas sans conséquence pour leur visibilité et la suite de leur carrière.
Alors que les réseaux jouaient l’opacité sur leurs conditions liées à la propriété intellectuelle, le choix a été de demander aux créatifs de se “manifester s’ils refusaient que leurs données soient exploitées”, profitant de la méconnaissance des risques pour forcer l’acceptation de condition, sans consentement éclairé. Mais la grogne est montée dans le camp des créatifs, qui commencent à être excédés par l’abus qu’ils subissent. “Glaze” fut une première réaction, une protection pour conserver l’intégrité visuelle de leur œuvre, mais face à une machine toujours plus gloutonne, se protéger semble rapidement ne pas suffire. C’est alors que “Nightshade” voit le jour, avec la volonté de faire respecter le droit des artistes, et de montrer qu’ils ne se laisseraient pas écraser par la pression des modèles.
Il est important de suivre l’évolution des droits des différents pays et de la perception des sociétés civiles dans ces pays de ce sujet car le Web, l’IA et la créativité étant sans limite géographique, l’harmonisation juridique concernant les droits d’auteur, la réglementation autour de la propriété intellectuelle, et l’éducation au numérique pour toutes et tous, vont être – ou sont peut-être déjà – un enjeu d’avenir au niveau mondial.
Rendons à César ce qui est à césar
L’équipe du « Glaze Project »
Profil X du Glaze project
Lien officiel : https://glaze.cs.uchicago.edu/
Pour avoir davantage d’informations sur Glaze et Nightshade : page officielle
Article Glaze : Shan, S., Cryan, J., Wenger, E., Zheng, H., Hanocka, R., & Zhao, B. Y. (2023). Glaze: Protecting artists from style mimicry by {Text-to-Image} models. In 32nd USENIX Security Symposium (USENIX Security 23) (pp. 2187-2204). arXiv preprint arXiv:2302.04222
Article Nightshade : Shan, S., Ding, W., Passananti, J., Zheng, H., & Zhao, B. Y. (2023). Prompt-specific poisoning attacks on text-to-image generative models. arXiv preprint arXiv:2310.13828.
A propos de l’autrice : Julie Laï-Pei, après une première vie dans le secteur artistique et narratif, a rejoint l’émulation de l’innovation en Nouvelle-Aquitaine, en tant que responsable de l’animation d’une communauté technologique Numérique auprès d’un pôle de compétitivité. Femme dans la tech et profondément attachée au secteur Culturel et Créatif, elle a à coeur de partager le résultat de sa veille et de ses recherches sur l’impact des nouvelles technologies dans le monde de la créativité.
30.08.2024 à 07:58
La vision par ordinateur à votre service
binaire
Continuer la lecture de « La vision par ordinateur à votre service »
Texte intégral (3106 mots)
Un nouvel entretien autour de l’informatique.
Gérard Medioni est un informaticien, professeur émérite d’informatique à l’université de Californie du Sud, vice-président et scientifique distingué d’Amazon. Il a des contributions fondamentales à la vision par ordinateur, en particulier à la détection 3D, à la reconstruction de surfaces et à la modélisation d’objets. Il a travaillé sur des questions fondamentales comme : Comment déduire des descriptions d’objets à partir d’images ? Comment « reconnaître » des objets que nous n’avons jamais vus ? Ses recherches ont inspiré nombre d’inventions qu’il a porté dans des startups puis chez Amazon.
Binaire : Peux-tu nous raconter brièvement comment tu es devenu professeur d’informatique à l’Université de Californie du Sud ?
GM : J’ai un parcours classique en France, en passant par le lycée Saint-Louis puis Télécom Paris. J’ai découvert l’informatique à Télécom. J’y ai écrit mon premier programme sur un ordinateur, un Iris 80. Il dessinait des figures de Moiré. J’ai découvert alors que les images pouvaient parler à tous.
Figure de Moiré, Wikipédia Commons (cliquer sur le lien pour voir l’animation)
J’étais attiré par la Californie, un peu à l’image de la chanson de Julien Clerc. J’ai candidaté dans des universités californiennes. J’ai été accepté à l’Université de Californie du Sud, à Los Angeles, dans le département d’Electrical Engineering. J’ai eu une bourse du gouvernement français. Quand je suis arrivé, le département d’informatique, minuscule alors avec seulement 3 professeurs, est venu me proposer de rejoindre ce département en tant qu’assistant.
Je me suis retrouvé assistant du Professeur Nevatia, pour le cours d’Intelligence Artificielle, un sujet qui m’était totalement étranger. J’avais deux semaines d’avance sur les étudiants. J’ai découvert alors que le meilleur moyen d’apprendre un sujet était de l’enseigner. De fil en aiguille, je suis devenu prof dans ce département.
Binaire : Peux-tu nous parler de ta recherche académique à l’Université de Californie du Sud ?
GM : Quand j’étais à Télécom, un grand professeur américain, King-Sun Fu, est venu faire un séminaire. Il nous a présenté l’image d’un cube, et nous a demandé comment un ordinateur pouvait comprendre cette image. Je ne comprenais même pas la question. Et puis, en y réfléchissant, j’ai fini par réaliser la distance qui existe entre une image, un tableau de pixels, et notre perception d’une scène en tant qu’éléments sémantiques, objets, personnes et relations ; nous reconnaissons peut-être un objet, un animal. Comment notre cerveau réalise-t-il cela ? Comment un algorithme peut-il le faire ? J’ai passé ma vie à répondre à ces questions. Elle est assez complexe pour me garantir à vie des sujets de recherche passionnants.
Le sujet est donc la vision par ordinateur qui s’intéresse à donner du sens à des images, des films, à comprendre la sémantique présente dans des nuages de points. Pour y arriver, on a développé toute une gamme de techniques. Par exemple, en observant une même scène en stéréo avec deux caméras qui capturent des images en deux dimensions à partir de points de vue légèrement différents, on peut essayer de reconstruire la troisième dimension.
Binaire : l’intelligence artificielle a-t-elle transformé ce domaine ?
GM : Elle l’a véritablement révolutionné. La vision par ordinateur obtenait de beaux résultats jusqu’en 2012, mais dans des domaines restreints, dans des environnements particuliers. Et puis, on a compris que le deep learning* ouvrait des possibilités fantastiques. Depuis, on a obtenu des résultats extraordinaires en vision par ordinateur. Je pourrais parler de cela quand on arrivera à mon travail sur Just walk out d’Amazon.
Binaire : Tu fais une belle recherche, plutôt fondamentale, avec de superbes résultats. Tu aurais pu en rester là. Qu’est-ce qui te motive pour travailler aussi sur des applications ?
GM : On voit souvent un professeur d’université comme quelqu’un qui invente un problème dans sa tour d’ivoire, et lui trouve une solution. Au final, son problème et sa solution n’intéressent pas grand monde. Ce n’est pas mon truc. J’ai toujours été attiré par les vrais problèmes. Quand les ingénieurs d’une équipe industrielle sont bloqués par un problème, qu’ils n’arrivent pas à le résoudre, ce n’est pas parce qu’ils sont médiocres, c’est souvent parce que le problème est un vrai défi, et que le cœur du sujet est un verrou scientifique. Et là, ça m’intéresse.
Pour prendre un exemple concret, j’ai travaillé plusieurs années sur l’aide à la navigation de personnes aveugles. Le système consistait en une caméra pour étudier l’environnement et de micro-moteurs dans les vestes des personnes pour leur transmettre des signaux. On a réalisé un proof of concept (preuve de concept), et cela a été un franc succès. Et puis, j’ai reçu un courriel d’une personne aveugle qui me demandait quand elle pourrait utiliser le système. Je n’ai pas pu lui répondre et j’ai trouvé cela hyper déprimant. Je voulais aller jusqu’au produit final. Pour faire cela, il fallait travailler directement avec des entreprises.
Binaire : Cela t’a donc conduit à travailler souvent avec des entreprises. Pourrais-tu nous parler de certains de tes travaux ?
GM : J’ai beaucoup travaillé avec des entreprises américaines, israéliennes, ou françaises. J’ai participé au dépôt de nombreux brevets. Une de mes grandes fiertés est d’avoir participé au développement d’une camera 3D qui se trouve aujourd’hui dans des millions de téléphones. J’ai travaillé, pour une entreprise qui s’appelait Primesense, sur une caméra très bon marché qui équipait un produit que vous connaissez peut-être, le Microsoft Kinect. Kinect est rentré dans le Guinness des records comme le consumer electronics device (appareil électronique grand public) le plus rapidement vendu massivement. Primesense a été rachetée ensuite par Apple, et aujourd’hui cette technologie équipe les caméras des Iphones. Je suis fier d’avoir participé au développement de cette technologie !
Et puis, un jour Amazon m’a contacté pour me proposer de m’embaucher pour un projet sur lequel ils ne pouvaient rien me dire. Je leur ai répondu que j’aimais mon travail de prof et que je ne cherchais pas autre chose. Ils ont insisté. Je les ai rencontrés. Et ils ont fini par me parler d’Amazon Go, des boutiques sans caissier. C’était techniquement fou, super complexe. C’était évidemment tentant. Je leur ai posé sans trop y croire des conditions dingues comme de pouvoir recruter plein de chercheurs, de monter un labo de R&D en Israël. Ils ont dit oui à tout. Je bosse pour Amazon depuis 10 ans, et j’aime ce que j’y fais.
Binaire : Pourrais-tu nous en dire un peu plus sur Amazon Go, et sur le projet suivant Just Walk Out ? Quelles étaient les difficultés ?
GM : Avec Amazon Go, le client entre dans un magasin, prend ce qu’il veut et ressort. Il ne s’arrête pas à la caisse pour payer. Les vidéos de caméras placées dans tout le magasin sont analysées en permanence. Le client présente un mode de paiement à l’entrée, auquel une signature visuelle est associée. Ainsi, le système permet de le localiser dans le magasin, de détecter quand il prend ou qu’il pose un objet, quel est cet objet. Un reçu virtuel est mis à jour automatiquement. Quand le client sort du magasin, le reçu virtuel devient un reçu définitif et le paiement s’effectue. On a testé Amazon Go en 2017 dans des magasins pour les employés d’Amazon, et puis on a ouvert au public en 2018.
Une difficulté est qu’il faut que ça fonctionne tout le temps, et pour tous les clients, avec un très bon niveau de précision. On a très peu droit à l’erreur si on ne veut pas perdre la confiance des clients.
Plutôt que de créer des magasins avec tout le métier que cela représente, Amazon a choisi dans un deuxième temps de proposer cette techno à des magasins existants pour les équiper. On est passé à Just Walk Out, il y a deux ans. On équipe aujourd’hui plus de 160 points de vente, notamment dans des stades et des aéroports.
Binaire : Pourrait-on parler maintenant du deep learning et de sa place dans ce projet ?
GM : Au début du projet, Amazon Go n’utilisait pas le deep learning. Et autour de 2012, nous avons été convaincus que cette techno apporterait des améliorations considérables. Cela a un peu été comme de changer le moteur de l’avion en plein vol. Nos équipes travaillaient avant sur des modules séparés que l’on combinait. Mais chaque modification d’un module était lourde à gérer. On est passé avec le deep learning et le end-to-end learning** à un seul module. L’apprentissage permet d’améliorer toutes les facettes de ce module en même temps. Cela n’a pas été simple de faire évoluer toutes les équipes. On y est arrivé, et cela fonctionne bien mieux, plus efficacement.
Binaire : Pourquoi cette technologie ne s’est-elle pas installée sur plus de supermarchés ?
GM : Un problème est que, dans des grandes surfaces, certains produits sont difficiles à gérer : les fruits et légumes au poids, les fleurs, le vrac… La techno s’est donc déployée dans des domaines où l’attente des clients est un vrai problème comme les évènements sportifs et culturels.
Binaire : Tu participes ensuite à la création du service d’identité biométrique Amazon One, pour faciliter le paiement et d’autres fonctions. Pourrais-tu nous dire en quoi cela consiste ?
GM : À Amazon, un souci constant est de résoudre les problèmes de nos clients. Pour Just Walk Out, c’était très clair, personne n’aime faire la queue à la caisse. Avec Amazon One, le problème est celui de valider son identité. Pour faire cela, de nombreuses méthodes peuvent être considérées : ADN, empreinte digitale, iris, etc. Nous avons choisi d’utiliser la paume de la main. On est arrivé à faire plus que de la vérification : de l’identification. On peut trouver une personne parmi des millions dans une base de données, ou détecter qu’elle n’y est pas.
Pour réaliser cela, on prend deux images : une de la surface de la paume de la main et une autre en infrarouge du réseau sanguin. Ces informations indépendantes se complémentent et identifient une personne avec une surprenante précision, 1000 fois plus précis que le visage, et 100 fois plus que les 2 iris des yeux !
Binaire : En vieillissant, ma paume ne va-t-elle pas changer ?
GM : Oui, lentement et progressivement. Mais, à chaque fois que vous utilisez le service, la signature est mise à jour. Si vous ne vous servez pas du service pendant deux ans, on vous demande de vous réidentifier.
Binaire : Et aujourd’hui, sur quoi travailles-tu ?
GM : Je travaille pour le service Prime Video d’Amazon. Nous cherchons à créer de nouvelles expériences vidéos pour le divertissement.
Binaire : Tu es resté lié à des chercheurs français. Pourrais-tu nous dire comment tu vois la différence entre la recherche en informatique aux US et en France ?
GM : L’éducation française est extraordinaire ! La qualité des chercheurs en informatique en France est excellente. Mais l’intelligence artificielle change la donne. La France avec des startups comme Mistral est à la pointe du domaine. Mais, pour rester dans la course, une infrastructure énorme est indispensable. Cela exige d’énormes investissements. Est-ce qu’ils sont là ?
Les talents existent en France. Il faut arriver à construire un cadre, des écosystèmes, dans lesquels ils puissent s’épanouir pour créer de la valeur technologique.
Binaire : Aurais-tu un conseil pour les jeunes chercheurs ?
GM : Le monde de la publication a changé fondamentalement. Les publications dans des journaux ont perdu de leur importance, car elles prennent trop de temps. Et même aujourd’hui, une publication dans une conférence arrive tard. Si on ne suit pas les prépublications comme sur arXiv, on n’est plus dans le coup.
Personne n’avait vu venir le deep learning, les large language models… On vit une révolution technologique incroyable de l’informatique et de l’intelligence artificielle. La puissance des outils qu’on développe est fantastique. Tous les domaines sont impactés, médecine, transport, agriculture, etc.
Les chercheurs vont pouvoir faire plus, beaucoup plus vite. Les jeunes chercheurs vont pouvoir obtenir des résultats dingues. Mais, il va leur falloir être très agiles !
Serge Abiteboul, Inria, & Ikram Chraibi Kaadoud, Inria
(Serge Abiteboul a étudié avec Gérard Médioni à Télécom et USC. Ils sont amis depuis.)
Pour aller plus loin
(*) Le deep learning ou « apprentissage profond » est un sous-domaine de l’intelligence artificielle qui utilise des réseaux neuronaux pour résoudre des tâches complexes.
(**) L’end-to-end learning ou « apprentissage de bout en bout » est un type de processus d’apprentissage profond dans lequel tous les paramètres sont mis au point en même temps, plutôt que séparément.
https://www.lemonde.fr/blog/binaire/les-entretiens-de-la-sif/
19.07.2024 à 07:16
Binaire fait sa pause estivale
binaire
Texte intégral (1118 mots)
Pour un été non binaire : partez avec binaire dans vos favoris.
Nous faisons notre pause estivale avant de revenir partager avec vous des contenus de popularisation sur l’informatique !
À la rentrée nous parlerons à nouveau aussi bien de technologie que de science, d’enseignement, de questions industrielles, d’algorithmes, de data… bref, de tous les sujets en lien avec le monde numérique qui nous entoure …
D’ici là, vous pouvez tout de même passer l’été avec binaire en profitant de nos collections qui contiennent sûrement de beaux articles que vous n’avez pas encore eu le temps de lire*, comme par exemple «Femmes et numérique inclusif par la pratique».
©Catherine Créhangeundessinparjouravec sa gracieuse autorisation.
(*) Voici aussi quelques lectures coup de cœur en lien avec nos sujets :
– Vive les communs numériques ! où des logiciels libres en passant par Wikipédia et la science ouverte, on nous explique tout sur ces ressources partagées, gérées et entretenues par une communauté, pour en faire un bien commun.
– Ada & Zangemann : un joli conte vivant sur l’informatique libre, la camaraderie et le rôle des filles pour une technique au service de l’autonomie.
– Nous sommes les réseaux sociaux s’attaque à la régulation des réseaux sociaux, ces complexes objets mi-humains et mi-algorithmes, qui nous unissent pour le meilleur et pour le pire tandis que c’est à nous toutes et tous de définir ce qui doit être fait.
Et aussi :
– Pour une nouvelle culture de l’attention où on décrypte comme notre temps de cerveau se monnaye sur Internet, comme si nous étions des biens consommables.
– Les IA à l’assaut du cyberespace où on voit comment les GAFAMs, pour leur propre profit, visent à travers leurs algorithmes à nous indiquer quoi faire, que dire et où regarder, au lieu de permettre à l’humanité de partager.
– Mettre l’économie et le numérique au service de l’avenir où une philosophe et un économiste proposent une analyse de la capitalisation de nos esprits et du rapport à notre corps.
– Paresse pour tous où on questionne, avec les possibilités qu’offrent le numérique, la relation temps libre – travail en défendant l’idée que la vie ne se résume pas au travail, à la croissance, à la consommation.
12.07.2024 à 07:01
Exit l’intelligence, vive l’éducabilité !
binaire
Continuer la lecture de « Exit l’intelligence, vive l’éducabilité ! »
Texte intégral (2925 mots)
L’éducabilité, notre avantage darwinien
De la sélection darwinienne à l’émergence des civilisations, des proto-organismes aux humains, l’évolution de la vie n’est selon le récent ouvrage de Leslie Valiant qu’un immense apprentissage « Probablement Approximativement Correct´´ PAC (cf. infra) – notion due à l’auteur et couronnée en 2010 du prestigieux prix Turingii.
Dans les interactions entre individus, entre espèces, avec l’environnement, ce qui « apprend » le mieux prend le dessus. L’auteur explique comment l’évolution « PAC-darwinienne » a fait émerger notre aptitude à construire des Educable Learning Systems (Systèmes d’apprentissage éducable). Le maître mot est là, nous sommes la seule espèce devenue éducable. Dès lors nous n’avons guère le choix, nous devons tout miser sur une éducation à l’épreuve de la scienceiii, c’est notre meilleure chance de donner les bons coups de pagaie pour orienter notre destin dans le flot de l’évolution qui nous emporte. Et comme l’éducabilité tient en PAC une base solide, ce doit être là le pilote des recherches en éducation, qui sont encore trop empiriques, morcelées, voire idéologiques.
Si Charles Darwin avait été informaticien, il aurait pu écrire ce livreiv, qui en donnant une base calculatoire à l’évolution, en étend les règles du vivant aux idées. Valiant a l’habilité de nous amener progressivement à cette thèse au fil des pages. Je suggère néanmoins comme mise en appétit de commencer la lecture par le dernier chapitre, A Species Adriftv, que je viens de résumer.
L’intelligence, une mauvaise notion
Valiant règle en quelques lignes son sort à l’intelligence : c’est un mauvais concept, impossible à définirvi. Il argumente que notre aptitude à traiter de l’information fait sens au niveau de l’espèce et de son histoire plutôt qu’au niveau individuel. Peut-être que la notoriété de Leslie Vaillant et la consistance de ses propos aideront à réviser notre approche de l’intelligence, source de regrettables confusions quand elle touche à l’IA, et parfois de ravages sur les bancs de l’école.
Un texte ambitieux mais facile à aborder
Si le lecteur est informaticien, il a forcément entendu parler de l’apprentissage PACvii, a eu du mal à s’imprégner de la définition, a trouvé le formalisme lourd et les exemples laborieux. Les autres peuvent être rebutés par l’évocation de PAC à chaque page – une coquetterie d’auteur que l’on pardonnera. Dans les deux cas, que l’on se rassure. La lecture est aisée, elle ne demande aucune connaissance particulière. Le style est sobre et l’argumentation solide, digne du grand scientifique qu’est Valiant – qui fustige au passage les vendeurs de peur d’un « grand remplacement » de l’humain par la machine, comme hélas nous en connaissons tous.
PAC : Une vision computationnelleviii de l’évolution, des molécules aux civilisations
Plus en détail, il n’y a aucun formalisme mathématique dans cet ouvrage, PAC est présenté par sa « substantifique moelle ». L’idée est que l’évolution est un apprentissage, et qu’il ne peut y avoir d’apprentissage que Probablement Approximativement Correct (PAC). Approximativement, parce que retenir exactement est retenir par cœur, et cela ne dit rien d’une situation proche si l’on n’englobe pas les deux dans une même approximation ix. Probablement car il existera toujours de rares situations qui n’auront pas été échantillonnées lors de l’apprentissage et ne seront donc même pas approximées x. Enfin, dans un contexte darwinien de compétition, cet apprentissage ne doit pas prendre trop de tempsxi. Le deep learning (l’apprentissage profond, en français) qui fait l’actualité est un exemple d’apprentissage PAC.
L’apprentissage PAC est d’abord un apprentissage par des exemples ; il lie par l’expérience des comportements à des stimuli dans les espèces rudimentaires – Valiant cite les escargots de mer. Au fil de l’évolution, de tels apprentissages peuvent se chaîner en comportements plus complexes, mais ce processus évolutif trouve vite ses limites car si une chaîne se rallonge, les incertitudes se cumulent. La plupart des espèces en sont là, limitées au chaînage de quelques règles élémentaires, qui s’inscrivent par sélection dans leur patrimoine biologique. Pour les espèces plus évoluées, cet inné peut se compléter par l’expérience individuelle, comme pour le chien de Pavlov. Mais seuls les humains ont une capacité corticale suffisante pour transmettre par l’éducation, condition nécessaire à la constitution des civilisations et des cultures. Pour éduquer, il faut nommer les choses ce qui permet d’apprendre sur des mots (plus exactement des tokens – des occurrences) et non seulement sur des stimuli. Valiant nomme de tels corpus de règles sur des tokens des Integrative Learning Systems, qui, combinés à nos capacités individuelles d’apprentissage par l’expérience et de communication, constituent des Educable Learning Systems. L’apport de Valiant est de décrire comment ces capacités sont apparues lors de l’évolution du vivant, par une conjonction fortuite de contingences, et surtout de montrer qu’elles devaient apparaître, d’une façon ou d’une autre, tôt ou tard, tant elles procurent un avantage considérablexii.
Un monde redevenu intelligible
Au fil des pages, on comprend que le monde vivant est structuré, et qu’il ne pouvait pas en être autrement. Il était en effet fort peu probable de passer d’un seul coup des amibes aux humains ! Les mutations et le hasard créent au fil du temps une diversité d’entités apprenantes, les plus adaptées survivent, puis rentrent à nouveau en compétition d’apprentissage. Le neurone est à cet égard une formidable trouvaille. La vie aurait pu évoluer tout autrement, mais forcément en se structurant par assemblage avantageux du plus simple au plus complexe. On peut ainsi relire la boutade des spécialistes du deep learning étonnés par les succès de leurs techniques : « Soit Dieu existe, soit le monde est structuré »xiii. La réponse de Valiant est que le monde est structuré parce qu’il est né du PAC learning, ce qui est une façon de dire que le monde est intelligible, comme le rêvaient les encyclopédistes et les Lumières.
L’apprentissage PAC, conçu il y a un demi-siècle, est au cœur des développements récents des sciences du calcul et des données,au carrefour des statistiques, de l’informatique et des mathématiques, jalonné par le triangle Régularité-Approximation-Parcimoniexiv. On peut regretter l’absence dans l’ouvrage de considérations sur le troisième sommet de ce triangle, le principe de parcimonie xv, alors qu’y faire référence renforcerait les arguments du livre. On peut aussi regretter qu’il ne soit fait aucune allusion aux progrès considérables dans le traitement du signalxvi réalisés ces dernières décennies, et qui sont une des clés du succès de l’apprentissage profond.
Au-delà, le premier mérite de l’ouvrage est de faire réfléchir, de mettre en débats des idées en bonne partie nouvelles. Fussent-elles encore fragiles, celles-ci sont les bienvenues à une époque en manque de perspectives intellectuelles.
Max Dauchet, Université de Lille.
Pour aller un peu plus loin, Max nous propose un complément plus technique pour nous faire partager l’évolution scientifique d’une approche purement statistique à une vision scientifique de l’apprentissage : ici.
i The Importance of Being Educable. A new theory of human uniqueness. Leslie Valiant, Princeton University Press, 2024.
ii Équivalent du prix Nobel pour les sciences informatiques, créé en 1966. Deux Français en ont été lauréats, Joseph Sifakis en 2007 et Yann Le Cun en 2018.
iii Pour Valiant, la science est une croyance qui se distingue des autres par la robustesse de sa méthode : la communauté scientifique internationale la teste, la conteste, la réfute ou la conforte à l’épreuve des expérimentations, alors que les complotismes ne font que se renforcer dans des bulles.
iv Comme chez Darwin, il n’y a aucun finalisme chez Valiant, aucune « main invisible » ne guide l’émergence d’une vie de plus en plus complexe, nous sommes dans le cadre strict de la science.
v Une espèce à la dérive, au sens de soumise aux flots de l’évolution.
vi Cette attitude pourrait paraître désinvolte au regard de la démarche d’un cogniticien comme Daniel Andler, auteur du récent et épais ouvrage Intelligence artificielle, intelligence humaine : la double énigme (collection NRF Essais, Gallimard, 2023). C’est que les buts différents. Valiant s’intéresse aux principes et D. Andler décortique les détails d’une comparaison. S’il s’agissait du vol, le premier étudierait l’aérodynamique et le second comparerait la texture des plumes d’oiseaux à la courbure des ailes d’avions.
vii A Theory of the Learnable CACM, 1984, volume 27, numéro 11, pages 1134-1142. C’est dans cet article fondateur que l’on trouve l’exposé le plus clair des motivations, qui sont déjà dans la perspective du présent ouvrage.
Entre temps, L. Vaillant avait publié en 2013 Probably Approximately Correct: Nature’s Algorithms for Learning and Prospering in a Complex World, traduit en français en 2018 avec une préface de Cédric Villani (Editions Vuibert Cassini). Dans cet ouvrage comme dans son exposé de remise du prix Turing (https://amturing.acm.org/ ), Valiant met l’accent sur l’apprentissage computationnel du vivant, notamment au niveau génétique.
viii Valiant précise que pour lui, l’évolution n’est pas comme un calcul informatique, c’est un calcul.
ix Ainsi apprendre par cœur des mots de passe ne dit rien sur les autres mots de passe ni sur la cryptographie.
x PAC capte précisément cette notion en termes d’outillage statistique.
xi Le cadre théorique est l’apprentissage en temps polynomial, ce qui représente une classe d’algorithmes excluant les explosions combinatoires.
xii L’auteur introduit finalement le Mind’s Eye comme intégrateur des fonctions précédentes. Cet « œil de l’esprit » s’apparente à la capacité cognitive d’un individu de lier les acquis de l’histoire – la condition humaine – à sa propre expérience. Cette notion reste vague, elle est décrite en termes de métaphores informatiques, ce que l’on peut admettre sachant que l’auteur ne considère que des fonctionnalités et non la façon de les réaliser.
xiii Anecdote rapportée par Yann Le Cun.
xiv Cours de Stéphane Mallat, Chaire de Science des Données, Collège de France.
xv Principe qui privilégie les causes simples.
xvi Le traitement du signal permet d’éliminer le bruit d’un signal, et là aussi le principe de parcimonie est un guide.
12.07.2024 à 06:44
De l’apprentissage à l’éducabilité, de Vapnik à Valiant
binaire
Continuer la lecture de « De l’apprentissage à l’éducabilité, de Vapnik à Valiant »
Texte intégral (2381 mots)
Pour mieux situer les travaux de Leslie Valiant, il faut évoquer ceux conduits antérieurement en URSS par Vladimir Vapniki.
La dimension de Vapnik-Chervonenkis (VC-dimension).
La motivation de Vapnik et ses collègues est purement statistique : comment assurer qu’un modèle minimise à la fois l’erreur sur les données d’apprentissage (erreur empirique) et l’erreur de généralisation sur l’ensemble des données ? Comme lors des sondages électoraux, par exemple : s’assurer que ce qui est approximativement vrai sur un échantillon, l’est toujours à peu près sur toute la population visée.
Cette propriété, appelée convergence uniforme, n’est évidemment pas satisfaite en général. En fait, si un modèle possède tellement de paramètres à ajuster, qu’il puisse coller très précisément et de manière spécifique aux données d’apprentissage, il ne saura pas bien prédire des données plus générales.
La VC-dimension est un indicateur de ces classes de modèles – souvent désignées par le terme de classes de concepts – qui conditionne la convergence uniforme.
Pour définir la VC-dimension, considérons un ensemble de données et une classe de modèles. Pour chaque modèle, une donnée satisfait ou ne satisfait pas ce modèle. Par exemple, si l’on considère comme données les points d’un carré de taille 1 du plan, et comme modèles les portions de demi-plans inférieuresii, alors pour tout demi-plan, une donnée appartient ou non à ce demi-plan.
La suite de la définition repose sur la possibilité pour les modèles de prédire si les données correspondent ou pas au modèle. On parle de pulvériser (shatter) des échantillons finis de données pour une classe C de modèles et un échantillon D de données, si pour tout sous-échantillon D’ de D, il existe un modèle de C tel que D’ est la partie de D satisfaisant ce modèle.
La Figure 1 illustre que tout couple de points peut être pulvérisé par des demi-plansiii. Par contre un échantillon de 3 points n’est pas pulvériséiv. La VC-dimension d’une classe de modèles C est alors le plus grand nombre d’échantillons d tel que tous les échantillons D de cette taille soient pulvérisables.
Dans notre exemple, la classe des fonctions affines (ces droites qui définissent des demi-plan) est donc de VC-dimension 2, puisqu’elles pulvérisent tous les couples de 2 points, mais pas de 3.
La Figure 2 illustre l’influence de la VC-dimension. Une parabole (que l’on ignore) définit la fonction à approximer à partir d’échantillons bruités. La classe des fonctions affines (VC-dimension 2) est trop pauvre, l’erreur empirique est grande. La classe des polynômes de degré 5 (VC-dimension 6) est trop riche, elle permet un sur-apprentissage (erreur empirique faible ou nulle mais erreur de généralisation forte).
Dans leur papier fondateur, Vapnik et Chervonenkis établissent que la convergence est uniforme si et seulement si la VC-dimension est finie, et ils bornent en fonction de cette dimension la taille des échantillons nécessaires pour obtenir un résultat d’une précision donnée.
Du cadre de pensée de Vapnik à l’ingénierie algorithmique de Valiant
En un mot : un algorithme ne rase pas gratisvi . Les travaux de Vapnik et Chervonenkis sur la VC-dimension sont publiés en anglais en 1971 dans une revue soviétique renommée. Lorsqu’il introduit l’apprentissage PAC treize ans plus tard, Valiant ne cite pas Vapnik. Pourtant dans la foulée du papier de Valiant il est vite démontré qu’un concept est PAC apprenable si et seulement si sa VC-dimension est finie.
Il y a donc une concordance entre l’approche statistique et l’approche algorithmique, résultat remarquable qui ancre la problématique de l’apprentissagevii. Et c’est la notion de complexité algorithmique promue par Valiant qui a depuis inspiré l’essentiel des recherches en informatique, parce qu’en général la VC-dimension ne dit pas grand-chose du fait qu’il puisse exister un algorithmique d’apprentissage.
L’ingénierie algorithmique de Valiant appliquée au réseaux de neurones
On peut voir également les réseaux d’apprentissage profond avec des neurones artificiels comme des classes de concepts. Une architecture constitue une classe dans laquelle l’apprentissage consiste à trouver un concept en ajustant les coefficients synaptiques. Il est difficile d’en estimer la VC-dimension mais celle-ci est considérable et n’aide pas à expliquer l’efficacité. Comme l’évoquait Yann le Cun déjà cité, l’efficacité d’un réseau profond de neurones et l’importance de bien le dimensionner sont à rechercher dans son adéquation aux structures cachées du monde où il apprend, ce qui rejoint à très grande échelle la problématique sommairement illustrée par la Figure 1. On perçoit bien que disposer d’un cadre théorique solide, ici la notion d’apprenabilité, fournit un cadre de pensée mais ne fournit pas l’ingénierie nécessaire pour le traitement d’une question particulière. Les recherches ont de beaux jours devant elles. Pour en savoir beaucoup plus sur l’apprentissage en sciences informatiques et statistiques, les cours, articles et ouvrages accessibles sur le net ne manquent pas. Le panorama précis de Shai Shalev-Shwartz et Shai Ben-Davidviii peut être combiné avec les vidéos des cours de Stéphane Mallat, titulaire de la chaire de sciences des données au Collège de France.
Max Dauchet, Université de Lille.
i Vapnik, V. N., & Chervonenkis, A. Y. (1971). « On the Uniform Convergence of Relative Frequencies of Events to Their Probabilities. » Theory of Probability and its Applications, 16(2), 264-280.
ii Ensemble des points sous la droite frontière. Il faut en effet considérer les demi-plans et non les droites pour appliquer rigoureusement la définition en termes d’appartenance d’une donnée à un concept.
iii Sauf si les deux points ont même abscisse, ce qui a une probabilité nulle. Pour un échantillon de deux données, il y a 4 cas à étudier, et il y en a 2dpourddonnées.
iv A delà des fonctions affines, qui sont des poylynômes de degré 1, on établit sans peine que la classe des polynômes de degré n est de VC-dimension n+1. La classe de l’ensemble des polynômes est donc de VC-dimension infinie.
v Soit A le point de plus faible ordonnée. Pour aucun demi-plan inférieur A n’est au dessus et les deux autres points en dessous de la droite frontière.
vi En référence au No-Free-Lunch -Theorem qui stipule qu’il n’y a pas d’algorithme universel d’apprentissage.
vii Valiant passera toujours les travaux de Vapnik sous silence, on peut se demander pourquoi, alors qu’il aurait pu faire de la VC-dimension un argument en faveur de la pertinence de sa propre démarche sans prendre ombrage de Vapnik. C’est qu’en général la VC-dimension ne dit pas grand-chose de la praticabilité algorithmique. En effet, pour de nombreuses classes C d’intérêt, le nombre n de paramètres définit une sous classe Cn : c’est le cas pour le degré n des polynômes, la dimension n d’un espace ou le nombre n de variables d’une expression booléenne. Or, c’est la complexité relative à cet n qu’adresse l’algorithmique et la VC-dimension de Cn ne permet pas de la calculer, même si elle est parfois de l’ordre de n comme c’est le cas pour les polynômes. Ainsi, selon les concepts considérés sur les expressions booléennes à n variables ( les structures syntaxiques comme CNF, 3-CNF, DNF ou 3-terms DNF sont des classes de concepts), il existe ou il n’existe pas d’algorithme d’apprentissage en temps polynomial relativement à n, même si la VC-dimension est polynomiale en n.
viii Shai Shalev-Shwartz and Shai Ben-David, Understanding Machine Learning :From Theory to Algorithms, Cambridge University Press, 2014.
05.07.2024 à 07:00
Blocage de Tik Tok en Nouvelle Calédonie : Respectons nos principes !
binaire
Continuer la lecture de « Blocage de Tik Tok en Nouvelle Calédonie : Respectons nos principes ! »
Texte intégral (2113 mots)
La Nouvelle Calédonie traverse une période de troubles ; récemment, le gouvernement a interdit pendant 2 semaines le réseau social TikTok qu’il accusait de servir de contact entre les manifestants. Cette mesure qu’il a « justifiée » par l’état d’urgence pose plusieurs questions. En tout premier lieu, son efficacité, puisque de nombreuses personnes ont continué à l’utiliser en passant par des VPN. Ensuite, et surtout, a-t-elle respecté des principes juridiques fondamentaux ? Saisi par des opposants à cette mesure, dont la Ligue des Droits de l’Homme, le Conseil d’Etat a rejeté ces saisines parce que le caractère d’urgence n’était pas démontré, ce qui a évité de se prononcer sur le fond. Nous avons donné la parole à Karine Favro (Professeure de droit public, Université de Haute Alsace) et à Célia Zolynski (Professeure de droit privé, Université Paris 1 Panthéon-Sorbonne) pour qu’elles nous expliquent ces questions. Pascal Guitton
La gravité des affrontements qui ont meurtri la Nouvelle Calédonie ces dernières semaines a conduit à la déclaration de l’état d’urgence sur l’ensemble du territoire par décret du 15 mai dernier en application de la loi du 3 avril 1955. Dans le même temps, le Premier ministre y annonçait, par voie de presse, l’interdiction de l’accès à TikTok.
Cette mesure était historique pour le gouvernement français car portant pour la première fois sur un réseau social alors que le 17 mai, dans sa décision relative à la loi visant à sécuriser et réguler l’espace numérique, le Conseil Constitutionnel rappelait qu’ “ En l’état actuel des moyens de communication et eu égard au développement généralisé des services de communication au public en ligne ainsi qu’à l’importance prise par ces services pour la participation à la vie démocratique et l’expression des idées et des opinions, ce droit [à la liberté d’expression] implique la liberté d’accéder à ces services et de s’y exprimer”.
Nombreux ont critiqué la légalité de cette décision de blocage. Pour pouvoir se fonder sur l’article 11 de la loi de 1955, un temps envisagé, il aurait fallu que la plateforme ait été utilisée pour provoquer à la “commission d’actes de terrorisme ou en faisant l’apologie”. Quant aux ingérences étrangères, annoncées comme étant ici en cause, celles-ci ne justifient pas à elles seules que soient prononcées ce type de mesure sur le fondement de ce texte. Restaient alors les circonstances exceptionnelles en application de la jurisprudence administrative conférant au Premier ministre des “pouvoirs propres” comme cela a été reconnu lors de la pandémie pour prononcer le confinement avant l’adoption de la loi relative à l’état d’urgence sanitaire. La brutalité de la mesure était également discutée, celle-ci ayant été prise en l’absence de sollicitation de retrait de contenus des autorités auprès de la plateforme.
Le 23 mai, le Conseil d’Etat a rejeté les trois recours en référé-liberté déposé par des opposants à cette décision et contestant la mesure de blocage pour atteinte à la liberté d’expression. Il retient que l’urgence du juge à intervenir n’est pas établie alors qu’il s’agissait de la condition préalable pour accueillir ces demandes. Ne pouvant se déduire de la seule atteinte à la liberté d’expression, l’ordonnance de référé relève que l’urgence n’était pas justifiée en raison du caractère limité de la mesure (il restait possible de s’exprimer sur d’autres réseaux sociaux et médias) et de sa nature temporaire. Le Conseil d’Etat ayant rejeté les recours parce qu’il considérait que la condition d’urgence n’était pas remplie, il ne s’est pas prononcé sur la proportionnalité de l’atteinte à la liberté d’expression qui pouvait résulter de la mesure d’interdiction. Au même motif, le juge administratif n’a pas eu à transmettre la question prioritaire de constitutionnalité déposée par ces mêmes requérants, visant à contester la conformité à la Constitution de l’article 11 de la loi de 1955. La procédure initiée conduit donc à une impasse.
En l’état, la légalité de la décision prise par le Premier ministre reste ainsi incertaine compte tenu de la nature des recours formés, d’autant que le blocage de Tik Tok a été levé le 29 mai. Pourtant, le débat reste entier concernant la légitimité d’une pareille mesure dont la proportionnalité constitue un enjeu fondamental. Cette dernière impose de déterminer si la solution retenue était la plus efficace pour atteindre le but poursuivi et de vérifier qu’elle était accompagnée de toutes les garanties nécessaires. Sa légitimité est également exigée ; or, la question devient éminemment complexe lorsqu’une mesure de police, par nature préventive, est prononcée dans le cadre d’un mouvement populaire sur lequel elle conduit à se positionner. Un recours a d’ailleurs été depuis déposé par la Quadrature du Net afin que le Conseil d’Etat se prononce au fond sur la légalité du blocage, ce qui l’invitera à considérer, dans son principe même, son bien-fondé. Il conteste en particulier le fait que le Premier ministre puisse prendre une telle décision particulièrement attentatoire à la liberté d’expression, sans publication d’aucun décret soit de manière non formalisée et non motivée, en la portant simplement à la connaissance du public par voie de presse ; les requérants soutiennent que cela revenait à “décider de son propre chef, sur des critères flous et sans l’intervention préalable d’un juge, [de] censurer un service de communication au public en ligne”.
Ce point est essentiel car c’est bien le nécessaire respect de nos procédures, consubstantielles à nos libertés, dont il s’agit. Si nous décidons qu’un service met nos principes en difficulté, c’est en respectant nos procédures et nos principes qu’il nous revient de l’interdire. Il aurait été utile de pouvoir appliquer le Règlement sur les services numériques (DSA) que vient d’adopter l’Union européenne, même si le statut particulier de la Nouvelle Calédonie l’exonère de toute obligation de respecter ce texte. En effet, les mécanismes prévus par le DSA visent à garantir le respect du principe de proportionnalité afin d’assurer tout à la fois la protection des libertés et droits fondamentaux et la préservation de l’ordre public, en particulier lors de situations de crise en précisant le cadre des mesures d’urgence à adopter. Il y est bien prévu le blocage temporaire d’une plateforme sur le territoire de l’Union. Néanmoins, il ne s’agit pas d’une mesure immédiate mais de dernier recours. Elle vise les cas de non-coopération répétée avec le régulateur et de non-respect du règlement lorsque sont concernées des infractions graves menaçant la vie et la sécurité des personnes. Le DSA encadre par ailleurs cette décision d’importantes garanties procédurales. Ainsi, le blocage temporaire doit être prononcé après l’intervention de diverses autorités (la Commission européenne, le régulateur national soit en France l’ARCOM) et sous le contrôle d’une autorité judiciaire indépendante.
La situation appelle alors les pouvoirs publics à conduire d’autres actions déterminantes qui dépassent la seule mesure de police. Tout d’abord, mieux garantir une exigence de transparence pour assurer le respect de nos principes démocratiques, mais également pour ne pas altérer la confiance des citoyens dans nos institutions. On perçoit ici l’intérêt du rapport publié dès le 17 mai par Viginum pour documenter l’influence de l’Azerbaïdjan dans la situation de la Nouvelle Calédonie, qui relève d’ailleurs le rôle joué par d’autres réseaux sociaux comme X et Facebook dans le cadre de manœuvres informationnelles. Compte tenu des enjeux, il convient d’aller plus loin et d’organiser des procédures transparentes et indépendantes à des fins de communication au public. Ensuite, mener un examen approfondi de l’ensemble de la sphère médiatique, ce qui est actuellement réalisé dans le cadre des Etats généraux de l’Information. Plus généralement, promouvoir des mesures de régulation des plateformes pour prôner d’autres approches plus respectueuses de nos libertés, en associant l’ensemble des parties prenantes. A ce titre, il est essentiel de mieux comprendre le rôle joué par les réseaux sociaux et d’agir sur les risques systémiques qu’ils comportent pour l’exercice des droits fondamentaux, en particulier la liberté d’expression et d’information. Cela commande de mettre pleinement en œuvre, et au plus vite, l’ensemble des dispositifs issus du DSA dont l’efficacité paraît déjà ressortir des enquêtes formelles lancées par la Commission européenne comme en atteste la suspension de Tik Tok Lite quelques jours après son lancement en Europe.
Karine Favro (Professeure de droit public, Université de Haute Alsace) et Célia Zolynski (Professeure de droit privé, Université Paris 1 Panthéon-Sorbonne)
- Persos A à L
- Mona CHOLLET
- Anna COLIN-LEBEDEV
- Julien DEVAUREIX
- Cory DOCTOROW
- EDUC.POP.FR
- Marc ENDEWELD
- Michel GOYA
- Hubert GUILLAUD
- Gérard FILOCHE
- Alain GRANDJEAN
- Hacking-Social
- Samuel HAYAT
- Dana HILLIOT
- François HOUSTE
- Tagrawla INEQQIQI
- Infiltrés (les)
- Clément JEANNEAU
- Paul JORION
- Michel LEPESANT
- Frédéric LORDON
- Blogs persos du Diplo
- LePartisan.info
- Persos M à Z
- Henri MALER
- Christophe MASUTTI
- Romain MIELCAREK
- Richard MONVOISIN
- Corinne MOREL-DARLEUX
- Fabrice NICOLINO
- Timothée PARRIQUE
- Emmanuel PONT
- VisionsCarto
- Yannis YOULOUNTAS
- Michaël ZEMMOUR
- Numérique
- Binaire [Blogs Le Monde]
- Christophe DESCHAMPS
- Louis DERRAC
- Olivier ERTZSCHEID
- Olivier EZRATY
- Framablog
- Francis PISANI
- Pixel de Tracking
- Irénée RÉGNAULD
- Nicolas VIVANT
- Collectifs
- Arguments
- Bondy Blog
- Dérivation
- Dissidences
- Mr Mondialisation
- Palim Psao
- Paris-Luttes.info
- ROJAVA Info
- Créatifs / Art / Fiction
- Nicole ESTEROLLE
- Julien HERVIEUX
- Alessandro PIGNOCCHI
- XKCD