27.05.2026 à 10:27
Emmanuel Destenay, Research Fellow, Sorbonne Université
During the entire course of World War I, approximately 25,000 American women crossed the Atlantic Ocean to attend to the needs of wounded soldiers and civilian communities in Europe. Women traditionally operated in medical units and helped care for wounded soldiers. Following US entry in the conflict, the newly established Women’s Overseas Hospitals and the American Women’s Hospitals in France drew hundreds of trained nurses to get involved in the war effort. Women’s participation, however, was not limited to the medical field. Female physicians and stenographers brought valuable skills to the front and helped the US military in a variety of domains. In 1918, for instance, the US Army Signal Corps sent 223 trained telephone operators to France to take over from inexperienced soldiers who were struggling to keep general headquarters connected with the troops who were under fire.
At a time when women experienced domestic confinement within their homes, taking part in relief organisations and being actively involved on the Western Front gradually reinforced their quest for equal rights, furthered their political agenda, and strengthened their claim for full citizenship.
Many American women seeking meaningful wartime jobs in France came from a very specific background, and many “hoped that the war would prove the forcing house in which long-standing feminine aspirations for the vote and economic equality would finally mature”.
Any course focusing on American women in World War I should acknowledge the social backgrounds of the American wealthy expatriates, businessmen’s daughters, leisured wives of diplomats, and middle-class professionals who served as doctors, nurses, ambulance drivers, stenographers, and radio operators.
When teaching World War I in relation to 20th century American history to high school pupils and undergraduate students, educators traditionally focus on the neutrality of the United States and then expand on the reasons why Woodrow Wilson gradually dragged his country into the global conflict (Editorial note – For further reference: The Path to War: How the First World War Created Modern America by Michael S. Neiberg, Oxford, 2016; Neutrals, Belligerents and the Transformation of the First World War by Abbenhuis Maartje and Ismee Tames, London: Bloomsbury Academic, 2022).
Military historians linger on battles, strategies, and the decision-making process; cultural history gravitates around cultural encounters, war atrocities, and public reaction to the outbreak of the conflict; and scholars specialised in diplomacy dig into government archives, private papers, and conference proceedings to determine the responsibility of each country. But historians of women, childhood, and philanthropy have much to add to the understanding of WWI.
Presenting the big picture fatally necessitates omitting important details, but in the case of World War I studies, some entire facets of the conflict have been overlooked.
Out of interest in humanitarian organisations that operated in my home country, France, between 1914 and 1921, I have recently shifted the focus of my teaching to the plight of children during World War I. Cultural historians have long demonstrated that the French school system mobilised its youth to perpetuate a sense of national belonging in wartime and how state propaganda shaped children’s worldview. Yet I find that the various pictures of the conflict remain ethnocentric and neglect the silent but vital action of American women in rescuing France’s children.
In 1915, a group of American philanthropists envisioned the creation of Franco-American colonies to rescue youngest war victims from starvation and misery.
Twenty-eight colonies were established by the Committee Franco-American for the Protection of the Children of the Frontier (CFAPCF) to shelter displaced orphans from France and Belgium. All the colonies were managed and staffed by French nuns, but heavily depended on American donations and volunteers – American women. Among them were Alma A. Clarke, a former student at Bryn Mawr College, and Erica Thorp de Berry, the granddaughter of Henry Wadsworth Longfellow, a Harvard University professor and a towering figure in 19th century American literature.
American women helped to feed, educate, and nurse the orphaned and traumatised children who were moved to the colonies to recover and prepare for life on their own after the war. They tucked little orphans into bed, kissed them goodnight, told them stories of the gigantic country across the Atlantic Ocean, and even sang songs when they could not sleep.
Colonies operated as “humanitarian wombs” and though the survival of approximately 800 children from France and Belgium could look relatively insignificant, they carried out the first humanitarian actions toward children.
That same year, in 1915, another humanitarian organisation reached out to thousands of Americans.
Envisioned by Paris-based French industrialist, Émile Deutsch de la Meurthe, the Fatherless Children of France Society (FCFS) encouraged Americans to “adopt” France’s children who had lost their fathers to the war. Although considered orphans by virtue of being fatherless, the children were not “adopted” but rather sponsored at the rate of $36.50 per year (what would be today $900/€773). Though the tireless and skilled efforts of the FCFS staff and volunteers (mainly women), between 1915 and 1921, some 300,000 French children were spared hunger and destitution because they were sponsored by Americans.
Both organisations drew Americans’ financial support and mobilised hundreds of women across the United States. To engage donors and volunteers, they organised fairs on July 4 to remind Americans of Lafayette’s role in the American War of Independence, and spurred Americans to contribute to France’s survival. In the aftermath of the war, mourning families and those who had served were moved to support the cause of the FCFS.
The Fatherless Children of France Society more than doubled the number of sponsorships between November 1918 and January 1921, the date the organisation officially ceased to exist.
In the years after the war, individual Americans helped rebuild devastated France. American women set up schools and reconstructed devastated villages. For example, the American Committee for Devastated France (ACDF), co-founded by Anne Morgan, the daughter of American financier J.P. Morgan, operated on several fronts. From the Château de Blérancourt, some 350 French-speaking American women joined her task force. Among them were Mary Carson Breckinridge, the daughter of an Arkansas congressman and future founder of the Frontier Nursing Service; Lucile Atcherson Curtis, a militant suffragette who would later become the first female in the US Foreign Service; and Anna Lander West McDonnell, the niece of the first Chief Justice of the Supreme Court of the Territory of Washington.
Though the ACDF’s initial mission was to combat infant mortality, rebuild devastated villages, and finance the reconstruction of the industrial network, children’s well-being rapidly became a focus of the organisation.
The ACDF established a network of public libraries for children in the former occupied zones of Northern France. Jessie Carson became the director of a new American-style network of lending libraries for children. In April 1919, the first reading room for children was opened in the Northern French town of Vic-sur-Aisne.
The ACDF inspired American women at Wellesley, Vassar, Smith, Radcliffe, Stanford and other American colleges and universities to tackle problems related to agricultural production and devastated villagers. For example, in France’s remote and war-ravaged regions, a lack of milk contributed to infant mortality.
Funds from humanitarian organisations brought cows to the devastated regions, where underfed mothers could not breastfeed their babies. In early 1920, in Verdun (Meuse), the American-Franco Children’s League bought several cows, and Miss Butler, the president of the Vassar College unit of volunteers, organised the distribution of milk for babies; at the same time, in Reims (Marne), a “Drop of Milk Institution for Babies” opened, through the efforts of American women.
In short, when it came to humanitarian efforts to shield France’s children from destitution, hunger, and death, American women got the job done. And this is an untold story.
American women’s experiences in humanitarian missions in France during WWI are important for many reasons. First of all, they pave the way for future research on American humanitarian action during the Great War, and complement studies dealing with Franco-American relations.
Additionally, the archives of these associations are a treasure for those teaching history at the K-12, college, and graduate levels, as they contain letters from the women serving in France during and after the war. These primary sources are important first-hand accounts of the conflict.
For example, in teaching my unit on American action in France during WWI, I invited my pupils to analyse several fragments of Anne Morgan’s letters to her mother, held at the Morgan Library and Museum in New York City. Her letter, dated April 30, 1919 (Anne Tracy Morgan Papers,1888–1952, Morgan Library and Museum, New York), read as follows:
“We had proudly repaired a room to be used for the school at Camelin, when the Mayor came in and told us that in the brook, just outside the door of the school house, the head of a Boche had appeared in the water, as the brook had washed away the covering of soil that was over the body.”
With all the archives available online and the different tools to communicate, schools and universities in France and in the United States could easily partner with each other on digital projects, along with local repository, library, museum, or university collection.
From across the Atlantic Ocean and from more than a century ago, American women’s voices bearing important witness are still waiting to be heard.
A weekly e-mail in English featuring expertise from scholars and researchers. It provides an introduction to the diversity of research coming out of the continent and considers some of the key issues facing European countries. Get the newsletter!
Emmanuel Destenay ne travaille pas, ne conseille pas, ne possède pas de parts, ne reçoit pas de fonds d'une organisation qui pourrait tirer profit de cet article, et n'a déclaré aucune autre affiliation que son organisme de recherche.
27.05.2026 à 10:09
Thomas Le Goff, Maître de conférences en droit et régulation du numérique, Télécom Paris – Institut Mines-Télécom
La course à l’IA engagée à l’échelle internationale ne doit pas se traduire par un détricotage des règles préservant nos ressources naturelles.
Qui n’a pas déjà expérimenté la désagréable sensation de surchauffe de son téléphone portable ou de son ordinateur lors d’une utilisation prolongée ou lorsque vous avez ouvert trop d’onglets sur votre navigateur ?
Imaginez maintenant la chaleur dégagée par 100 000 puces de calcul de dernière génération, entassées les unes sur les autres et tournant à plein régime, et ce, dans un complexe de plus de 26 kilomètres carrés soit environ 3 714 terrains de football. Placez ce grille-pain géant dans une région où la température est de 35 degrés en moyenne et peut atteindre les 50 °C l’été, et vous voilà devant le projet « Stargate UAE » visant à construire jusqu’à 5 gigawatts de puissance de calcul installée dans un immense centre de données à Abu Dhabi.
Ces projets de centres de données dits « hyperscale » visant à alimenter l’essor de l’intelligence artificielle (IA) se multiplient dans le monde, que ce soit aux États-Unis avec le projet Prometheus de Meta prévoyant la construction d’un centre de données de la taille de Manhattan, et même en France avec le « Campus IA ».
Au-delà de leur importante consommation énergétique, ces mastodontes soulèvent d’autres problèmes. Pour fonctionner correctement, ils ne peuvent pas atteindre des températures trop élevées, et contiennent donc des systèmes de refroidissement qui permettent aux composants électroniques de fonctionner à plein régime tout en évitant qu’ils ne se détériorent sous la chaleur qu’ils dégagent.
Comment ces centres de données sont-ils refroidis ? Quel est l’impact de leur refroidissement sur l’environnement, et comment les rendre plus sobres ?
Il existe plusieurs techniques pour refroidir un centre de données. Pour le résumer simplement, les systèmes de refroidissement reposaient auparavant exclusivement sur des systèmes de ventilation (comme dans votre ordinateur) ou de climatisation (comme dans votre voiture) qui utilisent la circulation de l’air comme source de fraîcheur et rejettent l’air chaud à l’extérieur.
Une deuxième solution de refroidissement utilise l’eau, beaucoup plus efficace que l’air pour transférer la chaleur. Celle-ci permet de rafraîchir des plaques placées proches des composants électroniques, et/ou de rafraîchir l’air ventilé dans l’entrepôt de données.
Dans le premier cas (la climatisation), l’opérateur a besoin de beaucoup d’énergie pour faire tourner les pompes et systèmes de ventilation. Dans le deuxième (le refroidissement liquide), l’entreprise a besoin de moins d’énergie mais nécessitera l’accès à une source d’eau douce (l’eau salée endommagerait les tuyaux et composants) afin d’alimenter son système en eau fraîche.
Les opérateurs de centres de données sont donc face à un arbitrage complexe : doivent-ils utiliser des systèmes de climatisation énergivores ou bien du refroidissement liquide qui, cette fois, nécessite la consommation d’importantes ressources en eau ?
En effet, la consommation en eau des data centers est estimée à 560 milliards de litres chaque année dans le monde, soit l’équivalent de la consommation annuelle en eau potable de 10 millions de Français.
Cette soif insatiable se retrouve également dans les chiffres publiés par les Gafam. Ainsi, Google a vu sa consommation nette d’eau augmenter de 28 % entre 2023 et 2024, atteignant 30 milliards de litres dont environ un tiers provient de régions en stress hydrique. Microsoft, pour sa part, estime que 46 % de ses prélèvements d’eau ont lieu dans de telles zones en 2024.
Toutefois, il faut avoir à l’esprit que les besoins en eau des data centers ne sont pas uniquement liés aux systèmes de refroidissement. Pour obtenir une vision globale de l’impact du développement de ces infrastructures sur les ressources en eau, il convient de prendre également en compte l’eau utilisée par les centrales électriques qui les alimentent, ainsi que l’eau consommée lors du processus de fabrication des composants électroniques. Des chercheurs estiment ainsi que les mégacentres de données construits spécifiquement pour les besoins de calcul de l’IA utilisent, en moyenne, jusqu’à 20 millions de litres d’eau par jour, soit autant qu’une ville de 10 000 à 50 000 habitants.
Il existe des solutions innovantes pour limiter cette consommation et rendre les systèmes de refroidissement plus efficients. Des entreprises, comme OVH Cloud, Nvidia ou Nebius, développent et déploient de nouvelles architectures de systèmes de refroidissement liquide au plus proche des puces de calcul. Ces nouvelles techniques permettent de réduire, selon les chiffres annoncés, jusqu’à 50 % de la consommation en eau. Toutefois, elles restent encore onéreuses à mettre en œuvre et assez peu développées sur le parc existant.
De manière plus générale, la principale source de perte en eau lors du fonctionnement des centres de données vient du fait qu’ils reposent aujourd’hui pour la plupart sur des circuits ouverts, conduisant à l’évaporation d’une grande partie de l’eau utilisée. C’est pourquoi les nouveaux centres de données devraient idéalement reposer, autant que possible, sur des systèmes de refroidissement en circuit fermé, évitant ce phénomène d’évaporation. Néanmoins, ce type de refroidissement peut s’avérer plus cher, conduit souvent à une hausse du besoin en électricité, et n’est pas évident à mettre en œuvre dans tous les centres de données « historiques » qui n’ont pas été conçus pour le mettre en œuvre.
Des propositions plus farfelues sont aussi avancées, telles que l’envoi de data centers dans l’espace ou bien en immersion dans les océans. Néanmoins, l’apport réel de ces propositions reste encore largement débattu, que ce soit pour des questions de faisabilité technique (bon courage pour réaliser la maintenance de votre centre de données sous-marin !) ou de bénéfices en termes d’émission de CO₂ par rapport à un centre construit sur terre – le cabinet de conseil en décarbonation, Carbone 4, fondé par Alain Grandjean et Jean-Marc Jancovici a, à cet égard, montré que les data centers spatiaux risquaient d’avoir un impact carbone plus important que sur terre en raison des émissions liées au lancement.
À lire aussi : Pourrait-on faire fonctionner des data centers dans l’espace ?
Au-delà de la faisabilité technique, ces discours risquent de nous détourner du vrai problème : le développement massif de centres de données hyperscale très gourmands en eau, dont une bonne partie dans des territoires où cette ressource se fait rare et conduit à des conflits d’usage.
Ce développement ne se fait pas dans un vide juridique. Les règles du droit de l’environnement, de l’aménagement du territoire et de l’urbanisme prévoient un certain nombre de régimes d’autorisation et d’évaluation environnementale en amont de la construction de ces projets, notamment en France avec le régime des installations classées pour la protection de l’environnement (ICPE).
Néanmoins, la course à l’IA engagée à l’échelle internationale conduit les pays à rivaliser d’ingéniosité pour attirer les investisseurs quitte, parfois, à assouplir les contraintes réglementaires comme c’est le cas actuellement en France avec la loi dite de simplification de la vie économique récemment adoptée. Il est urgent de prêter attention à l’ode à la « simplification », qui provient des discours politiques au sein de l’Union européenne et transcrite dans la politique menée par la Commission européenne, mais qui ne doivent pas se traduire par un détricotage des règles préservant nos ressources naturelles.
Plus généralement, ces débats soulèvent la question de l’usage : alors que certaines économistes parlent de « bulle de l’IA », qui peut réellement prédire quels seront les véritables usages futurs de ces infrastructures ?
Dans les années 1960, il fallait un bâtiment entier pour faire tenir un ordinateur, ils tiennent aujourd’hui dans notre smartphone. Si les IA de demain tiennent aussi sur nos terminaux, doit-on réellement sacrifier nos ressources naturelles pour créer ces mastodontes ?
À lire aussi : Charles Ponzi nous permet-il de comprendre la bulle de l’IA ?
Thomas Le Goff est Research Fellow au sein du think thank Centre on Regulation in Europe (CERRE).
27.05.2026 à 10:09
Eric Moulines, Professeur en apprentissage statistique et traitement du signal, EPITA; Académie des sciences
Un modèle d’IA peut être très performant dans un cadre contrôlé, mais se dégrader lorsque les données qu’il reçoit en conditions réelles ne ressemblent plus exactement aux données sur lesquelles il a été conçu, validé ou récemment mis à jour.
Ainsi, lorsque la mise à jour du modèle est faite naïvement, on peut être confronté au problème de l’« oubli catastrophique » : le modèle a progressé sur les données récentes, mais perd brutalement en performance sur les données plus anciennes. Ce sont précisément ces difficultés qui motivent le développement de l’« apprentissage continu ».
Dans l’apprentissage automatique « classique », on entraîne un réseau de neurones sur un très grand ensemble de données, puis on l’utilise tel quel. Mais ce cadre devient insuffisant lorsque les données arrivent au fil du temps, par exemple dans le cas de données météo, à l’arrivée de nouveaux patients dont la démographie ou la génération évolue, ou encore avec de nouvelles pratiques professionnelles.
Un système de Google Health destiné à automatiser le dépistage de la rétinopathie diabétique (l’ensemble des maladies de la rétine dues à la détérioration des vaisseaux rétiniens par le diabète) était prometteur lors d’évaluations contrôlées. En clinique, en revanche, il a rencontré des difficultés : sur 1 838 images traitées pendant les six premiers mois d’usage dans onze cliniques en Thaïlande, 393 (21 %) n’atteignaient pas le seuil de qualité requis.
Cet exemple ne signifie pas que la rétinopathie diabétique aurait changé en quelques mois. Il montre plutôt que les données vues par le système en clinique peuvent différer fortement de celles utilisées lors de son développement : qualité variable des images, différences de caméras, luminosité, reflets, patients plus difficiles à photographier, contraintes de temps et organisation du dépistage.
Autrement dit, la distribution des données change lorsque l’on passe d’un cadre contrôlé à un environnement réel. C’est précisément ce type de décalage qui rend insuffisant un modèle figé et qui pose la question suivante : comment adapter le modèle à ces nouvelles conditions sans perdre ce qu’il savait déjà faire ?
Les méthodes les plus simples conceptuellement, par exemple un réentraînement complet sur toutes les données, incluant les nouvelles, exigent beaucoup de calculs et sont donc peu réalistes.
Le continual learning, ou apprentissage continu, vise justement à faire évoluer le modèle au rythme du flux de données : s’adapter, intégrer de l’information nouvelle et apprendre des tâches successives, sans repartir systématiquement de zéro. Il se distingue d’un simple réentraînement périodique par une contrainte essentielle : apprendre le nouveau sans détruire l’ancien.
Au fond, l’apprentissage continu cherche un compromis entre deux exigences opposées] : la plasticité, nécessaire pour apprendre du nouveau, et la stabilité, indispensable pour ne pas effacer l’ancien.
La difficulté vient du fait qu’un réseau de neurones n’a pas une mémoire rangée en dossiers indépendants. Les mêmes paramètres – les mêmes neurones et les mêmes connexions – servent souvent à plusieurs tâches.
Si les tâches se ressemblent, cette mutualisation est utile : le modèle peut réutiliser des représentations déjà apprises. Mais si les tâches diffèrent, les mises à jour nécessaires à la nouvelle tâche entrent en concurrence avec ce qui faisait la réussite des anciennes.
Prenons un exemple simple. Un modèle industriel a appris à détecter des défauts sur des pièces métalliques à partir d’images prises avec une première caméra. Plus tard, l’usine remplace la caméra : la résolution, la luminosité et les reflets changent. Si l’on réentraîne le modèle uniquement avec les nouvelles images, il peut s’adapter au nouveau capteur, mais perdre en performance sur les images produites par l’ancien système. Ce n’est pas parce que les anciens défauts ont disparu ; c’est parce que les paramètres qui les reconnaissaient ont été modifiés pour résoudre le nouveau problème.
En production, les incidents publiés sont plus souvent décrits comme des « décalages de données » que comme de l’oubli catastrophique. Les deux problèmes restent liés : dès qu’un modèle est mis à jour avec des données récentes, il faut éviter d’effacer des compétences antérieures.
Une étude récente menée sur des modèles d’IA utilisés à l’hôpital illustre bien cette difficulté. Les chercheurs ont supervisé un système chargé d’estimer le risque de décès de patients hospitalisés. Avec le temps, les dossiers reçus par ce système ont changé : les patients n’étaient plus exactement les mêmes, certaines mesures médicales variaient, et les pratiques hospitalières ont été bouleversées, en particulier pendant le Covid-19.
Le problème n’est donc pas qu’un dossier isolé serait anormal. C’est l’ensemble des données qui se transforme peu à peu. Pour rester utile, le modèle doit alors être mis à jour avec des exemples plus récents. Dans l’étude, cette mise à jour permettait effectivement de meilleurs résultats qu’un modèle laissé tel quel. Mais il y a un risque : si on laisse le système « apprendre » trop sur les données récentes, le modèle peut se spécialiser et devenir très bon sur les cas nouveaux, tout en perdant une partie de ses capacités sur les cas plus anciens. Il s’adapte au présent, mais au prix d’un oubli du passé. C’est ce qu’on appelle l’« oubli catastrophique ».
Pour intégrer des informations nouvelles sans sacrifier ce qui a déjà été appris, plusieurs grandes familles de méthodes existent : rejouer une partie du passé, protéger certains paramètres, modifier l’architecture du modèle ou apprendre des représentations plus stables.
La première, assez intuitive, consiste à rejouer le passé. C’est le « replay » : on conserve une petite mémoire d’exemples représentatifs des tâches antérieures et l’on entraîne le modèle sur un mélange « nouvelles données + mémoire ». C’est une forme de révision : le modèle ne relit pas tout le manuel, mais revoit quelques pages bien choisies.
Dans un système de reconnaissance d’images qui apprend progressivement de nouvelles catégories, on peut garder quelques images typiques de chaque ancienne classe, mais aussi des cas ambigus proches des frontières entre classes. Des méthodes comme iCaRL ont popularisé cette idée : apprendre de nouvelles classes tout en gardant un petit ensemble d’exemples représentatifs des anciennes.
Lorsque stocker des données réelles est difficile – pour des raisons de confidentialité, de coût ou de stockage – on peut recourir à un modèle génératif. Entraîné sur le passé, ce modèle produit des exemples artificiels des anciennes tâches, qui jouent le rôle de « souvenirs » synthétiques. Cette stratégie, appelée generative replay, peut réduire le besoin de conserver les données originales.
Mais ces données synthétiques ne sont pas automatiquement équivalentes aux données initiales. Elles peuvent manquer de diversité, négliger les cas rares, amplifier certains biais ou produire des exemples plausibles mais trompeurs. Il faut donc les valider : vérifier qu’elles couvrent les anciennes classes, préservent les cas difficiles et maintiennent les performances sur des jeux de test indépendants.
Les travaux récents sur l’entraînement répété à partir de données synthétiques montrent aussi un risque d’« effondrement » du modèle : à force d’apprendre sur des données synthétiques, il peut perdre des informations sur la vraie distribution, surtout sur ses parties « rares ».
Toute la question est donc de décider quoi conserver (ou générer) lorsque l’on a un budget restreint : des exemples typiques, rares, difficiles, ou un mélange des trois.
À lire aussi : Apprendre à oublier : le nouveau défi de l’intelligence artificielle
Une deuxième famille de méthodes vise non pas à conserver des exemples, mais à protéger certaines parties du modèle. L’idée est d’identifier les poids déterminants pour les tâches passées, puis d’ajouter une pénalité lorsqu’ils changent trop pendant l’apprentissage d’une nouvelle tâche. Le modèle peut continuer à apprendre, mais il paie un « coût » plus élevé lorsqu’il modifie des paramètres jugés importants pour ses compétences anciennes.
C’est le principe de méthodes comme Elastic Weight Consolidation : ralentir l’apprentissage sur les poids importants pour les tâches déjà vues, afin de réduire l’oubli.
Une approche voisine, mais différente, consiste à préserver le comportement de l’ancien modèle plutôt que ses poids. On ajoute alors un terme de coût qui encourage le modèle mis à jour à produire des sorties proches de celles de l’ancien modèle sur des données de référence. C’est le principe de la « distillation » : l’ancien modèle joue le rôle de professeur, et le nouveau apprend la nouvelle tâche sans trop s’éloigner des réponses du professeur. La méthode Learning without Forgetting repose sur cette logique, même lorsque les données initiales ne sont plus disponibles.
La différence est donc la suivante : la régularisation des poids demande de « ne pas trop déplacer ces réglages internes », tandis que la distillation demande de « garder un comportement proche de l’ancien modèle ». Dans les deux cas, on peut parfois limiter l’oubli sans stocker toutes les données passées.
Leur limite est le compromis imposé : si l’on protège trop le modèle, il devient moins plastique et apprend moins bien la nouvelle tâche. Dans l’exemple du changement de caméra, protéger les anciens paramètres peut aider à reconnaître les défauts déjà connus, mais une protection trop forte empêchera le modèle de s’adapter à la nouvelle luminosité ou à la nouvelle résolution.
Une troisième stratégie consiste à éviter de faire tenir tous les apprentissages dans les mêmes paramètres. Plutôt que de modifier sans cesse le même réseau, on peut réserver des « espaces » distincts à différentes tâches.
Certaines approches figent les parties du réseau déjà apprises et ajoutent, pour chaque nouvelle tâche, de nouveaux modules reliés aux précédents. Les réseaux progressifs, par exemple, ajoutent de nouvelles colonnes de neurones tout en réutilisant les connaissances acquises par des connexions latérales. Le modèle bénéficie ainsi de l’expérience accumulée sans risquer de la dégrader.
D’autres méthodes apprennent à n’activer qu’une partie des paramètres selon la tâche ou le contexte. On peut imaginer le modèle comme un réseau routier : au lieu de faire passer toutes les tâches par la même route, il apprend quels chemins internes utiliser pour chaque situation. Les approches par masques d’attention ou par sélection de sous-réseaux suivent cette logique.
Enfin, lorsque la nouvelle tâche est trop éloignée des précédentes, on peut agrandir le modèle en lui ajoutant des neurones ou des modules. Des méthodes comme PackNet exploitent par exemple les redondances d’un grand réseau pour libérer puis réserver des paramètres à de nouvelles tâches.
Ces stratégies réduisent sensiblement l’oubli, mais elles ont un coût : le modèle peut grossir au fil du temps, et il faut parfois savoir, au moment de l’usage, quelle partie du réseau mobiliser. Dans certains cas, cette information est disponible — par exemple si l’on sait quelle tâche est demandée. Dans d’autres, le modèle doit aussi apprendre à reconnaître le contexte.
Une piste complémentaire consiste à agir plus en amont : il ne s’agit pas seulement de protéger le modèle ou de lui ajouter des modules, mais de lui apprendre des représentations internes plus stables.
Une représentation interne, ou embedding, est la description numérique qu’une couche intermédiaire fabrique à partir d’une donnée. Une image, un texte ou un signal de capteur est transformé en un vecteur de nombres qui résume certaines caractéristiques utiles : formes, textures, mots, régularités, anomalies. Si deux données se ressemblent, on aimerait que leurs représentations soient proches ; si elles correspondent à des classes différentes, on aimerait qu’elles soient bien séparées.
L’objectif est alors d’organiser cet espace de représentation de façon à ce qu’il change le moins possible lorsque de nouvelles tâches arrivent. On peut conserver quelques prototypes — des représentants typiques d’une classe — qui servent d’ancrages. On peut aussi utiliser des méthodes contrastives, qui rapprochent les exemples semblables et éloignent les exemples différents dans l’espace des représentations. Ces méthodes sont utiles parce qu’elles tendent à extraire des caractéristiques plus générales, donc moins dépendantes d’un contexte particulier.
On peut également pratiquer un replay en espace latent : au lieu de stocker les données brutes, on mémorise les activations produites par une couche intermédiaire du réseau. Cette stratégie peut réduire fortement le coût en mémoire et en calcul. Elle ne résout toutefois pas automatiquement toutes les questions de confidentialité : une représentation interne peut encore contenir des informations sensibles !
Dans les systèmes les plus efficaces, ces idées ne sont pas utilisées isolément. On combine fréquemment plusieurs mécanismes : un petit tampon de replay avec une régularisation des poids, du replay avec de la distillation, ou encore des représentations stables avec une architecture modulaire.
Le choix dépend des contraintes concrètes : budget mémoire, exigences de confidentialité, coût de calcul, vitesse d’adaptation attendue, criticité de l’application. Dans les domaines sensibles, comme la santé, l’apprentissage continu ne doit pas signifier qu’un modèle se modifie sans contrôle. Il doit s’accompagner d’une surveillance de la dérive des données, d’évaluations régulières, de garde-fous et d’une possibilité de revenir à une version antérieure du modèle.
L’apprentissage continu ne promet donc pas une IA qui apprendrait indéfiniment sans risque. Il propose plutôt une manière plus réaliste de maintenir des modèles utiles dans un monde qui change : apprendre du présent, sans effacer trop vite le passé.
Eric Moulines ne travaille pas, ne conseille pas, ne possède pas de parts, ne reçoit pas de fonds d'une organisation qui pourrait tirer profit de cet article, et n'a déclaré aucune autre affiliation que son organisme de recherche.