ChatGPT avale Internet : qui sauvera la mémoire du Web ?
Internet disparaît. Pas d'un coup — octet par octet.
Chaque fois que vous posez une question à ChatGPT ou à Gemini, vous n'accédez plus à une page web. Vous accédez à un résumé digéré de milliers de pages web — dont certaines n'existent peut-être déjà plus. Ce glissement silencieux soulève une question que presque personne ne pose encore : si les IA remplacent l'accès direct aux sources, qui s'assure que ces sources survivent ?
La réponse, aujourd'hui, est inconfortable. Et elle concerne chacun d'entre nous.
Le Web se vide en silence
Internet a toujours été un espace éphémère. Des études menées par l'Internet Archive — l'organisation à but non lucratif derrière la fameuse Wayback Machine — estiment qu'environ 38 % des pages web existant en 2013 sont inaccessibles aujourd'hui. Liens morts, domaines expirés, bases de données fermées : le patrimoine numérique s'efface à un rythme que peu d'institutions mesurent vraiment.
Mais l'arrivée des IA génératives a introduit une dynamique radicalement nouvelle. Les grands modèles de langage comme GPT-4, Claude ou Gemini ont été entraînés sur des téraoctets de contenu issu du Web. Ce contenu, capturé à un instant T, est désormais intégré dans ces modèles — mais les sources originales, elles, continuent de mourir.
Le paradoxe du "savoir sans source"
Imaginez une encyclopédie qui connaît des milliers de faits, mais dont toutes les références bibliographiques ont brûlé. C'est précisément le risque que nous construisons à grande vitesse.
Les IA génératives créent ce que certains chercheurs appellent un effet de ventilation mémorielle : elles absorbent la connaissance du Web, mais ne redirigent plus systématiquement les utilisateurs vers les pages sources. Résultat :
- Les petits créateurs de contenu perdent du trafic, et donc des revenus, ce qui accélère la fermeture de leurs sites.
- Les archives journalistiques, les blogs spécialisés et les forums d'experts se vident de visiteurs.
- Les sites qui ferment emportent avec eux des informations uniques, non archivées.
C'est un cercle vicieux : moins de trafic → moins de revenus → moins de sites → moins de diversité d'information → des IA qui s'appauvrissent à leur tour.
Qui préserve quoi, et comment ?
La question de la préservation numérique n'est pas nouvelle, mais elle devient urgente. Plusieurs acteurs tentent d'y répondre, avec des moyens très inégaux.
L'Internet Archive : le gardien solitaire
Fondée en 1996 par Brewster Kahle, l'Internet Archive archive plus de 800 milliards de pages web. C'est colossal — et pourtant structurellement fragile. L'organisation dépend de dons, fait face à des procès en droits d'auteur, et a subi en 2024 une cyberattaque majeure qui a exposé les données de 31 millions d'utilisateurs. Un seul acteur à but non lucratif ne peut pas porter seul la mémoire collective de l'humanité numérique.
Les bibliothèques nationales : trop lentes, trop sélectives
Des institutions comme la Bibliothèque nationale de France (BnF) archivent bien des contenus numériques — mais selon des critères éditoriaux stricts et des délais qui ne correspondent pas au rythme du Web. Un forum Reddit, un thread Twitter, un article de blog indépendant n'entrent généralement pas dans leurs périmètres.
Les IA elles-mêmes : une solution partielle
Certaines entreprises tech, comme Common Crawl, moissonnent régulièrement le Web pour constituer des corpus ouverts utilisés dans l'entraînement des IA. C'est précieux — mais ces captures ne sont pas des archives consultables au sens traditionnel. Elles servent à entraîner des modèles, pas à permettre à un historien de retrouver une source précise dans cinq ans.
Ce que nous risquons concrètement
Les implications dépassent largement la nostalgie numérique. Pensez à :
- La recherche scientifique : des milliers d'articles publiés uniquement en ligne, sur des plateformes qui ferment, perdus à jamais.
- Le journalisme : des enquêtes fondatrices, accessibles via un lien qui un jour retournera une erreur 404.
- La culture populaire : des forums, des créations collaboratives, des sous-cultures entières documentées uniquement sur des plateformes commerciales sans obligation de conservation.
Et si une IA a été entraînée sur ces contenus disparus sans citer ses sources, comment vérifier demain ce qu'elle affirme aujourd'hui ?
Que peut-on faire, maintenant ?
La réponse ne sera pas technologique seule. Elle sera aussi politique, juridique et citoyenne. Quelques pistes concrètes émergent :
- Soutenir financièrement l'Internet Archive et les initiatives similaires (archive.ph, Perma.cc).
- Exiger, via la régulation, que les grands modèles d'IA citent leurs sources et contribuent à des fonds de préservation numérique.
- Encourager les créateurs à utiliser des formats durables et des plateformes à code ouvert.
- Pousser les gouvernements à financer des archives nationales du Web au même titre que des bibliothèques physiques.
La mémoire ne se délègue pas à un algorithme
Les IA génératives sont des outils puissants. Mais elles ne sont pas des archivistes. Elles synthétisent, elles résument, elles prédisent — elles ne conservent pas. La différence est fondamentale.
Si nous laissons l'accès à la connaissance migrer massivement vers des modèles fermés entraînés sur des sources en voie de disparition, nous risquons de construire une civilisation numérique qui sait beaucoup de choses, mais ne peut plus en vérifier aucune.
La vraie question n'est pas de savoir si les IA sont intelligentes. C'est de savoir si nous, collectivement, sommes assez lucides pour préserver ce sur quoi elles apprennent — avant que ce soit trop tard.
— Reservoir Live