ChatGPT a lu vos romans. Sans vous demander permission.
Vos mots ont peut-être entraîné une machine. À votre insu.
En 2023, une autrice américaine tape le titre de son propre roman dans ChatGPT. Le modèle lui en résume l'intrigue avec une précision troublante, cite des passages, décrit ses personnages. Elle n'a jamais donné son accord. Son éditeur non plus. Son livre faisait partie des données d'entraînement — sans qu'elle ait été consultée, ni rémunérée. Ce cas n'est pas isolé. Il est la règle.
La question des droits d'auteur face à l'intelligence artificielle générative n'est plus un débat théorique réservé aux juristes. C'est un conflit concret, immédiat, qui touche des milliers d'écrivains, de traducteurs, de scénaristes �� et qui redéfinit silencieusement les fondements de la propriété intellectuelle.
Comment les modèles d'IA apprennent à écrire
Pour qu'un modèle de langage comme GPT-4, Claude ou Gemini soit capable de rédiger, raconter ou imiter un style, il doit être nourri de quantités massives de textes. Des milliards de mots issus d'internet, de bibliothèques numériques, de forums… et de livres protégés par le droit d'auteur.
Le processus d'entraînement consiste à exposer le modèle à ces textes pour qu'il en apprenne les structures, les tournures, les logiques narratives. Le modèle ne "stocke" pas les œuvres comme une base de données — il en extrait des patterns. Mais la frontière entre "avoir appris de" et "avoir copié" est précisément ce que les tribunaux du monde entier tentent aujourd'hui de définir.
Les datasets : une zone grise massive
Les ensembles de données utilisés par les grands laboratoires d'IA ont longtemps été opaques. On sait désormais que des corpus comme Books3 — contenant plus de 196 000 livres téléchargés illégalement — ont servi à entraîner des modèles commerciaux. Meta, Bloomberg, EleutherAI : plusieurs acteurs majeurs ont utilisé ces données. La question n'est pas de savoir si des œuvres protégées ont été utilisées, mais dans quelle mesure.
Les procès qui font trembler la Silicon Valley
La riposte juridique est en marche. Voici quelques affaires emblématiques qui structurent le débat :
- Authors Guild v. OpenAI (2023) : Des auteurs comme John Grisham, Jodi Picoult et George R.R. Martin attaquent OpenAI en justice, réclamant reconnaissance et compensation pour l'utilisation de leurs œuvres dans l'entraînement de ChatGPT.
- The New York Times v. OpenAI et Microsoft (2023) : Le journal prouve que GPT-4 peut reproduire mot pour mot des articles protégés. Les dommages réclamés se chiffrent en milliards de dollars.
- Procédures européennes : En France, la SACD et la SCAM ont interpellé les autorités sur l'absence de cadre clair, tandis que le règlement européen sur l'IA impose désormais davantage de transparence sur les données d'entraînement.
Ces procès posent une question centrale : l'entraînement d'un modèle sur des œuvres protégées constitue-t-il une reproduction au sens du droit d'auteur ? Les réponses varient selon les juridictions, mais la pression s'accumule.
L'argument du "fair use" : bouclier ou prétexte ?
Les entreprises d'IA s'appuient massivement sur la doctrine américaine du fair use — l'usage loyal — pour justifier l'utilisation de contenus protégés à des fins d'apprentissage. L'argument : transformer des œuvres pour en extraire des patterns statistiques ne constitue pas une exploitation commerciale directe de ces œuvres.
Mais cette défense montre ses limites. Lorsqu'un modèle génère un texte dans le style précis d'un auteur vivant, ou reproduit des passages entiers sous une légère reformulation, la notion de "transformation" devient difficile à défendre. Le fair use a été pensé pour protéger la critique, la parodie, l'éducation — pas pour alimenter des produits commerciaux valorisés à plusieurs milliards de dollars.
Ce que cela change concrètement pour les créateurs
Au-delà du droit, l'impact pratique est déjà visible :
- Des éditeurs voient leurs catalogues utilisés pour entraîner des concurrents directs sur le marché de la génération de contenu.
- Des traducteurs constatent que leur travail — pourtant protégé — sert à affiner des moteurs de traduction automatique.
- Des auteurs de fanfiction ou de niches spécialisées voient leur style "aspiré" et reproduit sans crédit ni rémunération.
Certains s'organisent. Des plateformes comme Spawning.ai proposent aux créateurs de s'inscrire sur une liste de refus (opt-out) pour signaler que leurs œuvres ne doivent pas être utilisées. Le problème : ce mécanisme repose sur la bonne volonté des laboratoires, et non sur une obligation légale.
Vers un nouveau contrat entre IA et créateurs ?
Quelques signaux positifs émergent. OpenAI a signé des accords de licence avec des éditeurs comme Axel Springer ou le Financial Times. Google a conclu des partenariats avec des agences de presse. Ces deals restent minoritaires et souvent opaques sur les montants, mais ils esquissent un modèle possible : une IA qui rémunère ce qu'elle consomme.
La Commission européenne, via l'AI Act, impose aux développeurs de modèles de grande envergure de publier un résumé des données utilisées pour l'entraînement. C'est un premier pas — insuffisant selon les associations d'auteurs, mais réel.
Ce que vous pouvez faire dès maintenant
Si vous êtes créateur, la passivité est la seule vraie erreur. Voici des actions concrètes :
- Vérifiez si vos œuvres apparaissent dans des datasets publics via des outils comme Have I Been Trained?
- Soumettez des demandes d'opt-out auprès des principaux acteurs (OpenAI, Google, Meta proposent des formulaires dédiés).
- Rejoignez les organisations professionnelles qui portent ces enjeux au niveau législatif.
- Documentez précisément vos droits d'auteur — date de création, dépôt légal — pour constituer un dossier solide si une action juridique devient nécessaire.
La bataille autour de l'IA générative et des droits d'auteur est loin d'être terminée. Mais une chose est certaine : les créateurs qui resteront silencieux seront ceux dont les droits seront le plus facilement ignorés. L'IA a appris à écrire en lisant vos œuvres. Il est temps qu'elle apprenne aussi à respecter leur valeur.
— Reservoir Live