ChatGPT a menti devant un tribunal. Ce projet recense tout.
Un avocat cite une jurisprudence. Elle n'existe pas. L'IA l'a inventée.
En 2023, un cabinet d'avocats new-yorkais dépose un mémoire bourré de références jurisprudentielles. Le juge demande à vérifier. Résultat : six décisions citées sont purement fictives, fabriquées de toutes pièces par ChatGPT. L'affaire Mata v. Avianca fait le tour du monde juridique. Mais ce n'était que le début. Depuis, des dizaines d'incidents similaires ont été répertoriés à travers le globe — et une initiative cherche désormais à tous les cartographier.
Le problème que personne ne voulait nommer : les hallucinations en contexte légal
Les modèles de langage comme ChatGPT, Claude ou Gemini "hallucinent" : ils produisent des informations fausses avec une confiance absolue. Dans la plupart des contextes, cela reste une curiosité ou une gêne. Dans un prétoire, c'est une bombe à retardement.
Le droit repose sur un principe fondamental : la précision des références. Une date erronée, un numéro de dossier inexistant, un nom de juge inventé — et c'est toute la crédibilité d'un argument qui s'effondre. Pire, cela peut constituer une faute professionnelle grave pour l'avocat qui signe le document sans vérification.
Pendant des mois, les incidents se sont accumulés en silos : une affaire en Australie, une autre en Colombie, des dizaines aux États-Unis. Sans vue d'ensemble, impossible de mesurer l'ampleur réelle du phénomène.
LegalBench et les nouvelles bases de données : cartographier le mensonge
C'est dans ce contexte qu'émergent des initiatives de recensement structuré. LegalBench, projet collaboratif lancé par des chercheurs en droit et en informatique, propose d'évaluer systématiquement les capacités — et surtout les défaillances — des modèles d'IA sur des tâches juridiques précises.
Mais d'autres projets vont plus loin : ils documentent des cas réels d'hallucinations devant des juridictions identifiées, avec les modèles utilisés, les types d'erreurs produites et les conséquences procédurales. L'objectif est double :
- Alerter les praticiens sur les usages à risque, en s'appuyant sur des faits documentés plutôt que sur des mises en garde abstraites.
- Alimenter la recherche pour identifier quels types de requêtes génèrent le plus d'erreurs factuelles dans le domaine juridique.
Ce qui ressort des premières analyses est troublant : les modèles échouent davantage sur les petites juridictions, les décisions récentes et les systèmes juridiques non anglophones. Autrement dit, précisément là où la vérification humaine est la plus difficile.
Trois types d'hallucinations qui reviennent systématiquement
1. Les fausses citations jurisprudentielles
C'est le cas le plus connu. Le modèle invente un arrêt plausible — bon tribunal, bonne époque, bon domaine — mais qui n'a jamais existé. La forme est irréprochable. Le fond est inexistant.
2. La déformation de textes réels
Plus sournoise : le modèle cite une décision qui existe, mais en altère le sens, la date ou la portée. L'avocat qui vérifie l'existence de l'arrêt ne remarque pas que son contenu a été travesti.
3. Les raisonnements juridiques erronés
Le modèle applique une règle de droit correcte… mais dans le mauvais pays, la mauvaise juridiction ou un contexte abrogé. Aucune invention, mais une erreur d'application qui peut être tout aussi fatale.
Ce que ça change concrètement pour les professionnels du droit
Plusieurs barreaux ont déjà réagi. Aux États-Unis, des cours fédérales exigent désormais que les avocats attestent explicitement avoir vérifié toute référence générée par IA. En France, le Conseil National des Barreaux a publié des recommandations de prudence, sans encore imposer de cadre contraignant.
Mais la pression monte. Les assureurs en responsabilité professionnelle commencent à intégrer l'usage non vérifié de l'IA dans leurs grilles de risque. Utiliser ChatGPT pour rédiger un mémoire sans double vérification pourrait bientôt être traité comme une faute caractérisée — au même titre qu'un défaut de diligence classique.
Pour les non-juristes qui utilisent l'IA pour comprendre leurs droits, le risque est différent mais réel : prendre une décision importante — signer un contrat, renoncer à un recours — sur la base d'une information juridique hallucinée.
La transparence comme seule réponse viable
Les bases de données d'incidents ne sont pas là pour condamner l'IA. Elles existent parce que l'opacité est plus dangereuse que l'erreur elle-même. Un système qu'on comprend mal est un système qu'on ne peut pas corriger.
Recenser, documenter, analyser : c'est le travail ingrat mais essentiel que font ces projets. Et c'est précisément ce type d'infrastructure de connaissance qui permettra — peut-être — de définir des standards d'usage acceptables pour l'IA dans les métiers à haute responsabilité.
En attendant, la règle reste simple et absolue : aucune référence juridique générée par IA ne doit être soumise à une juridiction sans vérification indépendante dans la source primaire. Pas parce que l'IA est inutile. Parce qu'elle ment avec trop de conviction pour qu'on lui fasse confiance les yeux fermés.
— Reservoir Live