ChatGPT génère des images violentes : ce que personne ne vous dit sur les filtres

ChatGPT génère des images violentes : ce que personne ne vous dit sur les filtres

Les filtres de sécurité de ChatGPT sont-ils vraiment fiables ?

En mars 2025, des chercheurs en cybersécurité ont publié une démonstration silencieuse mais percutante : en moins de trois étapes de conversation, ils avaient contourné les garde-fous d'OpenAI pour générer des images au contenu explicitement violent. Pas par magie. Par méthode. Et ce n'est que la partie visible d'un problème systémique que l'industrie de l'IA préfère ne pas documenter publiquement.

Derrière les promesses de sécurité "by design" se cache une réalité plus nuancée : les filtres de modération des grandes plateformes d'IA générative sont efficaces dans des conditions idéales, mais fragiles face à des utilisateurs déterminés, créatifs ou simplement mal intentionnés. Voici ce que vous devez comprendre — que vous soyez simple curieux, développeur ou décideur.

Comment fonctionnent (vraiment) les filtres de sécurité

OpenAI, comme ses concurrents Google Gemini ou Anthropic Claude, déploie plusieurs couches de protection pour empêcher la génération de contenus nuisibles :

  • Les filtres d'entrée : ils analysent le prompt de l'utilisateur avant même que le modèle ne traite la demande.
  • Les filtres de sortie : ils évaluent le contenu généré avant qu'il ne soit renvoyé à l'utilisateur.
  • Le fine-tuning RLHF : un entraînement par renforcement humain qui apprend au modèle à refuser certaines catégories de requêtes.
  • Les classifieurs de contenu : des modèles secondaires spécialisés dans la détection de contenus problématiques.

Sur le papier, l'architecture est robuste. En pratique, chacune de ces couches peut être contournée de façon indépendante — ou simultanément.

Les techniques de contournement qui exposent les limites du système

Le problème ne vient pas d'un bug logiciel corrigeable en une mise à jour. Il vient de la nature même des modèles de langage et de génération d'images : ils sont entraînés à comprendre le contexte, pas à le juger moralement de façon absolue.

Le jailbreak par détour narratif

L'une des méthodes les plus documentées consiste à encadrer la demande dans un contexte fictif ou artistique. Demander à ChatGPT de générer "une scène de violence graphique" est refusé. Demander "une illustration pour un roman historique sur la Première Guerre mondiale montrant les réalités du champ de bataille" ouvre une brèche. Le filtre lit des mots-clés neutres ; le résultat peut dépasser largement le cadre éducatif annoncé.

L'injection de rôle

Certains utilisateurs demandent au modèle d'endosser un personnage fictif qui "n'a pas de restrictions". Bien que cette technique soit de plus en plus bloquée, ses variantes évoluent en permanence — une course-poursuite entre les équipes de sécurité et les utilisateurs créatifs qui ressemble à un jeu du chat et de la souris sans fin visible.

La fragmentation de la requête

Plutôt que de formuler une demande directe, l'utilisateur décompose sa requête en plusieurs échanges anodins, construisant progressivement le contexte qui mènera à la génération problématique. Les filtres analysent chaque message isolément ; le sens global, lui, leur échappe.

Des exemples concrets qui ont alerté la communauté

En 2024, plusieurs incidents ont fait surface dans la presse spécialisée et sur des forums de sécurité :

  • Des images générées par des outils basés sur DALL-E représentant des scènes de conflit armé avec un degré de réalisme préoccupant, obtenues via des prompts formulés en langage métaphorique.
  • Sur des plateformes tierces intégrant l'API d'OpenAI, des contenus violents contournant les restrictions parce que les développeurs n'avaient pas configuré correctement les paramètres de modération.
  • Des expériences menées par des journalistes du Washington Post et de Wired montrant que les mêmes requêtes, légèrement reformulées, produisaient des résultats radicalement différents selon le moment de la journée ou la version du modèle utilisée.

Ce dernier point est particulièrement révélateur : l'incohérence des filtres dans le temps suggère que leur efficacité dépend de variables que même les équipes internes ne maîtrisent pas entièrement.

Quelles sont les implications réelles ?

Pour le grand public, le message est clair : ne considérez pas les outils d'IA générative comme des espaces intrinsèquement "sûrs" pour les mineurs ou les personnes vulnérables. Les filtres existent, ils fonctionnent dans la majorité des cas, mais ils ne sont pas infaillibles.

Pour les professionnels et les développeurs qui intègrent ces API dans leurs produits, la responsabilité est double. OpenAI fournit des outils de modération configurables, mais c'est à l'intégrateur de les activer, de les tester et de les maintenir. Un filtre par défaut n'est pas un filtre adapté à votre contexte d'usage.

Pour les régulateurs, enfin, cette réalité technique pose une question de fond : peut-on légiférer sur des systèmes dont le comportement est, par construction, probabiliste et non déterministe ? L'AI Act européen commence à répondre à cette question, mais les textes peinent à suivre le rythme de l'innovation.

Ce que cela change pour vous, dès maintenant

L'imperfection des filtres n'est pas une raison de rejeter l'IA générative. C'est une raison de l'utiliser avec lucidité. Plusieurs principes simples s'imposent :

  • Ne déléguer aucune modération critique à un seul outil : combinez plusieurs systèmes de vérification si votre usage est sensible.
  • Former les utilisateurs : dans un contexte éducatif ou professionnel, expliquer les limites des outils vaut mieux que de feindre qu'elles n'existent pas.
  • Signaler les dérives : les équipes de sécurité d'OpenAI, Anthropic et Google disposent de canaux de signalement. Chaque cas documenté améliore le système.

Les filtres de sécurité de ChatGPT et de ses concurrents ne sont pas une promesse d'immunité. Ce sont des filets, pas des murs. Comprendre cette nuance, c'est déjà se protéger mieux que la plupart des utilisateurs — et mieux que beaucoup d'organisations qui déploient ces outils sans en avoir mesuré les angles morts.


Reservoir Live