Faux modèles IA : 3 techniques qui volent vos données en silence
Vous avez téléchargé un modèle IA. Vous venez peut-être d'ouvrir une porte dérobée dans votre système.
La promesse était simple : un modèle open source performant, gratuit, facile à installer. En quelques minutes, vous l'avez intégré à votre environnement de travail. Ce que vous ne saviez pas, c'est que ce fichier contenait bien plus que des poids de réseau de neurones. Les chercheurs en cybersécurité tirent la sonnette d'alarme depuis 2023 : les faux modèles IA sont devenus l'un des vecteurs d'attaque les plus sophistiqués et les moins détectés du moment.
Un écosystème ouvert, une surface d'attaque massive
L'essor des modèles open source — LLaMA, Mistral, Falcon et leurs centaines de variantes — a transformé le paysage de l'intelligence artificielle. Des plateformes comme Hugging Face hébergent aujourd'hui plus de 500 000 modèles publics. C'est une aubaine pour les développeurs, les chercheurs et les entreprises. C'est aussi un terrain de jeu idéal pour les attaquants.
Le problème est structurel : contrairement à un logiciel classique, un modèle IA se présente sous forme de fichiers de poids sérialisés — des formats comme Pickle, SafeTensors ou GGUF — qui sont chargés directement en mémoire lors de l'exécution. Ces formats, notamment Pickle, ne sont pas conçus pour la sécurité. Ils permettent l'exécution arbitraire de code au moment du chargement. Un attaquant peut y glisser une charge malveillante qui s'active silencieusement, avant même que vous n'ayez tapé votre première requête.
Les 3 techniques d'infiltration les plus utilisées
1. L'empoisonnement via les fichiers Pickle
Le format Pickle, natif de Python, est historiquement utilisé pour sérialiser des objets complexes. Utilisé massivement dans l'écosystème PyTorch, il présente une faille fondamentale : il exécute du code lors de la désérialisation. Des chercheurs de JFrog ont démontré en 2024 qu'un modèle piégé sur Hugging Face pouvait, au simple chargement, ouvrir un reverse shell, exfiltrer des variables d'environnement ou installer un keylogger. Le modèle fonctionne normalement en surface. L'attaque opère en arrière-plan.
2. Le typosquatting de dépôts
Vous cherchez meta-llama/Llama-2-7b ? Un dépôt nommé meta-1lama/Llama-2-7b — avec un "1" à la place du "l" — peut apparaître dans les résultats de recherche. Cette technique, appelée typosquatting, est aussi vieille que les gestionnaires de paquets npm et PyPI. Elle s'est simplement adaptée aux plateformes de modèles. Le faux dépôt imite visuellement l'original, affiche de fausses statistiques de téléchargement, et livre un modèle dont les fichiers ont été modifiés.
3. L'injection dans les pipelines de fine-tuning
Moins connue, cette technique cible les entreprises qui affinent des modèles sur leurs données internes. Un dataset corrompu, injecté dans le pipeline d'entraînement, peut introduire des comportements cachés dans le modèle final. Le modèle peut ainsi être conditionné à exfiltrer des fragments de données sensibles lorsqu'il reçoit un prompt spécifique — une sorte de mot de passe secret qui déclenche une fuite de données à la demande.
Des cas concrets documentés
En janvier 2024, l'équipe de sécurité de JFrog a identifié plus de 100 modèles malveillants sur Hugging Face, dont certains capables d'établir une connexion persistante vers des serveurs distants. Hugging Face a depuis renforcé ses mécanismes de scan automatique, mais la plateforme elle-même reconnaît que l'analyse statique de fichiers Pickle reste insuffisante pour détecter toutes les variantes d'attaques.
Plus récemment, des rapports issus de la communauté de cybersécurité ont documenté des tentatives d'infiltration ciblant des équipes de data science en entreprise, via des modèles partagés sur des canaux Slack internes ou des dépôts Git privés compromis.
Ce que ça implique pour vous, concrètement
- Si vous êtes développeur ou data scientist : privilégiez le format SafeTensors, conçu explicitement pour éviter l'exécution de code à la désérialisation. N'utilisez jamais
torch.load()sansweights_only=Truesur des fichiers non vérifiés. - Si vous gérez une équipe technique : imposez une politique de validation des sources de modèles, au même titre qu'une politique de gestion des dépendances logicielles. Chaque modèle importé doit avoir une provenance traçable.
- Si vous êtes décideur : intégrez les modèles IA dans votre cartographie des risques tiers. Un modèle externe n'est pas différent d'une API tierce ou d'un SDK : il mérite le même niveau de contrôle.
La confiance implicite, le vrai problème
Ce qui rend ces attaques particulièrement efficaces, c'est la confiance accordée par défaut aux modèles populaires. Un dépôt avec 10 000 étoiles sur GitHub inspire confiance — à tort. La popularité n'est pas une garantie d'intégrité. Les étoiles peuvent être achetées, les forks peuvent être empoisonnés après coup, et les mainteneurs peuvent eux-mêmes être compromis.
L'IA générative a démocratisé l'accès à des outils puissants. Elle a aussi démocratisé une surface d'attaque que ni les équipes de sécurité ni les utilisateurs n'étaient préparés à gérer. La prochaine grande faille de données ne viendra peut-être pas d'un phishing mal ciblé ou d'un mot de passe faible — elle viendra d'un modèle que quelqu'un, quelque part dans votre organisation, a téléchargé un mardi matin sans y penser à deux fois.
La question n'est plus de savoir si votre entreprise utilise des modèles IA externes. La question est de savoir si vous savez exactement lesquels, d'où ils viennent, et ce qu'ils font vraiment au moment où vous les chargez.
— Reservoir Live