Le mini-modèle trm de Samsung bat les géants de l’intelligence artificielle

Le mini-modèle trm de Samsung bat les géants de l’intelligence artificielle

Le mini-modèle d'IA de Samsung surpasse les géants du raisonnement

Un petit modèle d'IA signé Samsung surpasse les géants du raisonnement

Alors que l'industrie de l'IA poursuit la course à la démesure avec des modèles toujours plus grands, une chercheuse de Samsung, Alexia Jolicoeur-Martineau (Samsung SAIL Montréal), propose une alternative étonnamment efficace et durable : le Tiny Recursive Model (TRM).

Avec seulement 7 millions de paramètres – soit moins de 0,01 % de la taille des plus grands modèles de langage (LLM) – TRM décroche des résultats impressionnants sur des benchmarks complexes comme le test d’intelligence ARC-AGI. Cette avancée remet en cause l’idée selon laquelle seule la taille des modèles permet des progrès significatifs en intelligence artificielle.

Pourquoi plus petit peut être meilleur : surmonter les limites du gigantisme

Les LLM sont capables de générer du texte de manière fluide, mais leur raisonnement complexe à plusieurs étapes reste fragile. Une simple erreur au début d'une réponse peut rendre la solution finale incorrecte. Des techniques comme Chain-of-Thought (chaîne de raisonnement) ont été développées pour améliorer cela, mais elles restent coûteuses en calcul et nécessitent un grand volume de données.

Samsung s'est appuyé sur le modèle HRM (Hierarchical Reasoning Model), qui utilisait deux petits réseaux neuronaux collaborant pour résoudre un problème. Cependant, HRM était complexe et reposait sur des théories mathématiques difficiles à appliquer en pratique.

TRM, au contraire, fonctionne avec un seul petit réseau qui améliore récursivement à la fois son raisonnement interne et sa réponse estimée. Le processus fonctionne en plusieurs itérations, jusqu'à 16 cycles, permettant au modèle de corriger progressivement ses propres erreurs de manière ultra-efficace.

Fait surprenant : une version du modèle à seulement deux couches a montré une meilleure capacité de généralisation qu’une version à quatre couches. En réduisant sa taille, le TRM évite le surapprentissage, souvent problématique sur des jeux de données spécialisés.

Autre innovation clé, le TRM abandonne les justifications mathématiques complexes nécessaires au HRM. En optant pour un entraînement basé sur une rétropropagation complète à travers toutes les étapes de sa récursion, TRM a significativement amélioré sa performance. Par exemple, il passe de 56,5 % à 87,4 % de précision sur le benchmark Sudoku-Extreme.

Des résultats impressionnants avec peu de ressources

Les performances atteintes par TRM démontrent la puissance d’un design intelligent plutôt que d’un modèle gigantesque :

  • Sudoku-Extreme (1 000 exemples) : 87,4 % de précision, contre 55 % pour HRM
  • Maze-Hard : 85,3 % de réussite contre seulement 74,5 % pour HRM
  • ARC-AGI-1 : 44,6 % de succès avec seulement 7M paramètres
  • ARC-AGI-2 : 7,8 %, surpassant même des LLM de pointe comme Gemini 2.5 Pro (4,9 %)

TRM impressionne particulièrement sur le benchmark ARC-AGI, conçu pour évaluer l’intelligence fluide des IA. Malgré sa petite taille, il dépasse largement des modèles qui ont des milliards de paramètres.

Samsung a également optimisé l’entraînement de TRM. Un mécanisme adaptatif (ACT) décide automatiquement quand arrêter l’amélioration d’une réponse, évitant des calculs supplémentaires coûteux – et ce, sans perte notable de performance.

Une vision durable pour l’avenir de l’IA

Cette recherche de Samsung met en lumière une nouvelle voie pour l’intelligence artificielle, plus durable et moins dépendante des ressources massives. En misant sur des architectures capables de raisonnement itératif et d'auto-correction, TRM illustre que la taille n’est pas toujours un gage de performance.

Il s’agit d’un tournant potentiel pour l’IA, ouvrant la voie à des systèmes plus performants, plus compacts, plus rapides et plus écologiques.

À lire aussi : Un agent IA de Google réécrit du code pour corriger automatiquement les vulnérabilités

Vous souhaitez en savoir plus sur l’IA et le big data ? Découvrez les prochains événements AI & Big Data Expo organisés à Amsterdam, en Californie et à Londres, dans le cadre de TechEx, et en parallèle de salons technologiques comme le Cyber Security Expo.

Article original par AI News. Powered by TechForge Media.

@ReservoirLive