Tencent dévoile ses modèles IA hunyuan open source ultra performants

Tencent dévoile ses modèles IA hunyuan open source ultra performants

Tencent lance une nouvelle génération de modèles IA Hunyuan open source

Tencent enrichit sa gamme de modèles d'intelligence artificielle Hunyuan avec de nouvelles versions open source, puissantes et polyvalentes. Ces modèles sont conçus pour fonctionner efficacement sur une grande variété de systèmes, des appareils périphériques à faible puissance jusqu'aux environnements de production à haute conc​urrency.

Des modèles AI polyvalents et adaptés à toutes les contraintes

Les nouveaux modèles Hunyuan sont disponibles sur la plateforme Hugging Face dans différents formats adaptés aux besoins des développeurs :

  • 0.5 milliard de paramètres
  • 1.8 milliard de paramètres
  • 4 milliards de paramètres
  • 7 milliards de paramètres

Ces modèles héritent de stratégies d’entraînement avancées similaires à celles du modèle Hunyuan-A13B, offrant des performances élevées même dans des versions allégées.

Une capacité de traitement sur de longs contextes

Les modèles Hunyuan se distinguent par leur support natif d’une fenêtre contextuelle étendue jusqu’à 256K tokens. Cela permet une gestion fluide de textes longs, idéale pour :

  • L’analyse de documents complexes
  • Les conversations prolongées
  • La génération de contenus approfondis

Ces modèles exploitent également un mode de « raisonnement hybride », avec la capacité d’alterner entre un traitement rapide ou approfondi selon les besoins.

Des performances optimisées pour les agents intelligents

Tencent a optimisé la série Hunyuan pour les tâches basées sur des agents. Ces modèles affichent des résultats compétitifs sur les benchmarks de référence :

  • BFCL-v3
  • τ-Bench
  • C3-Bench : 68.5 pour le Hunyuan-7B-Instruct, 64.3 pour le 4B

Une inférence rapide grâce à la technologie GQA

Les modèles utilisent la technique Grouped Query Attention (GQA), permettant une augmentation significative de la vitesse d’inférence tout en limitant l’usage des ressources. Leur déploiement est facilité grâce à des mécanismes de quantisation avancés intégrés via l’outil AngleSlim.

Deux méthodes de quantisation pour une IA plus légère

Les développeurs peuvent appliquer la compression via AngleSlim ou télécharger directement des modèles pré-quantifiés. Deux méthodes principales sont proposées :

1. Quantisation FP8 (statique)

Format 8-bit à virgule flottante, utilisant un échantillon de données calibrées pour définir l’échelle de quantisation sans réentraînement. Cela accélère considérablement les performances d’inférence.

2. Quantisation INT4 (W4A16)

Basée sur deux algorithmes :

  • GPTQ : optimise les poids couche par couche à l’aide de données de calibration.
  • AWQ : étudie les amplitudes des activations pour ajuster les coefficients de pondération par canal.

Des benchmarks impressionnants en mathématiques, science et programmation

Les performances des modèles sont solides sur une gamme de benchmarks :

  • MMLU : 79,82
  • GSM8K : 88,25
  • MATH : 74,85

Les variantes "Instruct" spécialisées présentent des scores remarquables :

  • AIME 2024 : 81,1 (7B) – 78,3 (4B)
  • OlympiadBench (science) : 76,5 (7B)
  • Livecodebench (code) : 42 (7B)

Des performances intactes malgré la quantisation

Les tests montrent peu de perte de précision après compression :

  • DROP Benchmark :
    • Base B16 : 85,9
    • FP8 : 86,0
    • INT4 GPTQ : 85,7

Déploiement facile et compatible avec les API standards

Tencent recommande d’intégrer les modèles Hunyuan avec des frameworks de déploiement reconnus pour créer des API compatibles OpenAI :

Cette combinaison de puissance, d’efficacité et de flexibilité confirme la place des modèles Hunyuan parmi les solutions IA open source les plus prometteuses.

À découvrir aussi

Deep Cogito v2 : une IA open source à l’intelligence affinée

Participez aux événements AI & Big Data

Envie d’en savoir plus sur l’intelligence artificielle et le big data ? Découvrez les prochains événements AI & Big Data Expo à Amsterdam, Californie et Londres. Ces salons sont organisés en parallèle des conférences Intelligent Automation Conference, BlockX, Digital Transformation Week, et Cyber Security & Cloud Expo.

Consultez la liste complète des conférences tech sur TechForge Events.

@ReservoirLive