Tencent franchit un cap avec un son réaliste pour vidéos IA

Tencent franchit un cap avec un son réaliste pour vidéos IA

Tencent révolutionne l’audio des vidéos générées par IA avec Hunyuan Video-Foley

Hunyuan Video-Foley : le son réaliste enfin intégré aux vidéos générées par intelligence artificielle

Une équipe du laboratoire Hunyuan de Tencent vient de lancer Hunyuan Video-Foley, une nouvelle intelligence artificielle révolutionnaire qui apporte enfin un son crédible et parfaitement synchronisé aux vidéos générées par IA. Ce système innovant analyse les vidéos pour produire une bande-son de haute qualité, fidèle aux actions visibles à l’écran.

Pourquoi le son est essentiel dans les vidéos générées par IA

Regarder une vidéo générée par une intelligence artificielle peut sembler impressionnant visuellement, mais l’absence de son réaliste crée souvent une sensation de vide. Dans l’industrie du cinéma, les sons comme le bruissement des feuilles, le tonnerre ou le tintement d’un verre sont obtenus grâce à l’art du Foley. Cette discipline exige une expertise humaine de haut niveau, difficile à reproduire par une machine.

Les systèmes automatisés ont longtemps peiné à générer des sons cohérents avec les vidéos. L’un des grands défis était de compenser ce que les chercheurs appellent un « déséquilibre de modalités » : les IA accordaient plus d’attention aux instructions textuelles qu’au contenu vidéo lui-même.

Comment Tencent a résolu le défi de l’audio généré par IA

Pour surmonter ces limitations, les chercheurs de Hunyuan ont adopté une approche en trois étapes clés :

  • Une base de données massive et de qualité : Tencent a entraîné le modèle avec plus de 100 000 heures de vidéos accompagnées d’audio et de descriptions textuelles. Grâce à un pipeline automatique de filtrage, ils ont écarté les clips de mauvaise qualité (audio flou, longues silences), assurant un apprentissage optimal.
  • Une architecture intelligente : Le modèle accorde une attention précise à la synchronisation image-son. Par exemple, il aligne précisément un bruit de pas avec l’instant où un pied touche le sol. Ensuite, il intègre la description textuelle pour maintenir une cohérence globale avec l’ambiance et le contexte de la scène.
  • Un entraînement assisté par ingénieur audio virtuel : Avec la technique « Representation Alignment » (REPA), le système compare continuellement ses productions à celles d’un modèle audio de qualité professionnelle, garantissant un rendu sonore riche, propre et stable.

Des résultats impressionnants validés par des tests

Lors des comparaisons avec d'autres modèles d'IA concurents, Hunyuan Video-Foley s'est nettement démarqué. Les tests objectifs et les évaluations par des auditeurs humains confirment une meilleure qualité audio, une synchronisation plus précise et une fidélité accrue au contenu visuel.

Les résultats sur plusieurs ensembles de données d'évaluation démontrent l’efficacité du système :

Résultats d’évaluation de Hunyuan Video-Foley par rapport à d’autres modèles IA

Vers une nouvelle ère de la création vidéo automatisée

Tencent rapproche les vidéos générées par IA d’une véritable expérience immersive. Grâce à Hunyuan Video-Foley, le réalisme sonore devient accessible à grande échelle, ouvrant de nouvelles possibilités pour les réalisateurs, les studios d'animation, les créateurs de jeux vidéo et les artistes de contenu numérique.

À lire aussi : Google Vids introduit des avatars IA et des outils de conversion image-vidéo

Bannière de l’événement AI & Big Data Expo

En savoir plus sur l’IA et la data : Découvrez l’AI & Big Data Expo à Amsterdam, en Californie et à Londres. Cet événement est organisé par TechEx, regroupant plusieurs conférences technologiques majeures.

Source : AI News

@ReservoirLive