Tencent enrichit les vidéos IA avec un son réaliste et immersif

Hunyuan Video-Foley : Tencent révolutionne le son des vidéos générées par IA
Un son réaliste enfin intégré aux vidéos générées par intelligence artificielle
Une équipe du laboratoire Hunyuan de Tencent a mis au point une nouvelle intelligence artificielle révolutionnaire : Hunyuan Video-Foley. Cette technologie est conçue pour analyser des vidéos et générer une bande sonore de haute qualité parfaitement synchronisée avec les actions à l'écran.
Les vidéos créées par IA ont longtemps souffert d’un manque : l’absence de son réaliste. Même avec des images époustouflantes, le silence ambiant brisait l’immersion. Dans l'industrie du cinéma, les bruitages (ou Foley) donnent vie aux scènes : bruissements de feuilles, bris de verre, pas sur un sol… Un art complexe, désormais accessible à travers l'IA.
Comment Tencent résout le défi audio des vidéos générées par IA
Jusqu’à présent, les modèles de type vidéo-vers-audio (V2A) échouaient à créer des ambiances sonores crédibles. Le problème principal ? Un déséquilibre entre les signaux reçus. Les IA tendaient à suivre uniquement les instructions textuelles, délaissant les indices visuels essentiels.
Par exemple, si une vidéo montre une plage animée avec des mouettes et des promeneurs mais que le prompt textuel mentionne uniquement "le bruit des vagues", la bande sonore générée se limitera à cela — oubliant les pas, les cris d’oiseaux, et autres sons réalistes.
Tencent a apporté une réponse innovante à ce problème en adoptant une approche en trois volets :
- Une base de données d’apprentissage massive : plus de 100 000 heures de vidéos, sons et descriptions textuelles ont été recueillies. Un système automatisé a filtré les contenus médiocres, garantissant une formation sur du matériel de haute qualité.
- Une architecture IA intelligente : le nouveau système analyse d’abord précisément la corrélation image/son pour assurer une synchronisation parfaite — comme faire coïncider le bruit d’un pas avec l’image d’un pied touchant le sol. Ensuite, il intègre le contexte textuel pour un contenu globalement cohérent.
- Une méthode d’apprentissage optimale (REPA) : cette stratégie d’alignement des représentations compare l’audio généré à des modèles professionnels préentraînés, permettant à l’IA de produire des sons propres, riches et stables.
Des résultats bluffants sur tous les plans
Lors de tests comparatifs, Hunyuan Video-Foley a surpassé les autres modèles d’IA en matière de qualité audio. Ce ne sont pas seulement les métriques techniques qui le confirment, mais aussi les avis d’auditeurs humains. Ces derniers ont systématiquement jugé ses sons plus précis, mieux synchronisés et bien plus immersifs.
Les données issues de multiples jeux d’évaluation attestent des performances impressionnantes de ce système :

Grâce à cette avancée, Tencent rapproche davantage les vidéos IA de l’expérience cinématographique complète, intégrant désormais un son authentique qui amplifie l’engagement des spectateurs. Une aubaine pour les cinéastes, studios d’animation ou développeurs de jeux vidéo.
À lire aussi : Google Vids ajoute des avatars IA et des outils image-vers-vidéo
Vers une nouvelle ère du contenu audiovisuel automatisé
En rendant le son aussi crédible que l’image dans les créations automatisées, Hunyuan Video-Foley donne une nouvelle dimension au réalisme des vidéos générées. Cela marque un tournant majeur dans la production de contenus numériques par IA, explorant des territoires jusqu’ici réservés aux experts du son.
Vous souhaitez en savoir plus sur les dernières innovations dans l’intelligence artificielle et les big data ? Participez à l’AI & Big Data Expo à Amsterdam, en Californie ou à Londres, dans le cadre de TechEx.
@ReservoirLive
Comments ()