Nvidia ouvre l'IA vocale aux langues européennes oubliées

Nvidia ouvre l'IA vocale aux langues européennes oubliées

NVIDIA facilite l'accès à l'IA vocale pour 25 langues européennes

NVIDIA démocratise l'IA vocale pour 25 langues européennes

Alors que l'intelligence artificielle est omniprésente dans notre quotidien, elle reste limitée à une minorité des 7 000 langues parlées dans le monde. Cela exclut une large part de la population mondiale de ses bénéfices. NVIDIA entend corriger cette inégalité linguistique, en se concentrant notamment sur l'Europe.

Une boîte à outils open source pour les développeurs

NVIDIA vient de lancer un ensemble puissant d’outils IA open source conçus pour permettre aux développeurs de créer des applications vocales de qualité dans 25 langues européennes. Cela comprend non seulement les langues majeures, mais aussi des langues souvent négligées comme le croate, l’estonien ou le maltais.

L’objectif est de permettre la création d’outils vocaux avancés tels que :

  • Des chatbots multilingues capables de comprendre et parler différentes langues
  • Des assistants client vocaux instantanés
  • Des services de traduction en temps réel

Granary : une base de données vocale colossale

Au cœur de cette initiative se trouve Granary, une gigantesque bibliothèque de la parole humaine, composée d’environ un million d’heures d’audio. Ce corpus permet à l’IA d’apprendre les subtilités de la reconnaissance vocale et de la traduction multilingue.

Deux modèles d’IA puissants pour la parole

Pour exploiter pleinement ce corpus vocal, NVIDIA propose deux nouveaux modèles d’intelligence artificielle :

  • Canary-1b-v2 : un modèle de grande taille conçu pour une transcription et une traduction complexes avec une haute précision.
  • Parakeet-tdt-0.6b-v3 : un modèle plus léger, optimisé pour fonctionner en temps réel et à grande vitesse.

Ces modèles, disponibles sur Hugging Face, offrent une qualité comparable à d'autres modèles trois fois plus volumineux, avec des performances jusqu’à dix fois plus rapides. Parakeet peut notamment analyser une réunion de 24 minutes d’un seul trait, tout en détectant automatiquement la langue et en ajoutant ponctuation, capitalisation et minutage mot par mot.

Une innovation technique et inclusive

Traditionnellement, l’entraînement d’une IA nécessite d’énormes quantités de données manuellement annotées, ce qui est coûteux et long. Pour surmonter cet obstacle, NVIDIA, en collaboration avec des chercheurs de Carnegie Mellon University et Fondazione Bruno Kessler, a mis en place un pipeline automatisé grâce à leur propre outil NeMo. Ce système transforme des données audio brutes et non étiquetées en données structurées de haute qualité.

Cette avancée est bien plus qu’un exploit technique : elle marque une étape majeure vers l’inclusion numérique. Désormais, un développeur à Riga ou Zagreb peut créer des applications d'IA vocale qui comprennent véritablement sa langue locale, plus rapidement et avec davantage de précision.

Un futur où l'IA parle votre langue

En rendant ces outils et méthodes accessibles à la communauté mondiale des développeurs, NVIDIA ne se contente pas de proposer des produits. L’entreprise déclenche une nouvelle vague d'innovation, vers un avenir où l’IA pourra réellement parler votre langue, où que vous soyez.

Crédit photo : Aedrian Salazar

À découvrir également

DeepSeek revient vers NVIDIA après l'échec de la puce IA de Huawei

Envie d'en savoir plus sur l’IA et le Big Data ? Participez à l'AI & Big Data Expo à Amsterdam, en Californie ou à Londres. Cet événement est co-organisé avec d'autres conférences majeures telles que :

Retrouvez la liste complète des événements tech sur TechForge.

@ReservoirLive