Vous le savez, l’intelligence artificielle est le thème de ces mois-ci : elle vient d’amorcer une explosion qui ne nous montrera tous ses effets que dans les prochaines années.
Microsoft est également à l'origine de cette technologie : il a récemment utilisé l'IA pour améliorer les fonctionnalités de ses applications, et il pourrait désormais investir jusqu'à 10 milliards de dollars dans OpenAI, la société qui a créé ChatGPT. Aujourd'hui, cependant, j'entends parler d'un autre projet Microsoft, VALLÉE, ce qui est incroyable.
Cet outil de pointe a été formé sur une grande quantité de données vocales, soit plus de 60.000 XNUMX heures d'anglais. Un ensemble de données qui le rend, selon la société de Redmond, « des centaines de fois plus volumineux que les systèmes existants ». Inclus les plus avancés.
Et qu'est-ce que VALL-E a appris à faire ? Rien, une bagatelle. Il reproduit et imite parfaitement la voix de n'importe qui, après seulement trois secondes d'écoute.
Un réplicateur de voix ?
Ce n'est pas seulement ça. VALL-E est une véritable révolution dans le domaine de l’intelligence artificielle vocale. Parce qu'il reproduit avec une précision extraordinaire les émotions, les tonalités vocales et l'environnement acoustique présents dans un échantillon donné, et constitue un pas de géant par rapport aux systèmes de synthèse vocale (TTS) existants. En d’autres termes, la voix de VALL-E ressemble bien plus à celle d’un être humain qu’à celle d’une intelligence artificielle.
Sur son profil Linkedin (le visiter), le stratège numérique Alberto Giacoboné liens vers une petite bibliothèque d'échantillons vocaux créés par VALL-E e mettre en ligne sur la plateforme GitHub. Les résultats sont surprenants : dans de nombreux clips, l'intonation et l'accent des voix des locuteurs sont parfaitement reproduits.
Certains exemples sont moins convaincants, et cela montre que VALL-E n’est pas encore un produit fini. Cependant, le résultat global est si convaincant qu’il nous laisse sans voix.
Gros risques, gros potentiel
Il est clair que cette technologie soulève des inquiétudes quant aux risques potentiels d'utilisation abusive, tels que le vol d'identité. VALL-E sera capable de créer des deepfakes vocaux indiscernables des personnes réelles, qui pourraient être utilisés pour tromper les gens dans de nombreux cas et de différentes manières.
Pour contrer cette menace, dans le document de présentation VALL-E (je mets le lien ici) Microsoft dit travailler au développement d'un modèle de détection capable de distinguer une voix réelle d'une voix synthétique.
Malgré les (gros) risques, des outils comme VALL-E pourraient être particulièrement utiles pour aider les gens à retrouver leur voix après un accident, pour créer sans effort des podcasts et des livres audio plus naturels et… comme toujours, la limite est votre imagination.