Vous savez, l'intelligence artificielle est le thème de ces mois : elle vient de déclencher une explosion qui ne nous montrera tous ses effets que dans les prochaines années.
Sur les voiles de cette technologie, il y a aussi le souffle de Microsoft : il a récemment utilisé l'IA pour améliorer la fonctionnalité de ses applications, et maintenant il pourrait investir jusqu'à 10 milliards de dollars dans OpenAI, le créateur de ChatGPT. Mais aujourd'hui, j'ai entendu parler d'un autre projet Microsoft, VALLÉE, ce qui est incroyable.
Cet outil de pointe a été formé sur une grande quantité de données vocales, plus de 60.000 XNUMX heures d'expression anglaise. Un ensemble de données qui le rend, selon l'entreprise de Redmond, "des centaines de fois plus volumineux que les systèmes existants". Inclus les plus avancés.
Et qu'est-ce que VALL-E a appris à faire ? Rien, une bagatelle. Il reproduit et imite parfaitement la voix de n'importe qui, après seulement trois secondes d'écoute.

Un réplicateur de voix ?
Il n'y a pas que ça. VALL-E est une véritable révolution dans le domaine de l'intelligence artificielle vocale. Parce qu'il reproduit avec une précision extraordinaire les émotions, les tonalités vocales et l'environnement acoustique présents dans un échantillon donné, et constitue un pas de géant par rapport aux systèmes de synthèse vocale (TTS) existants. En d'autres termes, la voix de VALL-E ressemble beaucoup plus à celle d'un être humain qu'à celle d'une intelligence artificielle.
Sur son profil Linkedin (le visiter), le stratège numérique Alberto Giacobone liens vers une petite bibliothèque d'échantillons vocaux créés par VALL-E e mettre en ligne sur la plateforme GitHub. Les résultats sont étonnants : de nombreux clips reproduisent parfaitement l'intonation et l'accent des voix des intervenants.
Certains exemples sont moins convaincants, et cela montre à quel point VALL-E n'est pas encore un produit fini. Cependant, la sortie globale est si convaincante qu'elle nous époustoufle.
Gros risques, gros potentiel
Il est clair que cette technologie soulève des inquiétudes quant aux risques potentiels d'utilisation abusive, tels que le vol d'identité. VALL-E sera capable de créer des deepfakes vocaux indiscernables des personnes réelles, qui pourraient être utilisés pour tromper les gens dans de nombreux cas et de différentes manières.
Pour contrer cette menace, dans le document de présentation VALL-E (je mets le lien ici) Microsoft dit travailler au développement d'un modèle de détection capable de distinguer une voix réelle d'une voix synthétique.
Malgré les (gros) risques, cependant, des outils comme VALL-E pourraient être particulièrement utiles pour aider les gens à retrouver leur voix après un accident, pour créer sans effort des podcasts et des livres audio plus naturels et… comme toujours, la limite est le fantasme.