AudioLM, le système développé par les chercheurs de Google, génère toutes sortes de sons, y compris des sons complexes comme une musique de piano dans une chanson ou des gens qui parlent, presque indiscernables du fragment initial qui lui est soumis.
La technique est très prometteuse et peut être utile à bien des égards. Par exemple, il peut accélérer le processus de formation à l'IA ou générer automatiquement de la musique pour accompagner les vidéos. Mais c'est bien plus que cela.
Rejoue-le, Sam
Nous sommes déjà habitués à entendre le son généré par l'intelligence artificielle. Quiconque se bat tous les jours avec Alexa ou Google Nest le sait bien : nos assistants vocaux traitent le langage naturel.
Il y a bien sûr aussi des systèmes entraînés à la musique : souvenez-vous juke-box par OpenAI ? Je vous en ai parlé ici. Tous ces systèmes reposent cependant sur une "formation" longue et complexe, qui passe par le catalogage et l'administration de nombreuses "idées". Nos intelligences artificielles sont avides de données, et elles en veulent de plus en plus.
L'étape suivante consiste à faire "réfléchir" l'IA en lui permettant de traiter plus rapidement les informations qu'elle écoute, sans nécessiter de longues formations. Quelque chose de similaire à ce que vous essayez de faire avec les systèmes d'auto-conduite.
Comment fonctionne AudioLM
Pour générer l'audio, quelques secondes de chanson ou de son sont introduites dans AudioLM, qui prédit littéralement ce qui va suivre. Ce n'est pas Shazam, il ne cherche pas le morceau entier et le re-propose. Il ne fait pas un collage de sons qu'il a en mémoire. Il les construit. Le processus est similaire à la façon dont je modèles linguistiques comme GPT-3, ils prédisent des phrases et des mots.
Les clips audio publiés par l'équipe Google semblent très naturels. En particulier, la musique de piano générée par AudioLM semble plus fluide que celle générée avec les intelligences artificielles actuelles. En d'autres termes, il est meilleur pour capturer la façon dont nous produisons une chanson, ou un son.
"C'est vraiment impressionnant, notamment parce que cela indique que ces systèmes apprennent une sorte de structure en couches", dit-il. Roger Danenberg, chercheur en musique générée par ordinateur à l'université Carnegie Mellon.

Pas seulement une chanson
Imaginez parler à AudioLM, deux mots et arrêtez. Le système poursuivra le discours en apprenant votre cadence, votre accent, vos pauses, voire votre respiration. Bref, exactement comme tu parles. Il n'a pas besoin de faire de formation spécifique : il peut le faire presque tout seul.
Comme un perroquet répétant les choses que vous entendez. Seulement c'est un perroquet capable de recevoir et de produire n'importe quel son, et de compléter de manière autonome ceux laissés au milieu.
En résumé? Nous aurons très bientôt (et dans ces cas là, c'est très bientôt) des systèmes capables de parler beaucoup plus naturellement, et de composer une chanson ou un son exactement comme De E 2, MidjourneyAI et d'autres créent des images, ou Faire une vidéo crée des clips basés sur notre entrée.
Qui détient les droits d'une chanson ?
Alors que ces systèmes seront capables de créer du contenu presque par eux-mêmes, cela "presque" fait encore toute la différence dans le monde, et oblige à considérer les implications éthiques de cette technologie.
Si je dis "Alors, fais-moi une fin différente pour Bohemian Rapsody" et que cette chose va faire une chanson dans ce sens, qui peut revendiquer les droits et percevoir les royalties pour la chanson ? Sans parler du fait que les sons et les discours désormais indiscernables des humains sont beaucoup plus convaincants et ouverts à une diffusion sans précédent de la désinformation.
Dans le document publié pour présenter cette IA (je mets le lien ici), les chercheurs écrivent qu'ils envisagent déjà comment atténuer ces problèmes en insérant des moyens de distinguer les sons naturels de ceux produits avec AudioLM. je crois peu. Bon nombre des objectifs pour lesquels cette IA a été créée seraient perdus.
Plus généralement, le risque est de produire un phénomène que j'appellerais "méfiance à l'égard de la réalité". Si tout peut être vrai, rien ne peut l'être. Rien n'a de valeur.