AudioLM, le système développé par les chercheurs de Google, génère toutes sortes de sons, y compris des sons complexes comme une musique de piano dans une chanson ou des gens qui parlent, presque indiscernables du fragment initial qui lui est soumis.
La technique est vraiment prometteuse et pourrait être utile à bien des égards. Il pourra par exemple accélérer le processus de formation à l’intelligence artificielle, ou encore générer automatiquement de la musique pour accompagner les vidéos. Mais c'est bien plus que cela.
Rejoue-le, Sam
Nous sommes déjà habitués à entendre l’audio généré par l’intelligence artificielle. Ceux qui se disputent au quotidien avec Alexa ou Google Nest le savent bien : nos assistants vocaux traitent le langage naturel.
Il y a bien sûr aussi des systèmes entraînés à la musique : souvenez-vous juke-box par OpenAI ? Je vous en ai parlé ici. Tous ces systèmes reposent cependant sur une « formation » longue et complexe, qui implique le catalogage et l’administration de nombreux « indices ». Nos intelligences artificielles sont avides de données, et elles en veulent toujours plus.
L’étape suivante consiste à faire « réfléchir » l’IA en lui permettant de traiter plus rapidement les informations qu’elle entend, sans nécessiter de longs entraînements. Quelque chose de similaire à ce que nous essayons de faire avec les systèmes de conduite autonome.
Comment fonctionne AudioLM
Pour générer l'audio, quelques secondes de chanson ou de son sont introduites dans AudioLM, qui prédit littéralement ce qui va suivre. Ce n'est pas Shazam, il ne recherche pas la chanson entière et ne la rejoue pas. Il ne fait pas de collages de sons qu'il a en mémoire. Il les construit. Le processus est similaire à la façon dont je modèles linguistiques comme GPT-3, ils prédisent des phrases et des mots.
Les clips audio publiés par l'équipe Google semblent très naturels. En particulier, la musique de piano générée par AudioLM semble plus fluide que celle générée avec les intelligences artificielles actuelles. En d'autres termes, il est meilleur pour capturer la façon dont nous produisons une chanson, ou un son.
"C'est vraiment impressionnant, également parce que cela indique que ces systèmes apprennent une sorte de structure multicouche", dit-il. Roger Danenberg, chercheur en musique générée par ordinateur à l'université Carnegie Mellon.
Pas seulement une chanson
Imaginez parler à AudioLM, deux mots et c'est tout. Le système poursuivra la parole en apprenant votre cadence, votre accent, vos pauses, voire votre respiration. En résumé, exactement votre façon de parler. Il n’y a pas besoin de formation spécifique : il peut le faire presque tout seul.
Comme un perroquet répétant les choses que vous entendez. Seulement c'est un perroquet capable de recevoir et de produire n'importe quel son, et de compléter de manière autonome ceux laissés au milieu.
En résumé? Nous aurons très bientôt (et dans ces cas là, c'est très bientôt) des systèmes capables de parler beaucoup plus naturellement, et de composer une chanson ou un son exactement comme De E 2, MidjourneyAI et d'autres créent des images, ou Faire une vidéo crée des clips basés sur notre entrée.
Qui détient les droits d'une chanson ?
Même si ces systèmes seront capables de créer du contenu presque tout seuls, cela « presque » fera quand même toute la différence dans le monde, et obligera à réfléchir aux implications éthiques de cette technologie.
Si je dis « Chose, fais-moi une fin différente pour Bohemian Rhapsody » et que cette chose fait une chanson dans ce sens, qui pourra revendiquer les droits et percevoir les royalties pour la chanson ? Sans parler du fait que les sons et les discours, désormais impossibles à distinguer des humains, sont bien plus convaincants et ouvrent la voie à une propagation de désinformation sans précédent.
Dans le document publié pour présenter cette IA (je mets le lien ici), les chercheurs écrivent qu'ils envisagent déjà comment atténuer ces problèmes en insérant des moyens de distinguer les sons naturels de ceux produits avec AudioLM. je crois peu. Bon nombre des objectifs pour lesquels cette IA a été créée seraient perdus.
Plus généralement, le risque est de produire un phénomène que j'appellerais « méfiance à l'égard de la réalité ». Si tout peut être vrai, rien ne peut l’être. Rien n'a de valeur.