Il devient extrêmement facile (et je ne pense pas que ce soit une bonne chose) de modifier une vidéo, et les derniers développements en matière d'IA sont vraiment impressionnants.
Une collaboration entre des géants (les universités de Stanford et de Princeton plus l'Institut d'informatique Max Planck et Adobe) permet d'altérer le discours d'une vidéo simplement en modifiant la transcription textuelle, et sans créer d'effet « doublage ».
En d'autres termes, la personne qui parle en vidéo changera littéralement les mots de son discours, modifiant également les mouvements des lèvres.
Pour obtenir ce résultat quelque peu inquiétant, l'algorithme « apprend » les phonèmes et leur prononciation par le sujet dans la vidéo et crée un modèle 3D précis de son visage, capable de reproduire tous les sons et mouvements : à ce stade, il suffira d’éditer le texte du discours et l’algorithme remplacera la phrase originale.
Actuellement, l’algorithme a besoin d’au moins 40 minutes de séquences pour « s’entraîner » à reproduire une personne dans un film.
Voici une vidéo montrant le fonctionnement du système:
D'énormes doutes éthiques
Il est clair que ce mécanisme crée la possibilité que n'importe qui puisse modifier un discours (peut-être de personnalités politiques ou de personnalités publiques) en y insérant des éléments de haine, ou de désinformation, et en les diffusant comme originaux et naturels: cela ne fait qu'augmenter les inquiétudes quant à la diffusion de systèmes basés sur deepfake.
D'un autre côté, il y a un côté positif, et il réside dans les énormes économies que le montage obtiendra en évitant de devoir refaire des scènes entières à cause de petites erreurs de prononciation.
Pour le reste, je suis sûr que d'autres méthodes « anti-contrefaçon » seront également développées pour les vidéos : des filigranes dynamiques ou des filigranes qui complexifient encore le travail de l'intelligence artificielle, dans une compétition entre réalité et manipulation qui semble déjà destinée à caractériser les années prochaines.