Il devient extrêmement facile (et je ne pense pas que ce soit seulement bon) de modifier une vidéo, et les derniers développements en matière d'IA sont vraiment impressionnants.
Une collaboration entre des géants (Stanford University et Princeton plus le Max Planck Institute for Informatics et Adobe) permet d'altérer le discours d'une vidéo simplement en modifiant la transcription textuelle, et sans créer l'effet « doublage ».
En d'autres termes, la personne qui parle en vidéo changera littéralement les mots de son discours, modifiant également les mouvements des lèvres.
Pour arriver à ce résultat quelque peu dérangeant, l'algorithme "apprend" les phonèmes et leur prononciation du sujet dans la vidéo et crée un modèle 3D précis de son visage, capable de reproduire tous les sons et mouvements : à ce stade, il suffira d'éditer le texte du discours et l'algorithme remplacera la phrase d'origine.
Actuellement, l'algorithme a besoin d'au moins 40 minutes de vidéo pour "s'entraîner" à reproduire une personne dans une vidéo.
Voici une vidéo montrant le fonctionnement du système:
D'énormes doutes éthiques
Il est clair que ce mécanisme crée la possibilité que n'importe qui puisse modifier un discours (peut-être de personnalités politiques ou de personnalités publiques) en y insérant des éléments de haine, ou de désinformation, et en les diffusant comme originaux et naturels: cela ne fait qu'augmenter les inquiétudes quant à la diffusion de systèmes basés sur deepfake.
En revanche, il y a du positif, et c'est dans les énormes économies que le montage va réaliser en évitant de re-tourner des scènes entières à cause de petites erreurs de prononciation.
Pour le reste, je suis sûr que d'autres méthodes "anti-contrefaçon" seront également développées pour les vidéos : les filigranes dynamiques ou filigranes qui rendent encore plus complexe le travail de l'intelligence artificielle, dans une compétition entre réalité et manipulation qui semble déjà destinée à caractériser les prochaines années.