Une vidéo de Taylor Swift qui n’a jamais existé, une conférence TED qui n’a jamais eu lieu, une conférence d’Einstein qui n’a jamais existé. Ce ne sont pas des effets spéciaux cinématographiques, mais des créations incroyables de OmniHuman-1, le nouveau système d'intelligence artificielle pour les vidéos deepfake développé par ByteDance (le « propriétaire » de TikTok) qui redéfinit les frontières entre la réalité et la fiction numérique.
Une technologie sans précédent
Vidéos deepfake ils n'ont rien de nouveau dans le paysage numérique. Il existe déjà de nombreuses applications capables d’insérer une personne dans une photo ou de lui faire dire des choses qu’elle n’a jamais dites. Mais la plupart de ces contenus manipulés présentent des signes évidents d’artificialité. OmniHuman-1 semble avoir surmonté cette limitation, produisant des résultats étonnamment réalistes.
Le système ne nécessite que deux éléments pour générer une vidéo deepfake : une image de référence et un fichier audio, qui peut être un discours ou une piste vocale. Avec ces entrées minimales, l'OmniHuman-1 peut produire des clips de n'importe quelle longueur, avec des rapports hauteur/largeur réglables et un contrôle complet sur la représentation du sujet. Le système a été formé sur 19.000 XNUMX heures de contenu vidéo (provenant de sources non divulguées).
Capacités de manipulation avancées
Les capacités d’OmniHuman-1 vont au-delà de la simple génération de vidéos. Le système peut également modifier les séquences existantes, en modifiant même les mouvements des membres des personnes. Les résultats, tels que présentés par l’équipe de ByteDance, sont incroyablement convaincants, bien que non sans limites : si on les « nourrit » avec des images de référence de mauvaise qualité, les résultats sont inférieurs et certaines poses posent encore problème. Cependant, le degré de raffinement atteint par OmniHuman-1 soulève de sérieuses inquiétudes, dans un tableau déjà plutôt incandescent.
en 2024, les deepfakes politiques ont déjà causé des problèmes importants : à Taïwan, un groupe affilié au Parti communiste chinois a diffusé un enregistrement audio manipulé d’un homme politique ; En Moldavie, des vidéos deepfake ont montré la fausse démission du président Maïa Sandu; en Afrique du Sud, un faux Eminem il a soutenu un parti d'opposition.
Secondo Deloitte, aux États-Unis seulement, le contenu généré par l'IA a contribué à Les pertes dues à la fraude dépasseront 12 milliards de dollars en 2023, avec des projections qui pourraient atteindre 40 milliards de dollars d'ici 2027. Les consommateurs sont dupés par des deepfakes de célébrités faisant la promotion d’investissements frauduleux, tandis que les entreprises se font escroquer des millions de dollars par des imposteurs numériques. La communauté scientifique appelle à une réglementation plus stricte, et plusieurs organismes envisagent une législation qui permettrait aux juges d’ordonner la suppression de vidéos deepfake, avec d’éventuelles sanctions pécuniaires pour les contrevenants.
Vidéos deepfake, la bataille difficile de la détection
La détection de vidéos deepfake reste un défi majeur. Malgré les efforts déployés par les réseaux sociaux et les moteurs de recherche pour limiter sa propagation, le volume de contenu manipulé en ligne continue de croître à un rythme alarmant. Une enquête sur Jumio de 2024 révèle que 60 % des gens ont été confrontés à un deepfake au cours de l’année écoulée, et 72 % craignent d’être trompés par un deepfake au quotidien.
ByteDance n'a pas encore publié publiquement OmniHuman-1, mais l'expérience montre qu'il ne faut pas longtemps à la communauté de l'IA pour reproduire des systèmes similaires. Cela soulève des questions cruciales sur l’avenir de la vérité numérique et la nécessité de développer des outils efficaces pour protéger la société de cette technologie de plus en plus puissante et de plus en plus dangereuse.