Les chercheurs de l'Université Duke ont développé un outil d'intelligence artificielle qui peut transformer des images floues et méconnaissables des visages des gens en portraits générés par ordinateur convaincants, avec des détails plus fins que jamais.
Les méthodes antérieures à Pulse GAN pouvaient détailler une image avec des pixels flous jusqu'à huit fois sa résolution d'origine. Mais l'équipe de Duke a trouvé un moyen de prendre une poignée de pixels et de créer des visages réalistes avec une résolution jusqu'à 64 fois supérieure, en « imaginant » des caractéristiques telles que des ridules, des cils et des rides qui n'étaient pas présentes dans la première image.
Aucune image avec cette résolution n'a jamais été créée auparavant
Cynthia Roudin, informaticien, Duke University
Ce n'est pas un identikit
Le système Pulse GAN ne peut pas être utilisé pour identifier des personnes, affirment les chercheurs: cela ne transformera pas une photo floue et méconnaissable d'une caméra de sécurité en une image cristalline d'une personne réelle. Au contraire, il est capable de générer de nouveaux visages qui n’existent pas, mais qui semblent vraisemblablement réels.
La même technique pourrait en théorie prendre des photos basse résolution de presque tout et créer des images nettes et réalistes, avec des applications allant de la médecine et de la microscopie à l'astronomie et à l'imagerie satellite, a déclaré le co-auteur. Sachit Ménon, double spécialisation en mathématiques et informatique.
Les chercheurs présenteront leur méthode, appelée PULSE GAN, de demain au 19 juin à la conférence 2020 Computer Vision and Pattern Recognition (CVPR).
Les approches traditionnelles commencent par prendre une image basse résolution avec des pixels flous et « deviner » quels pixels supplémentaires sont nécessaires en essayant de les faire correspondre, en moyenne, aux pixels correspondants dans les images haute résolution que l'ordinateur a vues auparavant. En raison de cette moyenne, les zones texturées des cheveux et de la peau qui ne s'alignent pas parfaitement d'un pixel à l'autre peuvent apparaître floues et indistinctes.
L'équipe Duke a adopté une approche différente
Au lieu de prendre une image basse résolution et d'ajouter lentement de nouveaux détails, le système recherche des exemples de visages haute résolution générés par l'IA (deviens maintenant très bon dans ce domaine), en recherchant celles qui ressemblent le plus possible à l’image d’entrée lorsqu’elles sont réduites à la même taille.
L’équipe a utilisé un outil d’apprentissage automatique appelé GAN, ou « réseau contradictoire génératif ». J'en ai parlé plus en profondeur dans cet article, et dans d'autres sur ce site. Les GAN sont des réseaux de neurones formés sur le même ensemble de données photo. Un réseau présente des visages humains créés par l’IA qui imitent ceux sur lesquels il a été formé, tandis que l’autre prend ce résultat et décide s’il est suffisamment convaincant pour être confondu avec une vraie photo. Le premier réseau s'améliore de plus en plus avec l'expérience, jusqu'à ce que le second ne puisse plus faire la différence. Ils sont en concurrence les uns avec les autres, en d'autres termes, et en se faisant concurrence, ils s'améliorent.
PULSE peut créer des images réalistes à partir d’entrées bruyantes et de mauvaise qualité. À partir d’une seule image floue d’un visage, il peut émettre un nombre illimité de possibilités réalistes, dont chacune apparaît subtilement différente.
Même avec des photos pixelisées où les yeux et la bouche sont à peine reconnaissables, « notre algorithme peut en faire quelque chose. Quelque chose que les approches traditionnelles ne peuvent pas faire. » Mot du co-auteur Alex Damien, mathématicien chez Duke.
Pulse GAN, le « fantasme » au pouvoir
Le système peut convertir un pixel flou, ou une image de 16 x 16 pixels, en une image de 1024 1024 x XNUMX XNUMX pixels en quelques secondes, ajoutant ainsi plus d'un million de pixels, comme en résolution HD. Les détails tels que les pores, les rides et les mèches de cheveux, imperceptibles sur les photos basse résolution, deviennent nets et clairs dans les versions générées par ordinateur.
Les chercheurs ont demandé à 40 personnes d'évaluer 1.440 images générées via PULSE GAN et cinq autres méthodes de mise à l'échelle. Leur jugement? Un nombre sur une échelle de un à cinq. et Pulse GAN a fait le meilleur de tous. De plus, il a marqué presque égal à des photos de haute qualité de personnes réelles.
Voyez les résultats par vous-même https://pulse.cs.duke.edu/.