L'intelligence artificielle et les algorithmes d'apprentissage automatique capables de lire les lèvres à partir de vidéos n'ont en fait rien d'extraordinaire.
En 2016, des chercheurs de Google et de l'Université d'Oxford ont détaillé un système capable de lire sur les lèvres et d'annoter des films avec une précision de 46,8 %. Cela vous paraît peu ? Il surpassait déjà la précision de 12,4 % d'un lecteur labial humain professionnel. Et il n'y avait pas encore de LIBS.
Cependant, 46,8% ne sont pas à la hauteur des capacités dont l'intelligence artificielle peut faire preuve aujourd'hui. Les systèmes de pointe ont du mal à surmonter les ambiguïtés dans les mouvements des lèvres, ce qui empêche leurs performances de surpasser celles de la reconnaissance vocale basée sur l'audio.
A la recherche d'un système plus performant, les chercheurs Alibaba, Université du Zhejiang et Stevens Institute of Technology ils ont conçu une méthode baptisée Lèvre par parole (LIBS), qui utilise des caractéristiques extraites des reconnaissances vocales pour servir d'indices complémentaires. Le système place la barre encore plus haut de 8 % et peut encore s'améliorer.
LIBS et d'autres solutions similaires peuvent aider les personnes malentendantes à suivre des vidéos sans sous-titres. On estime que 466 millions de personnes dans le monde souffrent de déficience auditive, soit environ 5 % de la population mondiale. D'ici 2050, ce nombre pourrait atteindre plus de 900 millions, selon l'Organisation mondiale de la santé.

La méthode AI pour lire la lèvre
LIBS tire des informations audio utiles de plusieurs facteurs : comme un cryptographe qualifié, l'IA recherche des mots compréhensibles. A ce point il les compare avec la correspondance à la lèvre et va chercher tous les labiles semblables. Mais cela ne s'arrête pas là : il compare également la fréquence vidéo de ces images, et d'autres indices techniques, affinant la recherche pour lire sur les lèvres même dans des mots incompréhensibles à notre oreille.
Si cela semble compliqué, réessayez, mais je ne promets rien.
Je cite Document de présentation technologique. "Les composants de reconnaissance vocale et de lecture labiale LIBS sont basés sur une architecture séquence-séquence basée sur l'attention, une méthode de traduction automatique qui mappe une entrée à une séquence (audio ou vidéo)."
Les chercheurs ont formé l'IA sur une première base de données contenant plus de 45.000 100.000 phrases prononcées par la BBC, et sur CMLR, le plus grand corpus chinois disponible pour la lecture labiale en chinois mandarin, avec plus de XNUMX XNUMX phrases naturelles.
Les champs d'application ne se limitent pas à l'aide aux sourds. L'usage d'attribuer un usage « socialement noble » à chaque technologie ne doit jamais faire oublier que l'usage principal de ces technologies se situe dans le domaine militaire ou de la sécurité.
Personne n'a pensé au fait que ce système peut rendre la surveillance de la sécurité encore plus infaillible et omniprésente étonnantes nouvelles caméras de sécurité, ou de nouveaux systèmes satellitaires?
Avec l'IA désormais devenue un œil omniscient ce sera une blague à écouter (ou reconstruire) nos chuchotements même depuis un satellite en orbite.