L'intelligence artificielle et les algorithmes d'apprentissage automatique capables de lire les lèvres à partir de vidéos n'ont en fait rien d'extraordinaire.
En 2016, des chercheurs de Google et de l’Université d’Oxford ont détaillé un système capable de lire sur les lèvres et d’annoter des images avec une précision de 46,8 %. Cela vous semble peu ? Il a déjà dépassé la précision de 12,4 % d’un lecteur labial humain professionnel. Et il n'y avait pas encore de LIBS.
Cependant, 46,8 % ne sont pas à la hauteur des capacités dont peut faire preuve l’intelligence artificielle aujourd’hui. Les systèmes de pointe ont du mal à surmonter les ambiguïtés dans les mouvements des lèvres, ce qui empêche leurs performances de surpasser celles de la reconnaissance vocale audio.
A la recherche d'un système plus performant, les chercheurs Alibaba, Université du Zhejiang et Stevens Institute of Technology ils ont conçu une méthode baptisée Lèvre par parole (LIBS), qui utilise des fonctionnalités extraites des reconnaissances vocales pour servir d'indices complémentaires. Le système place la barre encore plus haut de 8 % et peut encore s’améliorer.
LIBS et d'autres solutions similaires peuvent aider les personnes malentendantes à suivre des vidéos sans sous-titres. On estime que 466 millions de personnes dans le monde souffrent de perte auditive, ce qui équivaut à environ 5 % de la population mondiale. D’ici 2050, ce nombre pourrait atteindre plus de 900 millions, selon l’Organisation mondiale de la santé.
La méthode AI pour lire la lèvre
LIBS tire des informations audio utiles de plusieurs facteurs : comme un cryptographe expérimenté, l'IA recherche des mots compréhensibles. Il les compare alors avec la correspondance labiale et recherche toutes les labiles similaires. Mais cela ne s'arrête pas là : il compare également la fréquence vidéo de ces images et d'autres indices techniques, affinant la recherche jusqu'à lire sur les lèvres même dans des mots incompréhensibles à notre oreille.
Si cela semble compliqué, réessayez, mais je ne promets rien.
Je cite Document de présentation technologique. « Les composants de reconnaissance vocale et de lecture labiale de LIBS sont tous deux basés sur une architecture séquence à séquence basée sur l'attention, une méthode de traduction automatique qui mappe une entrée à une séquence (audio ou vidéo). »
Les chercheurs ont entraîné l'IA sur une base de données initiale contenant plus de 45.000 100.000 phrases prononcées par la BBC, et sur CMLR, le plus grand corpus chinois disponible pour la lecture labiale en chinois mandarin, avec plus de XNUMX XNUMX phrases naturelles.
Les domaines d’application ne se limitent pas uniquement à l’aide aux sourds. L'habitude d'attribuer à chaque technologie un usage « socialement noble » ne doit jamais faire oublier que l'usage principal de ces technologies se situe dans le secteur militaire ou sécuritaire.
Personne n'a pensé au fait que ce système peut rendre la surveillance de la sécurité encore plus infaillible et omniprésente étonnantes nouvelles caméras de sécurité, ou de nouveaux systèmes satellitaires?
L’IA devenant désormais un œil omniscient ce sera une blague à écouter (ou reconstruire) nos chuchotements même depuis un satellite en orbite.