L'IA et les algorithmes d'apprentissage automatique s'améliorent pour prédire les actions dans les vidéos.
Le meilleur des algorithmes actuels permet de prédire assez précisément où ira une balle de baseball après avoir été lancée, ou l'apparition d'une route dans la séquence à venir. En d'autres termes? Prédire les images dans le futur d'un film.
Une nouvelle approche proposée par des chercheurs de Google, de l'Université du Michigan et d'Adobe fait progresser l'état de l'art avec des modèles à grande échelle qui génèrent une vidéo de haute qualité à partir de quelques images.
"Avec ce projet, nous visons à obtenir des prédictions vidéo précises. Nous allons optimiser les capacités d'un réseau de neurones", les chercheurs ont écrit dans un document qui décrit leur travail.
Le modèle d'équipe
Le modèle de base de l'équipe est basé sur une architecture de génération vidéo stochastique, avec un composant qui gère les prédictions des trames suivant celles considérées.
L'équipe a formé et testé différentes versions du modèle séparément des ensembles de données personnalisés en fonction de trois catégories de prévisions: interactions entre objets, mouvement structuré et observabilité partielle.
Pour la première tâche (interactions avec des objets) les chercheurs ont sélectionné 256 clips à partir d'un bloc de vidéos montrant un bras robotique tout en interagissant avec des serviettes.
Pour la seconde (mouvement structuré) ils ont édité des clips de Human 3.6M, un bloc contenant des clips d'humains exécutant des actions comme s'asseoir sur une chaise.
Quant au troisième (activité d'observabilité partielle), a utilisé un jeu de données de conduite KITTI open source collecté à partir d'images de caméras montées sur des tableaux de bord de voiture.
Après cette "formation", le modèle d'IA a généré jusqu'à 25 images dans le futur.
Les chercheurs rapportent que les « prédictions » ont été préférées 90,2, 98,7 % et 99,3 % du temps par les évaluateurs aux trois types de vidéo, respectivement : interactions d'objets, mouvement structuré et tâches d'observabilité partielle, respectivement.
Qualitativement, l'équipe note que l'IA a représenté de manière précise les bras et les jambes humains et a fait "des prédictions très précises qui semblaient réalistes par rapport aux scènes représentées dans la vidéo" .


"Nous avons constaté que la maximisation de la capacité de ces modèles améliore la qualité de la prédiction vidéo", les coauteurs écrivent. Nous espérons que notre travail encouragera le domaine à évoluer dans des directions similaires à l'avenir. Par exemple pour voir jusqu'où on peut aller".