Il y a un avenir, semble-t-il, où les pensées ne sont plus seulement des images éphémères dans nos esprits, mais peuvent devenir des vidéos HQ. Et cela ressemble à un futur toujours plus proche de la réalité. Un groupe de chercheurs chevronnés vient d'ouvrir la boîte de Pandore dans le domaine des neurosciences. Pour l'aider, une bonne dose d'IA.
Le cerveau "projecteur"
Jiaxin Qing, Zijiao Chen e Juan Helen Zhou, de l'Université nationale de Singapour et de l'Université chinoise de Hong Kong, a présenté un travail de recherche assez intéressant. L'équipe a combiné les données d'imagerie par résonance magnétique fonctionnelle (fMRI) avec l'IA générative de diffusion stable pour créer MinD-Vidéo, un modèle capable de générer des vidéos HQ directement à partir de lectures cérébrales.
Des trucs de science-fiction, me direz-vous : mais non, le tout rigoureusement documenté sur arXiv, e c'est le lien.
Comment fonctionne MinD-Video exactement ?
MinD-Video n'est pas un simple générateur vidéo, mais tout un système conçu pour faire dialoguer le décodage d'images faites par une IA et celle faite par un cerveau. Mais comment entraîner un tel système ?
Les chercheurs ont utilisé un ensemble de données public, contenant des vidéos et des lectures IRMf associées des sujets qui les regardaient. Et apparemment, le travail a fonctionné admirablement.
Voir les pensées, nous y sommes arrivés

Les vidéos publiées par les scientifiques montrent des résultats vraiment fascinants. Prenons par exemple une vidéo originale avec des chevaux dans un champ. MinD-Video l'a "reconstruit" dans une version plus dynamique des chevaux. Dans un autre cas, une voiture traverse une zone boisée et la vidéo reconstruite montre un voyage à la première personne le long d'une route sinueuse.
Selon les chercheurs, les vidéos reconstruites sont de "haute qualité", avec une dynamique de mouvement et de scène bien définie. Et la précision ? 85%, une nette amélioration par rapport à la tentatives précédentes.
Lecture d'esprit et vidéo HQ, quelle est la prochaine étape ?
"L'avenir est prometteur et les applications potentielles sont immenses. Des neurosciences à interfaces cerveau-ordinateur, nous pensons que nos travaux auront un impact important », précisent les auteurs. Et les résultats vont au-delà : leurs travaux ont mis en évidence le rôle prédominant du cortex visuel dans la perception visuelle, et la capacité de leur modèle à apprendre des informations de plus en plus sophistiquées. pendant la formation.

Le modèle de diffusion stable utilisé dans cette nouvelle recherche rend la visualisation plus précise. "Un avantage clé de notre modèle par rapport à d'autres modèles génératifs, tels que le GAN, est la capacité de produire une vidéo de meilleure qualité. Il exploite les représentations apprises de l'encodeur IRMf et utilise son processus de diffusion unique pour générer des vidéos HQ qui s'alignent mieux sur les activités neuronales d'origine », ont expliqué les chercheurs.
Bref, il semble que nous soyons vraiment entrés dans l'ère du télépathie grâce à l'intelligence artificielle. Un champ ouvert à mille possibilités, où la limite semble n'être que l'imagination.