Des chercheurs de l'Université de Stanford ont fait une percée importante dans le développement de interfaces cerveau-ordinateur (BCI). En créant une technologie capable de déchiffrer le langage parlé à des vitesses allant jusqu'à 62 mots par minute, l'équipe a amélioré le record précédent de près de 3 fois.
Une évolution qui rapproche un peu plus ces systèmes des rythmes d'une conversation naturelle, et d'une conversion vocale quasi instantanée.
Libération conditionnelle
Le co-fondateur de Neuralink avec Elon Musk, Max Hodack, a qualifié la recherche de Stanford de "changement significatif dans l'utilité des implants cerveau-ordinateur". Mais en quoi consiste-t-il exactement ?
L'essentiel de tout le travail, détaillé dans un article auquel je renvoie ici, est la possibilité de "traduire" des signaux cérébraux en paroles cohérentes à l'aide d'un algorithme d'apprentissage automatique. Et faites-le en analysant l'activité cérébrale dans une région relativement petite du cortex.
L'obiettivo ? Pour aider les personnes qui ne peuvent plus parler à cause de maladies telles que la SLA à retrouver leur voix. Un véritable saut de qualité : une interface vocale de ce type pourrait considérablement accélérer le décodage des signaux cérébraux.

Les tests
Dans une expérience, l'équipe a enregistré (à partir de deux petites zones du cerveau) l'activité neuronale d'un patient SLA qui peut bouger la bouche mais qui a du mal à former des mots.
À l'aide d'un décodeur de réseau neuronal récurrent capable de prédire le texte, les chercheurs ont ensuite transformé ces signaux en mots. Des mots qui vont à un rythme jamais vu auparavant.
L'analyse des mouvements faciaux et de l'activité neuronale associée s'est avérée suffisamment puissante pour supporter un système d'interface cerveau-ordinateur malgré la paralysie et l'extension limitée du cortex cérébral.
Les défis à relever
Actuellement, le système est rapide, mais encore imparfait : le taux d'erreur du décodeur de réseau neuronal récurrent (RNN) utilisé par les chercheurs c'est encore 20 %.
Les chercheurs le savent bien : "Notre démonstration", écrivent-ils, "est la preuve que le décodage des tentatives de mouvements de la parole à partir d'enregistrements intracorticaux est une approche prometteuse, même s'il ne s'agit pas encore d'un système complet et cliniquement viable".
Pour améliorer le taux d'erreur et optimiser l'algorithme, les études vont désormais viser à sonder davantage de zones du cerveau.
Imaginez de telles technologies combinées à l'intelligence artificielle. Des algorithmes capables de cloner parfaitement une voix, comme celui présenté récemment par Microsoft qui ne prend que 3 secondes d'audio.
À l'avenir, personne ne restera silencieux.