DeepMind présente RT-2 : des robots qui voient, apprennent et agissent

30 juillet 2023

628644ed1fd288f73df6d946 IMG 0831 1 à l'échelle

Robotica, Technologie

Le modèle d'IA développé par DeepMind, qui combine vision et langage pour contrôler les machines, va ouvrir de nouveaux horizons en robotique.

Partagez

Dans un environnement lumineux, rempli d'écrans et d'équipements technologiques, un robot est le protagoniste. Sa structure métallique reflète la lumière, mais c'est dans ses « yeux » que se cache la véritable magie. Ces yeux, alimentés par le modèle RT-2 de DeepMind, sont capables de voir, d'interpréter et d'agir.

Alors que le robot se déplace avec grâce, les scientifiques qui l’entourent scrutent chacun de ses mouvements. Il ne s'agit pas simplement d'un morceau de métal et d'un circuit, mais de l'incarnation d'une intelligence qui unit le vaste monde du Web à la réalité tangible.

L'évolution du RT-2

La robotique a parcouru un long chemin ces dernières années, mais DeepMind cela a juste amené le jeu à un tout autre niveau. Illustré dans un papier dès sa sortie il arrive RT-2. Des choses? Il s'agit d'un modèle vision-langage-action (VLA) qui apprend non seulement des données Web, mais également des données robotiques, traduisant ces connaissances en instructions généralisées pour le contrôle robotique.

À une époque où la technologie progresse à pas de géant, le RT-2 représente un pas important, promettant de révolutionner non seulement le domaine de la robotique, mais aussi la façon dont nous vivons et travaillons au quotidien. Mais qu’est-ce que cela signifie en pratique ?

DeepMind RT-2, de la vision à l'action

Les modèles de langage de vision à haute capacité (VLM) ils sont formés sur de grands ensembles de données, ce qui les rend également extraordinairement doués pour reconnaître des modèles visuels ou linguistiques (fonctionnant, par exemple, dans différentes langues). Mais imaginez pouvoir faire faire à des robots ce que ces modèles font. En effet, arrêtez de l'imaginer : DeepMind rend cela possible avec RT-2.

Transformateurs robotiques 1 (RT-1) c'était une merveille en soi, mais RT-2 va plus loin, affichant des capacités de généralisation améliorées et une compréhension sémantique et visuelle qui va au-delà des données robotiques auxquelles il a été exposé.

Raisonnement en chaîne

L'un des aspects les plus fascinants de RT-2 est sa capacité de raisonnement en chaîne. Il peut décider quel objet pourrait être utilisé comme marteau de fortune ou quel type de boisson convient le mieux à une personne fatiguée. Cette capacité de raisonnement profond pourrait révolutionner la façon dont nous interagissons avec les robots.

Et pire encore, vous pourriez encore demander à un robot de vous préparer un bon café pour retrouver un peu de clarté.

Mais comment DeepMind RT-2 contrôle-t-il un robot ?

La réponse réside dans la façon dont il a été formé. En fait, il utilise une représentation qui n'est pas sans rappeler les jetons de langue exploités par des modèles comme ChatGPT.

RT-2 a démontré des capacités émergentes étonnantes, telles que la compréhension des symboles, le raisonnement et la reconnaissance humaine. Des compétences qui montrent actuellement une amélioration de plus de 3x par rapport aux modèles précédents.

Avec RT-2, DeepMind non seulement montré que les modèles vision-langage peuvent être transformés en puissants modèles vision-langage-action, mais il a également ouvert la porte à un avenir dans lequel les robots peuvent raisonner, résoudre des problèmes et interpréter des informations pour effectuer un large éventail de tâches dans le monde réel. monde.

Et maintenant?

Dans un monde où l'intelligence artificielle et la robotique seront de plus en plus centrales, RT-2 nous montre que la prochaine évolution ne sera pas purement technique, mais « perceptuelle ». Les machines comprendront et répondront à nos besoins d’une manière que nous n’aurions jamais imaginée.

Si ce n’est qu’un début, qui sait ce que l’avenir nous réserve.

Gianluca Riccio, directeur créatif de Melancia adv, rédacteur et journaliste. Elle fait partie de l'Institut italien pour le futur, de la World Future Society et de H+. Depuis 2006, il dirige Futuroprossimo.it, la ressource italienne de futurologie.

Pour rendre compte des recherches, découvertes et inventions, contactez la rédaction ! Suivez Futuro Prossimo sur Whatsapp : nouvelles et mises à jour exclusives (gratuites).

FP sur Fatto Quotidiano
Alberto Robiati et Gianluca Riccio guident les lecteurs à travers des scénarios du futur : les opportunités, les risques et les possibilités dont nous disposons pour créer un avenir possible.

DeepMind présente RT-2 : des robots qui voient, apprennent et agissent

Robotica, Technologie

Partagez

L'évolution du RT-2

DeepMind RT-2, de la vision à l'action

Raisonnement en chaîne

Mais comment DeepMind RT-2 contrôle-t-il un robot ?

Et maintenant?

Une mystérieuse IA super puissante apparaît et disparaît immédiatement : s'agit-il d'un test GPT-5 ?

Armes autonomes, conférence de Vienne : "agir maintenant pour protéger l'humanité"

Arthrose, le test sanguin IA bat les rayons X et la prédit 10 ans plus tôt

Au-delà de la relativité : un « pépin cosmique » remet en cause 100 ans de physique

De la nature aux robots-escargots : des essaims de robots pour des tâches « tout-terrain »

Vos pensées au-delà de la vie : Goodbyememo fait ses adieux au numérique

Pensez-y : les animaux ont une conscience. Tous. Insectes inclus.

Les baigneurs en danger ? TY-3R, le drone sauveteur vole et nage pour les sauver