Google vient de présenter Gemini, sa nouvelle frontière en matière d'intelligence artificielle, avec une démonstration qui a stupéfié le monde. Une vidéo publiée sur YouTube montre l'extraordinaire capacité des Gémeaux à interpréter et à répondre aux stimuli visuels et verbaux.
Le test en apparence simple se transforme rapidement en une incroyable démonstration des capacités « presque humaines » de cette IA à comprendre et interagir avec le monde qui l’entoure.
Google Gemini : un bond en avant dans l'intelligence artificielle
L'émergence de Google Gemini (dont nous avions parlé en septembre dernier) dès les premières annonces) marque un tournant dans le paysage de l’intelligence artificielle. La capacité des Gémeaux à interpréter et à répondre à différents signaux visuels et verbaux surpasse tout ce que nous avons vu jusqu'à présent avec les technologies d'IA.
Il ne s’agit pas simplement d’une percée dans la reconnaissance visuelle ou la compréhension du langage naturel. Ce que vous voyez dans la démonstration est une intégration extrêmement transparente des deux capacités – quelque chose qui rapproche l’IA d’une véritable compréhension du contexte humain.
La démo Google Gemini : une fenêtre sur le futur
Tout d’abord, si vous l’avez manqué, vous DEVEZ le voir. Elle est là:
La démo commence avec un participant humain demandant à Gemini de décrire ce qu'il voit. La simple action de placer un Post-it et de tracer une ligne improvisée dessus est facilement interprétée par les Gémeaux. Mais c'est la suite du test qui révèle le véritable pouvoir des Gémeaux.
Avec le dessin évoluant vers une figure reconnaissable, un canard, Gemini identifie non seulement correctement l'objet, mais fournit également des détails sur l'environnement, démontrant une compréhension totale du contexte visuel.
Au-delà de la reconnaissance : interaction et traduction
L'intelligence de Google Gemini ne se limite pas à une simple interprétation visuelle. Lorsque le participant présente des jeux et des demandes de traduction, Gemini répond avec précision. Sa capacité à traduire « canard » dans différentes langues, à comprendre et à participer à des jeux simples, met en évidence un niveau d'interactivité et de polyvalence qui semblait auparavant l'apanage exclusif des humains.
L’application pratique d’une technologie comme Google Gemini ? Euh. Il est impossible d'en définir les limites. De la chirurgie à l’éducation, des applications domestiques aux industries créatives, les possibilités semblent infinies. Gemini pourrait révolutionner la façon dont nous interagissons avec la technologie, en rendant l’interface homme-machine plus intuitive, naturelle et efficace.
Oui, mais quand pourrons-nous l’utiliser ?
Après l'admiration sincère pour ce que nous avons vu dans la démo, sincérité pour sincérité, je dois aussi souligner que jusqu'à présent, le "gros" venant de Google a été peu. Barde, entraîné dans l'arène de la confrontation avec ChatGPT d'OpenAI e Claude d'Anthropic, a été présenté avec trop d'attentes. La technologie "sur le terrain" est inférieure à celle des concurrents (limitée au modèle de langage : d'autres IA comme celle de Deepmind d'excellents résultats arrivent). Et le fait que Google Gemini n'ait toujours pas de date de lancement officielle suscite une certaine frustration.
Peut-être que cela semble « trop avancé pour être vrai », peut-être est-ce parce que vous avez hâte de vous y prendre, mais le temps des démonstrations est révolu. La démo de Google Gemini promet de surmonter les limites actuelles des technologies d'IA : voyons-la donc en action.
Ne me laissez pas soupçonner que ce n’est qu’une autre façon de gagner du temps.
Modifier le 8/12/2023: Voici. Je ne le fais même pas exprès. Après l'insistance de nombreux utilisateurs, Google admet que la démo réelle de Gemini a été créée « à l'aide d'images fixes de films et de messages texte », plutôt que de laisser Gemini répondre à un dessin ou à un changement d'objets sur la table en temps réel, ou même le prédire. C'est beaucoup moins impressionnant que la vidéo voudrait vous le faire croire, et pire encore, l'absence de déclaration sur la méthode de saisie réelle rend la préparation de Gemini plutôt discutable, tout comme le comportement de Google.