in

Google lance Gemini 2.5 : l’IA qui navigue à ta place

Découverte de Gemini 2.5 Computer Use

Récemment, une annonce a suscité l’intérêt des passionnés de technologie en matière de services informatiques. Il s’agit de la version préliminaire de Gemini 2.5 Computer Use, un modèle linguistique développé par une grande entreprise technologique. Ce modèle permet aux agents d’intelligence artificielle (IA) d’interagir directement avec des interfaces graphiques, telles que des formulaires web ou des applications mobiles. Qu’est-ce que cela implique pour les utilisateurs au quotidien ? Voyons cela de plus près.

Fonctionnalités clés de Gemini 2.5 Computer Use

Avec Gemini 2.5 Computer Use, l’IA est capable d’effectuer des actions sur des interfaces visuelles, comme naviguer sur internet, cliquer sur des boutons ou remplir des formulaires. Imaginez une situation où vous devez réserver votre prochain voyage en ligne, mais que vous n’avez pas envie de passer du temps à entrer vos informations personnelles. Grâce à cette technologie, vous pourriez demander à l’IA de réaliser ces tâches à votre place, vous laissant ainsi le temps pour d’autres activités.

Exemples concrets d’utilisation

Imaginez recevoir une notification de votre réserve au restaurant et, au lieu de taper chaque détail, vous pourriez demander à l’IA de réserver une table. Ce modèle scrute ce qu’il voit à l’écran et se réfère à un historique de vos actions. Avant d’exécuter des commandes, comme l’envoi de informations sensibles ou la confirmation d’un achat, il vous sollicitera pour valider les démarches. Cela pose un cadre de sécurité non négligeable.

Cette approche ne se limite pas à des actes simples. Prenons l’exemple d’un professionnel occupé qui doit gérer son emploi du temps chargé. Avec Gemini 2.5 Computer Use, il serait en mesure de demander à l’IA d’organiser des réunions, de filtrer des emails importants, ou même de gérer des documents sans intervention manuelle.

Comment fonctionne ce modèle ?

La version accessible via l’API s’active grâce à la fonction computer_use. Cela commence par une demande de l’utilisateur, souvent accompagnée d’une capture d’écran de l’environnement. Ce modèle, optimisé pour les navigateurs web, est capable de fonctionner à partir d’appareils mobiles également. Un aspect fascinant est que des démonstrations en temps réel ont été mises en ligne pour montrer les capacités de Gemini.

Exemples de démonstration

Une première vidéo montre comment le modèle peut récupérer des données sur un site web pour gérer des rendez-vous dans un spa pour animaux. On y observe le passage entre deux pages, l’extraction de données en fonction de la localisation, et le remplissage automatique de champs. Une autre démonstration illustre l’organisation de tâches en utilisant un tableau de notes. L’intelligence artificielle interprète visuellement le tableau, classe les notes et les réorganise selon des catégories définies. C’est assez impressionnant de voir ce que la technologie peut accomplir.

Les limites du modèle actuel

Malgré ses performances intéressantes, Gemini 2.5 Computer Use n’a pas encore la capacité de gérer des systèmes d’exploitation complets pour effectuer des tâches plus complexes. Cela soulève des questions sur sa future évolution. Existe-t-il des risques liés à la vie privée et à la sécurité qui pourraient freiner l’expansion de ces capacités, notamment en Europe ? Il semble que des considérations réglementaires pourraient influencer ce domaine.

Disponibilité et accès

Pour ceux qui s’intéressent à tester cet outil, il est désormais accessible via l’API de Gemini sur des plateformes telles que Google AI Studio et Vertex AI. Gardez à l’esprit qu’étant en version préliminaire, il pourrait y avoir des bugs inhérents à son utilisation. C’est l’occasion de découvrir un nouvel outil qui pourrait transformer la manière dont nous interagissons avec la technologie dans notre quotidien.

Alors, que pensez-vous des progrès réalisés par Gemini 2.5 Computer Use ? Avez-vous hâte de voir comment cela pourrait simplifier vos tâches quotidiennes ?

John Ternus serait le successeur de Tim Cook en tant que PDG d’Apple

iOS 26.1 modifie son alarme pour éviter que tu ne te rendormes