[A version of this piece first appeared in TechCrunch’s robotics newsletter, Actuator. Subscribe here.]
Plus tôt ce mois-ci, l’équipe DeepMind de Google a lancé Open X-Embodiment, une base de données de fonctionnalités robotiques créée en collaboration avec 33 instituts de recherche. Les chercheurs impliqués ont comparé le système à ImageNet, la base de données historique fondée en 2009 qui héberge aujourd’hui plus de 14 millions d’images.
« Tout comme ImageNet a propulsé la recherche sur la vision par ordinateur, nous pensons qu’Open X-Embodiment peut faire de même pour faire progresser la robotique », notaient à l’époque les chercheurs Quan Vuong et Pannag Sanketi. « La création d’un ensemble de données de diverses démonstrations de robots est l’étape clé pour former un modèle généraliste capable de contrôler de nombreux types différents de robots, de suivre diverses instructions, d’effectuer un raisonnement de base sur des tâches complexes et de généraliser efficacement. »
Au moment de son annonce, Open X-Embodiment contenait plus de 500 compétences et 150 000 tâches rassemblées à partir de 22 incarnations de robots. Pas vraiment de chiffres ImageNet, mais c’est un bon début. DeepMind a ensuite entraîné son modèle RT-1-X sur les données et l’a utilisé pour entraîner des robots dans d’autres laboratoires, rapportant un taux de réussite de 50 % par rapport aux méthodes internes développées par les équipes.
Je l’ai probablement répété des dizaines de fois dans ces pages, mais c’est vraiment une période passionnante pour l’apprentissage robotique. J’ai discuté avec de nombreuses équipes abordant le problème sous différents angles avec une efficacité toujours croissante. Le règne du robot sur mesure est loin d’être terminé, mais nous avons certainement l’impression d’apercevoir un monde dans lequel le robot à usage général est une possibilité distincte.
La simulation constituera sans aucun doute une grande partie de l’équation, aux côtés de l’IA (y compris la variété générative). On a encore l’impression que certaines entreprises ont mis les bœufs avant la charrue ici lorsqu’il s’agit de construire du matériel pour des tâches générales, mais dans quelques années, qui sait ?
Vincent Vanhoucke est quelqu’un que j’essaie de cerner depuis un moment. Si j’étais disponible, il ne l’était pas. Navires dans la nuit et tout ça. Heureusement, nous avons finalement pu le faire fonctionner vers la fin de la semaine dernière.
Vanhoucke est nouveau dans le rôle de responsable de la robotique de Google DeepMind, après avoir pris ses fonctions en mai. Il travaille cependant dans l’entreprise depuis plus de 16 ans, plus récemment en tant que scientifique distingué pour Google AI Robotics. Tout compte fait, il pourrait bien être la meilleure personne à qui parler des ambitions robotiques de Google et de la manière dont elles sont nées.

Crédits images : Google
À quel moment de l’histoire de DeepMind l’équipe de robotique s’est-elle développée ?
À l’origine, je n’étais pas du côté DeepMind de la barrière. Je faisais partie de Google Research. Nous avons récemment fusionné avec les efforts de DeepMind. Donc, d’une certaine manière, mon implication dans DeepMind est extrêmement récente. Mais il existe une histoire plus longue de recherche en robotique chez Google DeepMind. Tout est parti de l’idée de plus en plus répandue selon laquelle la technologie de perception devenait vraiment très performante.
Une grande partie de la vision par ordinateur, du traitement audio et de tout le reste était vraiment en train de franchir un cap et de devenir presque un niveau humain. Nous commençons à nous demander : « D’accord, en supposant que cela continue au cours des prochaines années, quelles en seront les conséquences ? L’une des conséquences évidentes était que soudainement, avoir la robotique dans un environnement réel allait devenir une possibilité réelle. Être capable d’évoluer et d’effectuer des tâches dans un environnement quotidien reposait entièrement sur une perception vraiment très forte. Je travaillais initialement sur l’IA générale et la vision par ordinateur. J’ai également travaillé sur la reconnaissance vocale par le passé. J’ai vu l’écriture sur le mur et j’ai décidé de me tourner vers l’utilisation de la robotique comme prochaine étape de nos recherches.
Je crois comprendre qu’une grande partie de l’équipe Everyday Robots s’est retrouvée dans cette équipe. L’histoire de Google avec la robotique remonte bien plus loin. Cela fait 10 ans qu’Alphabet n’a pas réalisé toutes ces acquisitions [Boston Dynamics, etc.]. Il semble que de nombreuses personnes de ces sociétés aient intégré l’équipe de robotique existante de Google.
Une fraction importante de l’équipe est issue de ces acquisitions. C’était avant mon époque – j’étais très impliqué dans la vision par ordinateur et la reconnaissance vocale, mais nous avons encore beaucoup de ces gens. De plus en plus, nous sommes arrivés à la conclusion que l’ensemble du problème de la robotique était englobé dans le problème général de l’IA. Résoudre véritablement la partie intelligence était le facteur clé de tout processus significatif dans la robotique du monde réel. Nous avons concentré une grande partie de nos efforts sur la résolution du problème majeur à résoudre : la perception, la compréhension et le contrôle dans le contexte de l’IA générale.
Il semblait qu’une grande partie du travail effectué par Everyday Robots concernait l’IA générale ou l’IA générative. Le travail effectué par cette équipe est-il transféré à l’équipe de robotique DeepMind ?
Nous collaborons avec Everyday Robots depuis, je tiens à le dire, sept ans déjà. Même si nous étions deux équipes distinctes, nous entretenons des liens très, très profonds. En fait, l’une des choses qui nous a poussé à vraiment commencer à nous intéresser à la robotique à l’époque était une collaboration qui ressemblait un peu à un projet de skunkworks avec l’équipe Everyday Robots, où ils avaient un certain nombre de bras de robot qui traînaient. été interrompu. Il s’agissait d’une génération d’armes qui avait conduit à une nouvelle génération, et elles traînaient sans rien faire.
Nous avons décidé que ce serait amusant de ramasser ces armes, de les mettre toutes dans une pièce et de leur faire pratiquer et apprendre à saisir des objets. La notion même d’apprentissage d’un problème de compréhension n’était pas dans l’air du temps à l’époque. L’idée d’utiliser l’apprentissage automatique et la perception comme moyen de contrôler la préhension robotique n’avait pas encore été explorée. Lorsque les armes ont réussi, nous leur avons donné une récompense, et lorsqu’elles ont échoué, nous leur avons donné un coup de pouce.
Pour la première fois, nous avons utilisé l’apprentissage automatique et résolu essentiellement ce problème de compréhension généralisée, en utilisant l’apprentissage automatique et l’IA. C’était un moment éclair à l’époque. Il y avait vraiment quelque chose de nouveau là-bas. Cela a déclenché les deux enquêtes menées avec Everyday Robots, axées sur l’apprentissage automatique comme moyen de contrôler ces robots. Et aussi, du côté de la recherche, présenter beaucoup plus de robotique comme un problème intéressant pour appliquer toutes les techniques d’apprentissage profond de l’IA que nous avons pu si bien travailler dans d’autres domaines.

Crédits images : Esprit profond
Everyday Robots a-t-il été absorbé par votre équipe ?
Une fraction de l’équipe a été absorbée par mon équipe. Nous avons hérité de leurs robots et les utilisons toujours. À ce jour, nous continuons à développer la technologie sur laquelle ils ont vraiment été pionniers et sur laquelle ils travaillaient. L’ensemble de l’élan perdure avec une orientation légèrement différente de celle initialement envisagée par l’équipe. Nous nous concentrons beaucoup plus sur le renseignement que sur la construction de robots.
Vous avez mentionné que l’équipe a emménagé dans les bureaux d’Alphabet X. Y a-t-il quelque chose de plus profond là-dedans, en ce qui concerne la collaboration entre les équipes et le partage des ressources ?
C’est une décision très pragmatique. Ils disposent d’une bonne connexion Wi-Fi, d’une bonne alimentation et de beaucoup d’espace.
J’espère que tous les bâtiments de Google disposeront d’une bonne connexion Wi-Fi.
Vous l’espériez, n’est-ce pas ? Mais c’était une décision très simple de notre part d’emménager ici. Je dois dire qu’une grande partie de la décision a été qu’ils aient un bon café ici. Dans notre ancien bureau, la nourriture n’était pas aussi bonne et les gens commençaient à se plaindre. Il n’y a pas d’agenda caché là-dedans. Nous aimons travailler en étroite collaboration avec le reste de X. Je pense qu’il y a là beaucoup de synergies. Ils ont des roboticiens vraiment talentueux qui travaillent sur un certain nombre de projets. Nous avons des collaborations avec Intrinsic que nous aimons entretenir. Il est tout à fait logique pour nous d’être ici, et c’est un magnifique bâtiment.
Il y a un peu de chevauchement avec Intrinsic, en termes de ce qu’ils font avec leur plate-forme – des choses comme la robotique sans code et l’apprentissage robotique. Ils recoupent l’IA générale et générative.
Il est intéressant de voir comment la robotique a évolué dans tous les domaines, en étant très personnalisée et en s’appuyant sur un ensemble très différent d’expertise et de compétences. Dans une large mesure, notre objectif consiste à essayer de concrétiser la robotique à usage général, qu’elle soit appliquée à un environnement industriel ou davantage à un environnement domestique. Les principes qui le sous-tendent, portés par un noyau d’IA très puissant, sont très similaires. Nous repoussons vraiment les limites en essayant d’explorer comment nous pouvons prendre en charge un espace d’application aussi large que possible. C’est nouveau et excitant. C’est très nouveau. Il y a beaucoup à explorer dans l’espace.
J’aime demander aux gens à quel point ils pensent que nous sommes loin de ce que nous pouvons raisonnablement appeler la robotique à usage général.
Il existe une légère nuance dans la définition de la robotique à usage général. Nous nous concentrons vraiment sur les méthodes à usage général. Certaines méthodes peuvent être appliquées à la fois aux robots industriels ou domestiques ou aux robots de trottoir, avec tous ces différents modes de réalisation et facteurs de forme. Nous ne nous attendons pas à ce qu’il existe un mode de réalisation à usage général qui fasse tout pour vous, plus que si vous disposiez d’un mode de réalisation très adapté à votre problème. C’est bon. Nous pouvons rapidement l’affiner pour résoudre le problème que vous rencontrez en particulier. C’est donc une grande question : les robots à usage général verront-ils le jour ? C’est une chose sur laquelle beaucoup de gens émettent des hypothèses, si et quand cela se produira.
Jusqu’à présent, les robots sur mesure ont connu plus de succès. Je pense que, dans une certaine mesure, la technologie n’est pas là pour permettre la création de robots plus polyvalents. Que ce soit là où le modèle économique nous mènera est une très bonne question. Je ne pense pas que l’on puisse répondre à cette question tant que nous n’aurons pas davantage confiance dans la technologie qui la sous-tend. C’est ce que nous conduisons actuellement. Nous voyons de plus en plus de signes de vie – que des approches très générales qui ne dépendent pas d’une incarnation spécifique sont plausibles. La dernière chose que nous avons faite est ce projet RTX. Nous avons visité un certain nombre de laboratoires universitaires — je pense que nous avons maintenant 30 partenaires différents — et avons demandé à examiner leur tâche et les données qu’ils ont collectées. Tirons cela dans un référentiel commun de données, formons un grand modèle dessus et voyons ce qui se passe.

Crédits images : Esprit profond
Quel rôle l’IA générative jouera-t-elle en robotique ?
Je pense que cela va être très central. Il y a eu cette grande révolution des modèles linguistiques. Tout le monde a commencé à se demander si nous pouvions utiliser beaucoup de modèles de langage pour les robots, et je pense que cela aurait pu être très superficiel. Vous savez, « reprenons la mode du jour et voyons ce que nous pouvons en faire », mais cela s’est avéré extrêmement profond. La raison en est que, si vous y réfléchissez bien, les modèles linguistiques ne concernent pas vraiment le langage. Ils concernent le raisonnement de bon sens et la compréhension du monde quotidien. Ainsi, si un grand modèle linguistique sait que vous cherchez une tasse de café, vous pouvez probablement la trouver dans un placard d’une cuisine ou sur une table.
Poser une tasse de café sur une table est logique. Mettre une table au-dessus d’une tasse de café n’a aucun sens. Ce sont des faits simples comme ceux-là auxquels vous ne pensez pas vraiment, car ils sont tout à fait évidents pour vous. Il a toujours été très difficile de communiquer cela à un système incarné. Les connaissances sont vraiment très difficiles à coder, alors que ces grands modèles de langage possèdent ces connaissances et les codent d’une manière très accessible et que nous pouvons utiliser. Nous avons donc pu reprendre ce raisonnement de bon sens et l’appliquer à la planification des robots. Nous avons pu l’appliquer aux interactions robotiques, aux manipulations, aux interactions homme-robot, et avoir un agent qui a ce bon sens et qui peut raisonner sur des choses dans un environnement simulé, ainsi que la perception est vraiment au cœur du problème de la robotique.

Les différentes tâches que Gato a appris à accomplir.
La simulation joue probablement un rôle important dans la collecte de données à des fins d’analyse.
Ouais. C’est un ingrédient de tout cela. Le défi de la simulation est qu’il faut alors combler le fossé entre la simulation et la réalité. Les simulations sont une approximation de la réalité. Cela peut être très difficile à rendre très précis et très représentatif de la réalité. La physique d’un simulateur doit être bonne. Le rendu visuel de la réalité dans cette simulation doit être très bon. C’est en fait un autre domaine dans lequel l’IA générative commence à faire sa marque. Vous pouvez imaginer qu’au lieu d’avoir à exécuter un simulateur physique, vous générez simplement en utilisant la génération d’images ou un modèle génératif quelconque.
Tye Brady m’a dit récemment Amazon utilise la simulation pour générer des packages.
Cela a du sens. Et à l’avenir, je pense qu’au-delà de la simple génération d’actifs, vous pouvez imaginer générer des futurs. Imaginez ce qui se passerait si le robot effectuait une action ? Et vérifier qu’il fait réellement ce que vous vouliez et utiliser cela comme moyen de planifier l’avenir. C’est un peu comme le robot qui rêve, utilisant des modèles génératifs, au lieu de devoir le faire dans le monde réel.