lundi, décembre 4, 2023

Représentations d’objectifs pour le suivi des instructions


Par André He, Vivek Myers

L’un des objectifs de longue date du domaine de l’apprentissage robotique est de créer des agents généralistes capables d’effectuer des tâches pour les humains. Le langage naturel a le potentiel de devenir une interface facile à utiliser permettant aux humains de spécifier des tâches arbitraires, mais il est difficile de former des robots à suivre des instructions linguistiques. Des approches telles que le clonage comportemental conditionné par le langage (LCBC) entraînent les politiques à imiter directement les actions d’experts conditionnées par le langage, mais exigent que les humains annotent toutes les trajectoires de formation et se généralisent mal à travers les scènes et les comportements. Parallèlement, les récentes approches conditionnées par des objectifs fonctionnent bien mieux dans les tâches de manipulation générales, mais ne permettent pas une spécification facile des tâches pour les opérateurs humains. Comment pouvons-nous concilier la facilité de spécification des tâches grâce à des approches de type CBLT avec l’amélioration des performances de l’apprentissage conditionné par les objectifs ?

Conceptuellement, un robot qui suit des instructions nécessite deux capacités. Il doit ancrer l’enseignement de la langue dans l’environnement physique, puis être capable d’effectuer une séquence d’actions pour accomplir la tâche prévue. Ces capacités n’ont pas besoin d’être apprises de bout en bout uniquement à partir de trajectoires annotées par l’homme, mais peuvent plutôt être apprises séparément à partir des sources de données appropriées. Les données de langage visuel provenant de sources non robotiques peuvent aider à apprendre les bases du langage avec une généralisation à diverses instructions et scènes visuelles. Parallèlement, les trajectoires non étiquetées des robots peuvent être utilisées pour entraîner un robot à atteindre des états d’objectif spécifiques, même lorsqu’elles ne sont pas associées à des instructions linguistiques.

Le conditionnement sur des objectifs visuels (c’est-à-dire des images d’objectifs) offre des avantages complémentaires pour l’apprentissage des politiques. En tant que forme de spécification de tâche, les objectifs sont souhaitables pour une mise à l’échelle car ils peuvent être générés librement et réétiquetés a posteriori (tout état atteint le long d’une trajectoire peut être un objectif). Cela permet aux politiques d’être formées via le clonage comportemental conditionné par un objectif (GCBC) sur de grandes quantités de données de trajectoire non annotées et non structurées, y compris des données collectées de manière autonome par le robot lui-même. Les objectifs sont également plus faciles à établir puisque, en tant qu’images, ils peuvent être directement comparés pixel par pixel avec d’autres états.

Cependant, les objectifs sont moins intuitifs pour les utilisateurs humains que le langage naturel. Dans la plupart des cas, il est plus facile pour un utilisateur de décrire la tâche qu’il souhaite effectuer que de fournir une image d’objectif, ce qui nécessiterait probablement d’exécuter la tâche de toute façon pour générer l’image. En exposant une interface linguistique pour les politiques conditionnées par des objectifs, nous pouvons combiner les atouts de la spécification des objectifs et des tâches linguistiques pour permettre la création de robots généralistes pouvant être facilement commandés. Notre méthode, discutée ci-dessous, expose une telle interface pour généraliser à diverses instructions et scènes en utilisant des données de langage de vision, et améliorer ses compétences physiques en digérant de grands ensembles de données de robot non structurés.

Représentations d’objectifs pour le suivi des instructions

Le modèle GRIF se compose d’un encodeur de langage, d’un encodeur d’objectifs et d’un réseau de politiques. Les encodeurs mappent respectivement les instructions de langage et les images d’objectif dans un espace de représentation de tâches partagé, qui conditionne le réseau politique lors de la prédiction des actions. Le modèle peut effectivement être conditionné soit par des instructions linguistiques, soit par des images d’objectifs pour prédire les actions, mais nous utilisons principalement la formation conditionnée par les objectifs comme moyen d’améliorer le cas d’utilisation conditionné par le langage.

Notre approche, Représentations d’objectifs pour le suivi des instructions (GRIF), forme conjointement un langage et une politique conditionnée par des objectifs avec des représentations de tâches alignées. Notre idée clé est que ces représentations, alignées sur les modalités du langage et des objectifs, nous permettent de combiner efficacement les avantages d’un apprentissage conditionné par les objectifs avec une politique conditionnée par le langage. Les politiques apprises sont ensuite capables de se généraliser à travers la langue et les scènes après une formation sur des données de démonstration pour la plupart non étiquetées.

Nous avons formé GRIF sur une version du Ensemble de données Bridge-v2 contenant 7 000 trajectoires de démonstration étiquetées et 47 000 trajectoires non étiquetées dans un cadre de manipulation de cuisine. Étant donné que toutes les trajectoires de cet ensemble de données ont dû être annotées manuellement par des humains, le fait de pouvoir utiliser directement les 47 000 trajectoires sans annotation améliore considérablement l’efficacité.

Pour apprendre des deux types de données, GRIF est formé conjointement avec le clonage comportemental conditionné par le langage (LCBC) et le clonage comportemental conditionné par un objectif (GCBC). L’ensemble de données étiqueté contient à la fois des spécifications de tâches de langage et d’objectif, nous l’utilisons donc pour superviser à la fois les prédictions conditionnées par le langage et les objectifs (c’est-à-dire LCBC et GCBC). L’ensemble de données non étiqueté contient uniquement des objectifs et est utilisé pour GCBC. La différence entre LCBC et GCBC réside simplement dans la sélection de la représentation de la tâche à partir de l’encodeur correspondant, qui est transmise à un réseau de politiques partagé pour prédire les actions.

En partageant le réseau politique, nous pouvons nous attendre à une certaine amélioration grâce à l’utilisation de l’ensemble de données non étiquetées pour une formation conditionnée par des objectifs. Cependant, GRIF permet un transfert beaucoup plus fort entre les deux modalités en reconnaissant que certaines instructions du langage et images d’objectif spécifient le même comportement. En particulier, nous exploitons cette structure en exigeant que les représentations du langage et des objectifs soient similaires pour la même tâche sémantique. En supposant que cette structure soit valable, les données non étiquetées peuvent également bénéficier à la politique conditionnée par le langage puisque la représentation du but se rapproche de celle de l’instruction manquante.

Alignement grâce à l’apprentissage contrasté

Nous alignons explicitement les représentations entre les tâches conditionnées par un objectif et celles conditionnées par le langage sur l’ensemble de données étiqueté grâce à un apprentissage contrastif.

Puisque le langage décrit souvent un changement relatif, nous choisissons d’aligner les représentations des paires état-objectif avec l’enseignement du langage (par opposition au simple objectif avec le langage). Empiriquement, cela rend également les représentations plus faciles à apprendre puisqu’elles peuvent omettre la plupart des informations contenues dans les images et se concentrer sur le passage de l’état à l’objectif.

Nous apprenons cette structure d’alignement grâce à un objectif infoNCE sur les instructions et les images de l’ensemble de données étiqueté. Nous formons des encodeurs d’images et de texte doubles en effectuant un apprentissage contrasté sur des paires correspondantes de représentations de langage et d’objectif. L’objectif encourage une forte similarité entre les représentations d’une même tâche et une faible similarité pour d’autres, où les exemples négatifs sont échantillonnés à partir d’autres trajectoires.

Lors de l’utilisation d’un échantillonnage négatif naïf (uniforme par rapport au reste de l’ensemble de données), les représentations apprises ignoraient souvent la tâche réelle et alignaient simplement les instructions et les objectifs faisant référence aux mêmes scènes. Pour utiliser la politique dans le monde réel, il n’est pas très utile d’associer le langage à une scène ; nous en avons plutôt besoin pour lever l’ambiguïté entre les différentes tâches dans la même scène. Ainsi, nous utilisons une stratégie d’échantillonnage négatif dur, dans laquelle jusqu’à la moitié des négatifs sont échantillonnés à partir de différentes trajectoires dans la même scène.

Naturellement, cette configuration d’apprentissage contrastée taquine les modèles de langage de vision pré-entraînés comme CLIP. Ils démontrent une capacité efficace de généralisation à zéro et à quelques coups pour les tâches de langage visuel et offrent un moyen d’incorporer les connaissances issues de la pré-formation à l’échelle Internet. Cependant, la plupart des modèles de langage visuel sont conçus pour aligner une seule image statique avec sa légende sans la possibilité de comprendre les changements dans l’environnement, et ils fonctionnent mal lorsqu’ils doivent prêter attention à un seul objet dans des scènes encombrées.

Pour résoudre ces problèmes, nous concevons un mécanisme permettant d’adapter et d’affiner CLIP pour aligner les représentations de tâches. Nous modifions l’architecture CLIP afin qu’elle puisse fonctionner sur une paire d’images combinées avec une fusion précoce (empilée par canal). Cela s’avère être une initialisation capable de coder des paires d’images d’état et d’objectif, et qui est particulièrement efficace pour préserver les avantages de CLIP avant l’entraînement.

Résultats de la politique des robots

Pour notre résultat principal, nous évaluons la politique GRIF dans le monde réel sur 15 tâches réparties sur 3 scènes. Les instructions sont choisies pour être un mélange d’instructions bien représentées dans les données d’entraînement et d’instructions nouvelles qui nécessitent un certain degré de généralisation compositionnelle. L’une des scènes présente également une combinaison inédite d’objets.

Nous comparons le GRIF à la CBLT simple et à des lignes de base plus solides inspirées de travaux antérieurs comme LangLfP et BC-Z. LLfP correspond à une formation conjointe avec la LCBC et la GCBC. BC-Z est une adaptation de la méthode homonyme à notre contexte, où nous nous entraînons sur LCBC, GCBC et un simple terme d’alignement. Il optimise la perte de distance cosinusoïdale entre les représentations de tâches et n’utilise pas de pré-entraînement en langage image.

Ces politiques étaient susceptibles de connaître deux principaux modes d’échec. Ils peuvent ne pas comprendre les instructions linguistiques, ce qui les amène à tenter une autre tâche ou à n’effectuer aucune action utile. Lorsque les bases linguistiques ne sont pas solides, les politiques peuvent même lancer une tâche involontaire après avoir accompli la bonne tâche, puisque l’instruction originale est hors contexte.

Exemples de pannes de mise à la terre

échec de mise à la terre 1

« Mettez le champignon dans le pot en métal »

échec de mise à la terre 2

« posez la cuillère sur la serviette »

échec de mise à la terre 3

« Mettez le poivron jaune sur le torchon »

échec de mise à la terre 4

« Mettez le poivron jaune sur le torchon »

L’autre mode d’échec est l’échec de la manipulation des objets. Cela peut être dû à une prise manquante, à un mouvement imprécis ou à la libération d’objets au mauvais moment. Nous notons qu’il ne s’agit pas de défauts inhérents à la configuration du robot, car une politique GCBC formée sur l’ensemble de données peut systématiquement réussir sa manipulation. Ce mode d’échec indique plutôt généralement une inefficacité dans l’exploitation des données conditionnées par les objectifs.

Exemples d’échecs de manipulation

échec de manipulation 1

« déplacez le poivron à gauche de la table »

échec de manipulation 2

« mettez le poivron dans la poêle »

échec de manipulation 3

« déplacez la serviette à côté du micro-ondes »

En comparant les niveaux de référence, ils ont chacun souffert de ces deux modes de défaillance à des degrés différents. LCBC s’appuie uniquement sur le petit ensemble de données de trajectoire étiquetées, et sa faible capacité de manipulation l’empêche d’accomplir des tâches. LLfP forme conjointement la politique sur les données étiquetées et non étiquetées et montre une capacité de manipulation considérablement améliorée de la CBLT. Il atteint des taux de réussite raisonnables pour les instructions courantes, mais ne parvient pas à ancrer les instructions plus complexes. La stratégie d’alignement de BC-Z améliore également la capacité de manipulation, probablement parce que l’alignement améliore le transfert entre les modalités. Cependant, sans sources de données externes en langage de vision, il a encore du mal à se généraliser à de nouvelles instructions.

GRIF présente la meilleure généralisation tout en ayant de fortes capacités de manipulation. Il est capable d’ancrer les instructions linguistiques et d’exécuter la tâche même lorsque de nombreuses tâches distinctes sont possibles dans la scène. Nous montrons ci-dessous quelques déploiements et les instructions correspondantes.

Déploiements de politiques à partir de GRIF

déploiement 1

« déplacez la casserole vers l’avant »

déploiement 2

« mettez le poivron dans la poêle »

déploiement 3

« posez le couteau sur le tissu violet »

déploiement 4

« posez la cuillère sur la serviette »

Conclusion

GRIF permet à un robot d’utiliser de grandes quantités de données de trajectoire non étiquetées pour apprendre des politiques conditionnées par un objectif, tout en fournissant une « interface linguistique » à ces politiques via des représentations de tâches alignées sur le langage et l’objectif. Contrairement aux méthodes antérieures d’alignement langage-image, nos représentations alignent les changements d’état sur le langage, ce qui, selon nous, conduit à des améliorations significatives par rapport aux objectifs d’alignement image-langage standard de style CLIP. Nos expériences démontrent que notre approche peut exploiter efficacement des trajectoires robotiques non étiquetées, avec de grandes améliorations des performances par rapport aux lignes de base et aux méthodes qui utilisent uniquement les données annotées par le langage.

Notre méthode présente un certain nombre de limites qui pourraient être abordées dans des travaux futurs. GRIF n’est pas bien adapté aux tâches pour lesquelles les instructions en disent plus sur la manière de réaliser la tâche que sur ce qu’il faut faire (par exemple, « versez l’eau lentement ») ; de telles instructions qualitatives peuvent nécessiter d’autres types de pertes d’alignement qui prennent en compte les étapes intermédiaires de la tâche. exécution. GRIF suppose également que toutes les bases du langage proviennent de la partie de notre ensemble de données qui est entièrement annotée ou d’un VLM pré-entraîné. Une direction intéressante pour les travaux futurs consisterait à étendre notre perte d’alignement pour utiliser les données vidéo humaines afin d’apprendre une sémantique riche à partir de données à l’échelle d’Internet. Une telle approche pourrait ensuite utiliser ces données pour améliorer les bases du langage en dehors de l’ensemble de données du robot et permettre des politiques de robot largement généralisables pouvant suivre les instructions de l’utilisateur.


Cet article est basé sur l’article suivant :




Blog BAIR
est le blog officiel du laboratoire de recherche sur l’intelligence artificielle de Berkeley (BAIR).

BAIR Blog est le blog officiel du laboratoire de recherche sur l’intelligence artificielle de Berkeley (BAIR).

Related Articles

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici

Latest Articles