Accueil Intelligence artificielle Apprentissage par renforcement entièrement autonome dans le monde réel avec applications à la manipulation mobile – The Berkeley Artificial Intelligence Research Blog

Apprentissage par renforcement entièrement autonome dans le monde réel avec applications à la manipulation mobile – The Berkeley Artificial Intelligence Research Blog

0
Apprentissage par renforcement entièrement autonome dans le monde réel avec applications à la manipulation mobile – The Berkeley Artificial Intelligence Research Blog



L’apprentissage par renforcement fournit un cadre conceptuel permettant aux agents autonomes d’apprendre de leur expérience, de la même manière que l’on pourrait dresser un animal de compagnie avec des friandises. Mais les applications pratiques de l’apprentissage par renforcement sont souvent loin d’être naturelles : au lieu d’utiliser l’apprentissage par le biais d’apprentissage par essais et erreurs en tentant réellement la tâche souhaitée, les applications d’apprentissage par renforcement typiques utilisent une phase de formation distincte (généralement simulée). Par exemple, AlphaGo n’a pas appris à jouer au Go en affrontant des milliers d’humains, mais plutôt en jouant contre lui-même en simulation. Bien que ce type d’entraînement simulé soit attrayant pour les jeux dont les règles sont parfaitement connues, son application à des domaines du monde réel tels que la robotique peut nécessiter une gamme d’approches complexes, telles que l’utilisation de données simuléesou instrumenter des environnements du monde réel de diverses manières pour rendre la formation réalisable dans des conditions de laboratoire. Peut-on plutôt concevoir des systèmes d’apprentissage par renforcement pour les robots qui leur permettent d’apprendre directement « sur le terrain », tout en effectuant la tâche qui leur est demandée ? Dans cet article de blog, nous discuterons de ReLMM, un système que nous avons développé et qui apprend à nettoyer une pièce directement avec un vrai robot via un apprentissage continu.






Nous évaluons notre méthode sur différentes tâches de difficulté variable. La tâche en haut à gauche comporte des taches blanches uniformes à ramasser sans obstacles, tandis que d’autres pièces contiennent des objets de formes et de couleurs diverses, des obstacles qui augmentent la difficulté de navigation et obscurcissent les objets et des tapis à motifs qui rendent difficile la vision des objets sur le sol.

Pour permettre une formation « sur le tas » dans le monde réel, la difficulté d’acquérir davantage d’expérience est prohibitive. Si nous pouvons faciliter la formation dans le monde réel, en rendant le processus de collecte de données plus autonome sans nécessiter de surveillance ou d’intervention humaine, nous pouvons bénéficier davantage de la simplicité des agents qui apprennent de l’expérience. Dans ce travail, nous concevons un système de formation de robot mobile « sur le terrain » pour le nettoyage en apprenant à saisir des objets dans différentes pièces.

Les gens ne naissent pas un jour et passent un entretien d’embauche le lendemain. Il existe de nombreux niveaux de tâches que les gens apprennent avant de postuler à un emploi, car nous commençons par les plus faciles et nous nous appuyons sur elles. Dans ReLMM, nous utilisons ce concept en permettant aux robots d’acquérir des compétences communes réutilisables, telles que la préhension, en encourageant d’abord le robot à donner la priorité à l’entraînement de ces compétences avant d’acquérir des compétences ultérieures, telles que la navigation. Apprendre de cette manière présente deux avantages pour la robotique. Le premier avantage est que lorsqu’un agent se concentre sur l’apprentissage d’une compétence, il est plus efficace dans la collecte de données sur la répartition locale de l’État pour cette compétence.


Cela est illustré dans la figure ci-dessus, où nous avons évalué la quantité d’expérience de préhension prioritaire nécessaire pour aboutir à une formation efficace à la manipulation mobile. Le deuxième avantage d’une approche d’apprentissage multi-niveaux est que nous pouvons inspecter les modèles formés pour différentes tâches et leur poser des questions telles que « pouvez-vous comprendre quelque chose maintenant », ce qui est utile pour la formation à la navigation que nous décrivons ensuite.


La formation à cette politique à plusieurs niveaux était non seulement plus efficace que l’apprentissage des deux compétences en même temps, mais elle permettait également au contrôleur saisissant d’informer la politique de navigation. Disposer d’un modèle qui estime l’incertitude quant à son succès (Les notres ci-dessus) peut être utilisé pour améliorer l’exploration de la navigation en sautant les zones sans objets à saisir, contrairement à Aucun bonus d’incertitude qui n’utilise pas ces informations. Le modèle peut également être utilisé pour réétiqueter les données pendant l’entraînement, de sorte que dans le cas malheureux où le modèle de préhension n’a pas réussi à saisir un objet à sa portée, la politique de préhension peut toujours fournir un signal en indiquant qu’un objet était là mais que le modèle de préhension était là. la politique n’a pas encore appris à l’appréhender. De plus, l’apprentissage de modèles modulaires présente des avantages techniques. La formation modulaire permet de réutiliser des compétences plus faciles à acquérir et peut permettre de construire des systèmes intelligents une pièce à la fois. Ceci est bénéfique pour de nombreuses raisons, notamment l’évaluation et la compréhension de la sécurité.


De nombreuses tâches robotiques que nous voyons aujourd’hui peuvent être résolues avec différents niveaux de succès à l’aide de contrôleurs conçus à la main. Pour notre tâche de nettoyage de salle, nous avons conçu un contrôleur conçu à la main qui localise les objets à l’aide du regroupement d’images et se tourne vers l’objet détecté le plus proche à chaque étape. Ce contrôleur conçu par des experts fonctionne très bien sur les chaussettes à billes visuellement saillantes et emprunte des chemins raisonnables autour des obstacles. mais il ne peut pas apprendre rapidement un chemin optimal pour collecter les objets et il a du mal à composer avec des pièces visuellement diverses.. Comme le montre la vidéo 3 ci-dessous, la politique scriptée est distraite par le tapis à motifs blancs tout en essayant de localiser davantage d’objets blancs à saisir.

1)
2)

3)
4)

Nous montrons une comparaison entre (1) notre politique au début de la formation (2) notre politique à la fin de la formation (3) la politique scriptée. Dans (4), nous pouvons voir les performances du robot s’améliorer avec le temps, et éventuellement dépasser la politique scriptée en matière de collecte rapide des objets dans la pièce.

Étant donné que nous pouvons faire appel à des experts pour coder ce contrôleur conçu à la main, quel est le but de l’apprentissage ? Une limitation importante des contrôleurs fabriqués à la main est qu’ils sont réglés pour une tâche particulière, par exemple saisir des objets blancs. Lorsque divers objets sont introduits, qui diffèrent par leur couleur et leur forme, l’accord initial peut ne plus être optimal. Plutôt que de nécessiter une ingénierie manuelle supplémentaire, notre méthode basée sur l’apprentissage est capable de s’adapter à diverses tâches en collectant sa propre expérience.

Cependant, la leçon la plus importante est que même si le contrôleur conçu à la main est capable, l’agent d’apprentissage finit par le surpasser avec suffisamment de temps. Ce processus d’apprentissage est lui-même autonome et s’effectue pendant que le robot effectue son travail, ce qui le rend relativement peu coûteux. Cela montre la capacité des agents d’apprentissage, qui peuvent également être considérés comme élaborant une manière générale d’effectuer un processus de « réglage manuel expert » pour tout type de tâche. Les systèmes d’apprentissage ont la capacité de créer l’intégralité de l’algorithme de contrôle du robot et ne se limitent pas à régler quelques paramètres dans un script. L’étape clé de ce travail permet à ces systèmes d’apprentissage du monde réel de collecter de manière autonome les données nécessaires au succès des méthodes d’apprentissage.

Cet article est basé sur l’article « Apprentissage par renforcement entièrement autonome dans le monde réel avec applications à la manipulation mobile », présenté au CoRL 2021. Vous pouvez trouver plus de détails dans notre papiersur notre site web et le sur le vidéo. Nous fournissons code pour reproduire nos expériences. Nous remercions Sergey Levine pour ses précieux commentaires sur ce billet de blog.

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici