mardi, novembre 28, 2023

Une méthode plus simple pour apprendre à contrôler un robot | Actualités du MIT



Des chercheurs du MIT et de l’Université de Stanford ont conçu une nouvelle approche d’apprentissage automatique qui pourrait être utilisée pour contrôler un robot, tel qu’un drone ou un véhicule autonome, de manière plus efficace et efficiente dans des environnements dynamiques où les conditions peuvent changer rapidement.

Cette technique pourrait aider un véhicule autonome à apprendre à compenser les routes glissantes pour éviter de déraper, permettre à un robot en vol libre de remorquer différents objets dans l’espace ou permettre à un drone de suivre de près un skieur alpin malgré les vents violents. .

L’approche des chercheurs intègre certaines structures de la théorie du contrôle dans le processus d’apprentissage d’un modèle de manière à aboutir à une méthode efficace de contrôle de dynamiques complexes, telles que celles provoquées par les impacts du vent sur la trajectoire d’un véhicule volant. Une façon de considérer cette structure est de la considérer comme un indice qui peut aider à guider la manière de contrôler un système.

« L’objectif de notre travail est d’apprendre la structure intrinsèque de la dynamique du système qui peut être exploitée pour concevoir des contrôleurs plus efficaces et plus stabilisants », explique Navid Azizan, professeur adjoint Esther et Harold E. Edgerton au département de génie mécanique du MIT et à l’Institut des données, des systèmes et de la société (IDSS), et membre du Laboratoire des systèmes d’information et de décision (LIDS). « En apprenant conjointement la dynamique du système et ces structures uniques orientées contrôle à partir des données, nous sommes en mesure de créer naturellement des contrôleurs qui fonctionnent beaucoup plus efficacement dans le monde réel. »

En utilisant cette structure dans un modèle appris, la technique des chercheurs extrait immédiatement un contrôleur efficace du modèle, contrairement à d’autres méthodes d’apprentissage automatique qui nécessitent qu’un contrôleur soit dérivé ou appris séparément avec des étapes supplémentaires. Grâce à cette structure, leur approche est également capable d’apprendre un contrôleur efficace en utilisant moins de données que les autres approches. Cela pourrait aider leur système de contrôle basé sur l’apprentissage à atteindre de meilleures performances plus rapidement dans des environnements en évolution rapide.

« Ce travail tente de trouver un équilibre entre l’identification de la structure de votre système et le simple apprentissage d’un modèle à partir de données », explique l’auteur principal. Spencer M. Richards, étudiant diplômé à l’Université de Stanford. « Notre approche s’inspire de la manière dont les roboticiens utilisent la physique pour dériver des modèles plus simples pour les robots. L’analyse physique de ces modèles produit souvent une structure utile à des fins de contrôle – une structure que vous pourriez manquer si vous essayiez simplement d’adapter naïvement un modèle aux données. Au lieu de cela, nous essayons d’identifier une structure tout aussi utile à partir de données qui indiquent comment mettre en œuvre votre logique de contrôle.

Auteurs supplémentaires du papier sont Jean-Jacques Slotine, professeur de génie mécanique et de sciences du cerveau et cognitives au MIT, et Marco Pavone, professeur agrégé d’aéronautique et d’astronautique à Stanford. La recherche sera présentée à la Conférence internationale sur l’apprentissage automatique (ICML).

Apprendre un contrôleur

Déterminer la meilleure façon de contrôler un robot pour accomplir une tâche donnée peut être un problème difficile, même lorsque les chercheurs savent comment modéliser tout ce qui concerne le système.

Un contrôleur est la logique qui permet à un drone de suivre une trajectoire souhaitée, par exemple. Ce contrôleur indiquerait au drone comment ajuster les forces de son rotor pour compenser l’effet des vents qui peuvent le faire sortir d’une trajectoire stable pour atteindre son objectif.

Ce drone est un système dynamique, un système physique qui évolue avec le temps. Dans ce cas, sa position et sa vitesse changent au fur et à mesure qu’il traverse l’environnement. Si un tel système est suffisamment simple, les ingénieurs peuvent en dériver un contrôleur manuellement.

La modélisation manuelle d’un système capture intrinsèquement une certaine structure basée sur la physique du système. Par exemple, si un robot était modélisé manuellement à l’aide d’équations différentielles, celles-ci saisiraient la relation entre la vitesse, l’accélération et la force. L’accélération est le taux de variation de la vitesse au fil du temps, qui est déterminé par la masse et les forces appliquées au robot.

Mais souvent, le système est trop complexe pour être modélisé exactement à la main. Les effets aérodynamiques, comme la façon dont le vent tourbillonnant pousse un véhicule volant, sont notoirement difficiles à déduire manuellement, explique Richards. Les chercheurs prendraient plutôt des mesures de la position, de la vitesse et de la vitesse du rotor du drone au fil du temps, et utiliseraient l’apprentissage automatique pour adapter un modèle de ce système dynamique aux données. Mais ces approches n’apprennent généralement pas une structure basée sur le contrôle. Cette structure est utile pour déterminer la meilleure façon de régler les vitesses du rotor pour diriger le mouvement du drone au fil du temps.

Une fois qu’elles ont modélisé le système dynamique, de nombreuses approches existantes utilisent également les données pour apprendre un contrôleur distinct pour le système.

« D’autres approches qui tentent d’apprendre la dynamique et un contrôleur à partir de données en tant qu’entités distinctes sont un peu détachées philosophiquement de la façon dont nous le faisons habituellement pour des systèmes plus simples. Notre approche rappelle davantage la dérivation manuelle de modèles à partir de la physique et leur lien avec le contrôle », explique Richards.

Identifier la structure

L’équipe du MIT et de Stanford a développé une technique qui utilise l’apprentissage automatique pour apprendre le modèle dynamique, mais de telle manière que le modèle ait une structure prescrite utile pour contrôler le système.

Grâce à cette structure, ils peuvent extraire un contrôleur directement du modèle dynamique, plutôt que d’utiliser des données pour apprendre un modèle entièrement distinct pour le contrôleur.

« Nous avons constaté qu’au-delà de l’apprentissage de la dynamique, il est également essentiel d’apprendre la structure orientée contrôle qui prend en charge une conception efficace des contrôleurs. Notre approche d’apprentissage des factorisations de coefficients dépendant de l’état de la dynamique a surpassé les lignes de base en termes d’efficacité des données et de capacité de suivi, s’avérant efficace dans le contrôle efficace et efficient de la trajectoire du système », explique Azizan.

Lorsqu’ils ont testé cette approche, leur contrôleur a suivi de près les trajectoires souhaitées, dépassant ainsi toutes les méthodes de base. Le contrôleur extrait de leur modèle appris correspondait presque aux performances d’un contrôleur de vérité terrain, construit en utilisant la dynamique exacte du système.

« En faisant des hypothèses plus simples, nous avons obtenu quelque chose qui a réellement mieux fonctionné que d’autres approches de base complexes », ajoute Richards.

Les chercheurs ont également constaté que leur méthode était efficace en matière de données, ce qui signifie qu’elle atteignait des performances élevées même avec peu de données. Par exemple, il pourrait modéliser efficacement un véhicule à rotor hautement dynamique en utilisant seulement 100 points de données. Les méthodes utilisant plusieurs composants appris ont vu leurs performances chuter beaucoup plus rapidement avec des ensembles de données plus petits.

Cette efficacité pourrait rendre leur technique particulièrement utile dans les situations où un drone ou un robot doit apprendre rapidement dans des conditions en évolution rapide.

De plus, leur approche est générale et pourrait être appliquée à de nombreux types de systèmes dynamiques, depuis les bras robotiques jusqu’aux engins spatiaux en vol libre fonctionnant dans des environnements à faible gravité.

À l’avenir, les chercheurs souhaitent développer des modèles plus interprétables physiquement et capables d’identifier des informations très spécifiques sur un système dynamique, explique Richards. Cela pourrait conduire à des contrôleurs plus performants.

« Malgré son omniprésence et son importance, le contrôle par rétroaction non linéaire reste un art, ce qui le rend particulièrement adapté aux méthodes basées sur les données et l’apprentissage. Cet article apporte une contribution significative à ce domaine en proposant une méthode qui apprend conjointement la dynamique du système, un contrôleur et une structure orientée contrôle », explique Nikolai Matni, professeur adjoint au Département d’ingénierie électrique et des systèmes de l’Université de Pennsylvanie. qui n’a pas participé à ce travail. « Ce que j’ai trouvé particulièrement passionnant et convaincant, c’est l’intégration de ces composants dans un algorithme d’apprentissage commun, de telle sorte que la structure orientée contrôle agit comme un biais inductif dans le processus d’apprentissage. Le résultat est un processus d’apprentissage efficace en matière de données qui génère des modèles dynamiques dotés d’une structure intrinsèque permettant un contrôle efficace, stable et robuste. Même si les contributions techniques de cet article sont excellentes en elles-mêmes, c’est cette contribution conceptuelle que je considère comme la plus passionnante et la plus significative.

Cette recherche est soutenue en partie par la NASA University Leadership Initiative et le Conseil de recherches en sciences naturelles et en génie du Canada.

Related Articles

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici

Latest Articles