Un petit drone effectue un vol d’essai à travers un espace rempli de cylindres en carton placés au hasard agissant comme remplaçants pour les arbres, les personnes ou les buildings. L’algorithme contrôlant le drone a été formé sur un millier de parcours simulés chargés d’obstacles, mais il n’en a jamais vu un comme celui-ci. Pourtant, neuf fois sur 10, l’avion de la taille d’une pinte évite tous les obstructions sur son passage.



Cette expérimentation est un terrain d’essai pour un défi majeur de la robotique moderne: la capacité à garantir la sécurité et le succès de robots automatisés opérant dans des environnements nouveaux. Alors que les ingénieurs se tournent de furthermore en moreover vers les méthodes d’apprentissage automatique pour développer des robots adaptables, de nouveaux travaux des chercheurs de l’Université de Princeton progressent sur ces garanties pour les robots dans des contextes avec divers sorts d’obstacles et de contraintes.

L'apprentissage automatique garantit les performances des robots en territoire inconnu

« Au cours de la dernière décennie, il y a eu énormément d’enthousiasme et de progrès autour de l’apprentissage automatique dans le contexte de la robotique, principalement parce qu’il vous permet de gérer des entrées sensorielles riches », comme celles de la caméra d’un robotic, et de cartographier ces entrées complexes aux actions, a déclaré Anirudha Majumdar, professeur adjoint de génie mécanique et aérospatial à Princeton.



Cependant, les algorithmes de contrôle de robot basés sur l’apprentissage automatique courent le risque de surajustement de leurs données d’entraînement, ce qui peut rendre les algorithmes moins efficaces lorsqu’ils rencontrent des entrées différentes de celles sur lesquelles ils ont été formés. Le Clever Robotic Motion Lab de Majumdar a relevé ce défi en élargissant la gamme d’outils disponibles pour la formation des politiques de contrôle des robots et en quantifiant le succès et la sécurité probables des robots fonctionnant dans des environnements nouveaux.

Dans trois nouveaux content articles, les chercheurs ont adapté des cadres d’apprentissage automatique d’autres domaines au domaine de la locomotion et de la manipulation de robots. Ils se sont tournés vers la théorie de la généralisation, qui est généralement utilisée dans des contextes qui mappent une seule entrée sur une seule sortie Les nouvelles méthodes sont parmi les premières à appliquer la théorie de la généralisation à la tâche moreover complexe de garantir les performances des robots dans des contextes inconnus. Alors que d’autres approches ont fourni de telles garanties sous des hypothèses moreover restrictives, les méthodes de l’équipe offrent des garanties furthermore largement applicables sur les performances dans des environnements nouveaux, a déclaré Majumdar.

Dans le premier write-up, une preuve de principe pour l’application des cadres d’apprentissage automatique, l’équipe a testé leur approche dans des simulations comprenant un véhicule à roues traversant un espace rempli d’obstacles et un bras robotique saisissant des objets sur une desk. Ils ont également validé la strategy en évaluant l’évitement d’obstacles d’un petit drone appelé Parrot Swing (une combinaison de quadricoptère et d’avion à voilure fixe) alors qu’il volait dans un couloir de 60 pieds de extensive parsemé de cylindres en carton. Le taux de réussite garanti de la politique de contrôle du drone était de 88,4% et il a évité les road blocks dans 18 des 20 essais (90%).

Le travail, publié le 3 octobre dans l’International Journal of Robotics Exploration, a été co-écrit par Majumdar Alec Farid, étudiant diplômé en génie mécanique et aérospatial et Anoopkumar Sonar, un concentrateur informatique de la classe 2021 de Princeton.

Lorsque vous appliquez des techniques d’apprentissage automatique d’autres domaines à la robotique, a déclaré Farid, « il y a beaucoup d’hypothèses spéciales que vous devez satisfaire, et l’une d’elles est de dire à quel issue les environnements que vous vous attendez à voir sont similaires aux environnements de votre politique. En plus de montrer que nous pouvons faire cela dans un environnement robotique, nous nous sommes également attachés à essayer d’élargir les sorts d’environnements pour lesquels nous pourrions fournir une garantie.  »

« Les varieties de garanties que nous pouvons offrir varient d’environ 80% à 95% de taux de réussite sur les nouveaux environnements, en fonction de la tâche spécifique, mais si vous déployez [an unmanned aerial vehicle] dans un environnement réel, alors 95% ne sont probablement pas assez bons « , a déclaré Majumdar. » Je vois cela comme l’un des furthermore grands défis, et un sur lequel nous travaillons activement.  »

Pourtant, les approches de l’équipe représentent des progrès indispensables en matière de garanties de généralisation pour les robots fonctionnant dans des environnements invisibles, a déclaré Hongkai Dai, chercheur principal au Toyota Research Institute de Los Altos, en Californie.

« Ces garanties sont primordiales pour de nombreuses programs critiques pour la sécurité, telles que les voitures autonomes et les drones autonomes, où l’ensemble de formation ne peut pas couvrir tous les scénarios possibles », a déclaré Dai, qui n’était pas impliqué dans la recherche. « La garantie nous indique à quel issue il est possible qu’une politique puisse encore fonctionner raisonnablement bien dans des cas invisibles, et établit donc la confiance dans la politique, où l’enjeu de l’échec est trop élevé. »

Dans deux autres content articles, qui seront présentés le 18 novembre lors de la conférence virtuelle sur l’apprentissage des robots, les chercheurs ont examiné des améliorations supplémentaires pour rapprocher les politiques de contrôle des robots des garanties qui seraient nécessaires pour un déploiement dans le monde réel. Un report utilisait l’apprentissage par imitation, dans lequel un « expert » humain fournit des données d’entraînement en guidant manuellement un robot simulé pour ramasser divers objets ou se déplacer à travers différents espaces avec des obstacles. Cette approche peut améliorer le succès des politiques de contrôle basées sur l’apprentissage automatique.

Pour fournir les données de formation, l’auteur principal Allen Ren, un étudiant diplômé en génie mécanique et aérospatial, a utilisé une souris d’ordinateur 3D pour contrôler un bras robotique simulé chargé de saisir et de soulever des tasses à boire de différentes tailles, formes et matériaux. D’autres expériences d’apprentissage par imitation impliquaient le bras poussant une boîte sur une table et une simulation d’un robotic à roues naviguant autour de meubles dans un environnement comme à la maison.

Les chercheurs ont déployé les politiques apprises des tâches de saisie et de poussée de boîtes sur un bras robotique du laboratoire, qui a pu ramasser 25 tasses différentes en saisissant leurs bords entre ses deux pinces en forme de doigts – sans tenir la poignée. comme le ferait un humain. Dans l’exemple de l’encadrement, la politique a obtenu 93% de succès sur les tâches additionally faciles et 80% sur les tâches in addition difficiles.

a déclaré Ren puis nous avons un contrôleur qui déplace le bras vers les emplacements souhaités en fonction de la sortie du modèle. »

Un troisième article a démontré le développement de planificateurs basés sur la eyesight qui fournissent des garanties aux robots volants ou marcheurs pour effectuer des séquences de mouvements planifiées dans divers environnements. La création de politiques de contrôle pour les mouvements planifiés a posé un nouveau problème d’échelle – un besoin d’optimiser les politiques basées sur la eyesight avec des milliers, plutôt que des centaines, de proportions.

« Cela nécessitait de proposer de nouveaux outils algorithmiques pour pouvoir s’attaquer à cette dimensionnalité tout en étant able de donner de solides garanties de généralisation », a déclaré l’auteur principal Sushant Veer, associé de recherche postdoctorale en génie mécanique et aérospatial.

Un part clé de la stratégie de Veer était l’utilisation de primitives de mouvement, dans lesquelles une politique ordonne à un robotic d’aller tout droit ou de tourner, par exemple, plutôt que de spécifier un few ou une vitesse pour chaque mouvement. Réduire l’espace des steps possibles rend le processus de planification moreover facile à gérer, a déclaré Majumdar.

Veer et Majumdar ont évalué les planificateurs basés sur la vision sur des simulations d’un drone naviguant autour d’obstacles et d’un robot à quatre pattes traversant un terrain accidenté avec des pentes aussi élevées que 35 degrés – « un problème très difficile que beaucoup de gens en robotique essaient encore. à résoudre « , a déclaré Veer.

Dans l’étude, le robot à pattes a atteint un taux de réussite de 80% sur des environnements de examination invisibles. Les chercheurs travaillent à améliorer encore les garanties de leurs politiques, ainsi qu’à évaluer les performances des politiques sur de vrais robots dans le laboratoire.

Le travail a été financé en partie par le US Workplace of Naval Exploration, la Nationwide Science Basis, un Google College Investigation Award et un Amazon Study Award.