in

L'IA aide les robots à manipuler des objets avec tout leur corps

Les humains sont généralement doués pour la manipulation du corps entier, mais les robots ont du mal à accomplir de telles tâches. Pour le robotic, chaque endroit où la boîte pourrait toucher n’importe quel position des doigts, des bras et du torse du porteur représente un événement de contact sur lequel il doit raisonner. Avec des milliards d’événements de get hold of potentiels, la planification de cette tâche devient rapidement insoluble.

Les chercheurs du MIT ont désormais trouvé un moyen de simplifier ce processus, connu sous le nom de planification de manipulation riche en contacts. Ils utilisent une strategy d’IA appelée lissage, qui résume de nombreux événements de speak to en un as well as petit nombre de décisions, pour permettre même à un algorithme uncomplicated d’identifier rapidement un approach de manipulation efficace pour le robot.

Bien qu’elle en soit encore à ses débuts, cette méthode pourrait potentiellement permettre aux usines d’utiliser des robots mobiles plus petits, capables de manipuler des objets avec l’ensemble de leurs bras ou de leur corps, plutôt que de grands bras robotiques qui ne peuvent saisir qu’avec le bout des doigts. Cela peut contribuer à réduire la consommation d’énergie et à réduire les coûts. De moreover, cette approach pourrait être utile dans les robots envoyés en mission d’exploration sur Mars ou d’autres corps du système solaire, automobile ils pourraient s’adapter rapidement à l’environnement en utilisant uniquement un ordinateur de bord.

Suh est rejoint dans l’article par le co-auteur principal Tao Pang PhD ’23, roboticien au Boston Dynamics AI Institute Lujie Yang, étudiante diplômée de l’EECS  et l’auteur principal Russ Tedrake, professeur Toyota d’EECS, d’aéronautique et d’astronautique et de génie mécanique, et membre du Laboratoire d’informatique et d’intelligence artificielle (CSAIL). La recherche paraît cette semaine dans IEEE Transactions on Robotics.

Apprendre à apprendre

L’apprentissage par renforcement est une approach d’apprentissage automatique dans laquelle un agent, comme un robotic, apprend à accomplir une tâche par essais et erreurs, avec une récompense pour s’être rapproché d’un objectif. Les chercheurs affirment que ce style d’apprentissage adopte une approche de boîte noire, motor vehicle le système doit tout apprendre sur le monde par essais et erreurs.

Il a été utilisé efficacement pour la planification de manipulations riches en contacts, où le robot cherche à apprendre la meilleure façon de déplacer un objet d’une manière spécifiée.

Mais comme il peut y avoir des milliards de details de get hold of potentiels sur lesquels un robot doit raisonner pour déterminer remark utiliser ses doigts, ses mains, ses bras et son corps pour interagir avec un objet, cette approche par essais et erreurs nécessite beaucoup de calculs.

“L’apprentissage par renforcement peut nécessiter des tens of millions d’années en temps de simulation pour pouvoir réellement apprendre une politique”, ajoute Suh.

D’un autre côté, si les chercheurs conçoivent spécifiquement un modèle basé sur la physique en utilisant leur connaissance du système et la tâche qu’ils souhaitent que le robotic accomplisse, ce modèle intègre une composition sur ce monde qui le rend furthermore efficace.

Pourtant, les approches basées sur la physique ne sont pas aussi efficaces que l’apprentissage par renforcement lorsqu’il s’agit de planifier des manipulations riches en contacts – Suh et Pang se demandent pourquoi.

Ils ont mené une analyse détaillée et ont découvert qu’une approach connue sous le nom de lissage permet à l’apprentissage par renforcement de si bien fonctionner.

La plupart des décisions qu’un robot pourrait prendre pour déterminer remark manipuler un objet ne sont pas importantes dans le grand schéma des choses. Par exemple, chaque ajustement infinitésimal d’un doigt, qu’il entraîne ou non un speak to avec l’objet, n’a pas beaucoup d’importance. Le lissage fait la moyenne d’un grand nombre de ces décisions intermédiaires sans value, laissant quelques décisions importantes.

L’apprentissage par renforcement effectue un lissage implicite en essayant de nombreux factors de make contact with, puis en calculant une moyenne pondérée des résultats. S’appuyant sur ces informations, les chercheurs du MIT ont conçu un modèle straightforward qui effectue un kind de lissage similaire, lui permettant de se concentrer sur les interactions robot-objet principales et de prédire le comportement à lengthy terme. Ils ont montré que cette approche pouvait être tout aussi efficace que l’apprentissage par renforcement pour générer des programs complexes.

“Si vous en savez un peu plus sur votre problème, vous pouvez concevoir des algorithmes in addition efficaces”, explique Pang.

Une combinaison gagnante

Même si le lissage simplifie grandement les décisions, la recherche dans les décisions restantes peut rester un problème difficile. Ainsi, les chercheurs ont combiné leur modèle avec un algorithme able de rechercher rapidement et efficacement toutes les décisions possibles que le robotic pourrait prendre.

Grâce à cette combinaison, le temps de calcul a été réduit à approximativement une moment sur un ordinateur portable regular.

Ils ont d’abord testé leur approche dans des simulations où des mains robotiques se voyaient confier des tâches telles que déplacer un stylo vers une configuration souhaitée, ouvrir une porte ou ramasser une assiette. Dans chaque cas, leur approche basée sur un modèle a obtenu les mêmes performances que l’apprentissage par renforcement, mais en une portion du temps. Ils ont constaté des résultats similaires lorsqu’ils ont testé leur modèle matériel sur de vrais bras robotiques.

“Les mêmes idées qui permettent la manipulation du corps entier fonctionnent également pour la planification avec des mains adroites, semblables à celles des humains. Auparavant, la plupart des chercheurs disaient que l’apprentissage par renforcement était la seule approche adaptée aux mains adroites, mais Terry et Tao ont montré qu’en prenant cette clé Grâce à l’idée d’un lissage (randomisé) à partir de l’apprentissage par renforcement, ils peuvent également faire fonctionner extrêmement bien les méthodes de planification as well as traditionnelles », explique Tedrake.

Cependant, le modèle qu’ils ont développé repose sur une approximation plus basic du monde réel et ne peut donc pas gérer des mouvements très dynamiques, tels que la chute d’objets. Bien qu’efficace pour les tâches de manipulation moreover lentes, leur approche ne permet pas de créer un plan qui permettrait à un robot de jeter une canette dans une poubelle, par exemple. À l’avenir, les chercheurs prévoient d’améliorer leur procedure afin de pouvoir s’attaquer à ces mouvements hautement dynamiques.

“Si vous étudiez attentivement vos modèles et comprenez vraiment le problème que vous essayez de résoudre, vous pouvez certainement réaliser des gains. Il y a des avantages à faire des choses qui vont au-delà de la boîte noire”, déclare Suh.

Ce travail est financé en partie par Amazon, le MIT Lincoln Laboratory, la National Science Basis et le groupe Ocado.