L’IA aide les robots domestiques à réduire de moitié le temps de planification

Image précédente Image suivante

Votre tout nouveau robot ménager est livré chez vous, et vous lui demandez de vous préparer une tasse de café. Bien qu'il connaisse certaines compétences de base acquises lors de pratiques antérieures dans des cuisines simulées, il peut effectuer beaucoup trop d'actions : ouvrir le robinet, tirer la chasse d'eau, vider le récipient à farine, etc. Mais il existe un petit nombre d’actions qui pourraient être utiles. Comment le robot peut-il déterminer quelles étapes sont judicieuses dans une nouvelle situation ?

Il pourrait utiliser PIGINet, un nouveau système visant à améliorer efficacement les capacités de résolution de problèmes des robots domestiques. Des chercheurs du Laboratoire d'informatique et d'intelligence artificielle (CSAIL) du MIT utilisent l'apprentissage automatique pour réduire le processus itératif typique de planification des tâches qui prend en compte toutes les actions possibles. PIGINet élimine les plans de tâches qui ne peuvent pas satisfaire aux exigences sans collision et réduit le temps de planification de 50 à 80 % lorsqu'il est formé sur seulement 300 à 500 problèmes.

En règle générale, les robots tentent divers plans de tâches et affinent leurs mouvements de manière itérative jusqu'à ce qu'ils trouvent une solution réalisable, ce qui peut s'avérer inefficace et prendre du temps, en particulier lorsqu'il existe des obstacles mobiles et articulés. Peut-être qu'après la cuisson, par exemple, vous souhaitez mettre toutes les sauces dans le placard. Ce problème pourrait prendre de deux à huit étapes, selon l’apparence du monde à ce moment-là. Le robot doit-il ouvrir plusieurs portes d'armoire, ou y a-t-il des obstacles à l'intérieur de l'armoire qui doivent être déplacés afin de libérer de l'espace ? Vous ne voulez pas que votre robot soit extrêmement lent – et ce sera pire s'il brûle le dîner pendant qu'il réfléchit.

Les robots domestiques sont généralement considérés comme suivant des recettes prédéfinies pour effectuer des tâches, ce qui n'est pas toujours adapté à des environnements divers ou changeants. Alors, comment PIGINet évite-t-il ces règles prédéfinies ? PIGINet est un réseau neuronal qui rassemble « des plans, des images, des objectifs et des faits initiaux », puis prédit la probabilité qu'un plan de tâche puisse être affiné pour trouver des plans de mouvement réalisables. En termes simples, il utilise un encodeur à transformateur, un modèle polyvalent et de pointe conçu pour fonctionner sur des séquences de données. La séquence d'entrée, dans ce cas, est constituée d'informations sur le plan de tâche envisagé, d'images de l'environnement et d'encodages symboliques de l'état initial et de l'objectif souhaité. L'encodeur combine les plans de tâches, l'image et le texte pour générer une prédiction concernant la faisabilité du plan de tâches sélectionné.

En gardant les choses dans la cuisine, l'équipe a créé des centaines d'environnements simulés, chacun avec des dispositions différentes et des tâches spécifiques qui nécessitent de réorganiser les objets entre les comptoirs, les réfrigérateurs, les armoires, les éviers et les marmites. En mesurant le temps nécessaire pour résoudre les problèmes, ils ont comparé PIGINet aux approches antérieures. Un plan de tâche correct peut inclure l'ouverture de la porte gauche du réfrigérateur, le retrait d'un couvercle de casserole, le déplacement du chou de la casserole au réfrigérateur, le déplacement d'une pomme de terre au réfrigérateur, le ramassage de la bouteille dans l'évier, la mise de la bouteille dans l'évier, le ramassage du tomate, ou placer la tomate. PIGINet a considérablement réduit le temps de planification de 80 % dans les scénarios les plus simples et de 20 à 50 % dans les scénarios plus complexes comportant des séquences de plan plus longues et moins de données de formation.

« Des systèmes tels que PIGINet, qui utilisent la puissance des méthodes basées sur les données pour traiter efficacement des cas familiers, mais peuvent toujours s'appuyer sur des méthodes de planification fondées sur les « principes premiers » pour vérifier les suggestions basées sur l'apprentissage et résoudre de nouveaux problèmes, offrent le meilleur des deux. mondes, fournissant des solutions générales fiables et efficaces à une grande variété de problèmes », déclare Leslie Pack Kaelbling, professeur au MIT et chercheur principal au CSAIL. L'utilisation par PIGINet d'intégrations multimodales dans la séquence d'entrée a permis une meilleure représentation et une meilleure compréhension des relations géométriques complexes. L'utilisation de données d'image a aidé le modèle à saisir les arrangements spatiaux et les configurations d'objets sans connaître les maillages 3D de l'objet pour une vérification précise des collisions, permettant une prise de décision rapide dans différents environnements.