UC Berkeley
Nouveautés + tendances

Avec l'aide de l'homme, les robots apprennent plus vite

Debora Pape
4/2/2025
Traduction: traduction automatique

Dans le monde réel, les robots doivent réagir à des événements imprévisibles. Une équipe de chercheurs a mis au point une méthode d'entraînement qui permet aux robots d'y parvenir mieux et plus rapidement.

Des chercheurs de l'Université de Californie à Berkeley, aux États-Unis, ont mis au point une méthode d'apprentissage efficace pour les robots. Cette méthode devrait permettre aux robots d'apprendre plus rapidement à effectuer correctement des tâches dans le monde réel qui requièrent de la dextérité et de la précision. Les machines ainsi entraînées peuvent par exemple monter des étagères Ikea, retourner un œuf au plat en le projetant vers le haut dans les airs ou utiliser un fouet pour faire sortir avec précision des blocs individuels d'une tour de Jenga.

"Mais les robots savent assembler des voitures depuis des décennies", pensez-vous peut-être. Oui, parce qu'ils sont programmés pour les différentes étapes et suivent toujours les mêmes séquences de programme. Mais ils ne peuvent pas réagir à des circonstances changeantes ou effectuer de nouvelles tâches sans instructions détaillées.

La nouvelle méthode s'appelle "Human-in-the-Loop Sample-Efficient Robotic Reinforcement Learning" (en abrégé HIL-SERL). Elle combine l'apprentissage par renforcement, c'est-à-dire l'apprentissage par essais et erreurs basé sur des algorithmes, avec le feedback humain et l'imitation d'étapes de travail humaines. L'homme participe donc à l'entraînement. C'est pourquoi on parle de "Human in the Loop".

L'apprentissage dans le monde réel est plus laborieux

La difficulté de l'apprentissage dans le monde réel réside dans la variabilité des paramètres. Dans la réalité, la physique est un facteur important. L'IA doit prendre en compte les forces et les masses, par exemple pour retourner un œuf au plat. La position de l'œuf au plat dans la poêle est tout aussi importante que sa taille et sa forme. Les robots utilisés par les chercheurs sont donc équipés d'une caméra.

Un autre exemple est le Jenga-Whipping. Il s'agit d'une tendance dans laquelle des personnes habiles utilisent un fouet pour faire sortir des blocs de bois individuels de la pile du jeu. Pour que le robot puisse faire de même, il doit viser avec précision le bon endroit, évaluer le mouvement du fouet et frapper avec la bonne force. Les chercheurs utilisent le Jenga-Whipping comme un simple jeu d'adresse pour le robot.

Un autre problème est que les scénarios d'entraînement dans le monde réel ne peuvent pas être répétés aussi rapidement qu'une partie d'échecs virtuelle. Si l'œuf au plat tombe sur le sol, le robot a besoin d'un nouvel œuf. Si la tour de Jenga se renverse, quelqu'un doit la reconstruire. Cela rend l'entraînement complexe et coûteux.

Les humains aident le robot à apprendre

C'est pourquoi les chercheurs expérimentent des instructions humaines. Ils peuvent contrôler leur robot à l'aide d'une souris spéciale et lui montrer ainsi les stratégies qu'il pourrait utiliser de préférence. Ils évaluent également ses tentatives et lui donnent un feedback. Ainsi, le robot n'a besoin de beaucoup d'attention qu'au début pour le mettre sur la bonne voie. Ensuite, il se contente de moins en moins de contrôle. A la fin de l'entraînement, le robot a un taux de réussite de 100 %. Vous pouvez en voir des vidéos ici.

Des tâches pratiques font également partie des activités que le robot apprend à réaliser en peu de temps : il peut notamment monter une étagère Ikea, assembler une courroie crantée sur des rouleaux et fixer des composants sur une carte mère d'ordinateur. Le robot effectue ensuite un test de fonctionnement de la carte mère.

Les chercheurs introduisent délibérément des perturbations dans le processus d'apprentissage, par exemple en déplaçant des objets ou en faisant en sorte que le robot les laisse tomber. Le robot apprend à réagir à ces situations inattendues et à effectuer sa tâche malgré tout.

L'étude constitue une recherche fondamentale. Elle vise à démontrer que le système HIL-SERL peut être appliqué à de nombreuses tâches. Les résultats devraient faciliter le développement de robots robustes et polyvalents.

Photo d’en-tête : UC Berkeley

Cet article plaît à 9 personne(s)


Ces articles pourraient aussi vous intéresser

  • Nouveautés + tendances

    Le nouveau robot aspirateur Dreame a des jambes et grimpe à six centimètres du sol

    par Lorenz Keller

  • Nouveautés + tendances

    La nouvelle génération de robots de tonte mise sur l'IA

    par Stephan Lamprecht

  • Nouveautés + tendances

    DeepSeek : Le modèle d'IA chinois fait trembler Wall Street

    par Samuel Buchmann

Commentaire(s)

Avatar