Méthodes hybrides de planification et d'apprentissage : le projet ANR PARHéRo

Le projet PARHéRo (Méthodes hybrides de planification et apprentissage pour la robotique hétérogène robuste) vise explicitement à établir des synergies entre la recherche scientifique et industrielle pour anticiper et maîtriser l’évolution des plateformes robotisées hétérogènes dans des environnements complexes, inconnus et/ou hostiles. Le bon déroulement des missions est assuré par des plateformes avec un fort degré d’autonomie, un élément central pour la robustesse de ces systèmes, à laquelle contribuent les domaines de l’apprentissage automatique, la planification symbolique, et la mise en œuvre de comportements intelligents. Le projet vise premièrement à définir un langage de spécification de missions pouvant à la fois permettre d’exprimer les objectifs et les exigences sur un système des robots hétérogènes, et ainsi d’en déduire les modèles indispensables à la planification de la mission. Ce langage de spécification sera défini et également évalué sur la base de cas d’études cohérents avec les applications envisagées pour les futurs systèmes de défense et de sécurité. Le langage de spécification de missions constitue également un socle formel important pour partager, au sein de la flotte de robots hétérogènes, des modèles issus des apprentissages réalisés par chacun de ses éléments.
La décision autonome, ou en interaction avec un opérateur supervisant le déroulement de la mission, est un élément majeur pour assurer la résilience des systèmes robotiques face aux événements inattendus, dangereux, ou imprévisibles de l’environnement. C’est dans ce contexte que l’utilisation de connaissances sur le domaine de planification – qu’elles soient acquises a priori ou à la volée en phase de réalisation de la mission – peut permettre d’obtenir une solution rapide et de meilleure qualité face à ces événements inattendus. L’hybridation entre la Planification Automatique en Intelligence Artificielle et le Machine Learning permet d’assurer la robustesse, l’adaptabilité et la résilience de la flotte de robots hétérogènes, tous participant à un même objectif stratégique.

 Les techniques d’apprentissage (et notamment l’apprentissage par renforcement) s’appuient sur l’interaction avec le monde et l’expérience répétée, sans avoir besoin de connaissances préalables : cela permet aux robots de s’adapter de manière robuste à l’environnement, mais nécessite souvent une quantité très importante d’expériences, difficilement atteignable si des systèmes réels doivent être mis dans la boucle. La planification permet aux robots d’effectuer différentes tâches dans le même domaine, sans avoir besoin d’acquérir des connaissances supplémentaires, mais dépend de la précision du modèle de planification. En outre,
l’espace de recherche d’un planificateur avec une connaissance partielle de l’environnement peut grandir de manière exponentielle en le nombre d’états possible, ce qui rend le processus de planification impossible sur le plan pratique. Cependant, même une petite injection de connaissance apprise en amont sur le modèle peut grandement améliorer les performances de la recherche de solutions. Cette connaissance à priori, qui peut venir de phases d’apprentissage de comportements intelligents, permet l’affinement des méta-heuristiques ou des macro-actions ou encore les découpages hiérarchiques des tâches. Le Machine Learning et la planification sont des approches complémentaires pour la prise de décision.

Que ce soient des stratégies de haut niveau, ou des composantes purement réactives, la coordination d’une flotte de robots autonomes mobiles passe par la transmission de l’information apprise par chaque robot sur la base d’informations locales, à condition que les conditions de robustesse du réseau de communication soient maintenues. Dans le cas contraire, l’estimation par chaque robot de la situation globale est nécessaire pour garantir l’autonomie de la flotte de robots, et la robustesse de la mission.

Contact : Alexandre Albore (DTIS)

Étiquettes