Les problèmes de planification et d’apprentissage par renforcement sont souvent représentés par des processus de décision markoviens et ses dérivés (bandits, MDP partiellement observables, MDP factorisés, etc.). L’agent doit apprendre les séquences d’actions qui maximisent l’espérance des récompenses qui peuvent être obtenues pendant l’interaction avec son environnement. Le formalisme peut servir de cadre théorique pour étudier de systèmes autonomes, tel un aéronef, un drone, un satellite, un robot, ou un agent virtuel. En effet, dans l'opération de tels systèmes se pose la question de pouvoir apprendre en temps réel et sur place, tout en préservant l’intégrité du système (i.e. en évitant sa perte). Dans cette présentation, on considère les situations où les actions peuvent entraîner des récompenses positives et négatives, qui impactent un budget initial. L’objectif est donc de trouver un bon compromis entre exploration (i.e. agir pour apprendre de nouvelles choses), exploitation (i.e. agir de manière optimale en fonction de ce qui est déjà connu), et sécurité (dans cette présentation, cela veut dire garder à vue la gestion du budget), afin de minimiser le risque de ruine (i.e. la probabilité d’épuiser son budget). C’est une thématique qui s’approche du « safe RL ». Je parlerai de trois articles publiés récemment [1, 2, 3], qui parlent de cette question de survie dans les multiarmed bandits et dans le gambler’s ruin, arrivant à l’apprentissage par renforcement, thème d’un projet en RG fraichement soumis [4].
[1] Perotto, F.S. et al. (2019). Open Problem: Risk of Ruin in Multiarmed Bandits. COLT 2019: 3194–3197.
[2] Perotto, F.S. et al. (2021). Gambler Bandits and the Regret of Being Ruined. AAMAS 2021: 1664-1667.
[3] Perotto, F.S. et al. (2021) Deciding when to quit the gambler's ruin game with unknown probabilities. Int. J. Approx. Reason. 137: 16-33.
[4] Perotto, F.S. et al. (2021) A3R (Apprentissage par Renforcement et Risque de Ruine). Projet RG. ONERA. [unpublished]