Appréhender l’apprentissage par renforcement inverse au travers de l’algorithme IQ-Learn

Carreira, Thomas

Back

Master thesis

Appréhender l’apprentissage par renforcement inverse au travers de l’algorithme IQ-Learn

SONAR|HES-SO

Carreira, Thomas
Kalousis, Alexandros (Degree supervisor)

Genève : Haute école de gestion de Genève

40 p.

Master of Science HES-SO en Information documentaire: Haute école de gestion de Genève, 2022

apprentissage par renforcement inverse

French Ce travail a permis l’appréhension de multiples concepts d’apprentissage automatique, tels que l’apprentissage par renforcement, par imitation et par renforcement inverse. Chacun de ces sujets a été étudié de telle sorte à comprendre les concepts fondamentaux qui ont ensuite aidé à la compréhension d’algorithmes.
L’objectif de ce projet était d’ajouter l’algorithme « Inverse soft-Q Learning for Imitation (IQ-Learn) » dans le projet MiloZero. Il a donc été nécessaire de se familiariser avec l’architecture du projet afin de comprendre son fonctionnement et ainsi d’être capable d’ajouter un nouvel algorithme dans cet environnement.
Cependant, IQ-Learn n’est pas un algorithme à part entière, car il est ajouté au-dessus d’un autre. Ce dernier peut être soit « Soft-Q » qui est uniquement utilisé dans des environnements discrets, soit « Soft actor-critic (SAC) » qui peut être utilisé dans les deux types d’environnements existants. Étant donné que MiloZero cherche à atteindre un objectif nécessitant des données continues, il était nécessaire de choisir SAC. Il a donc été impératif de s’occuper en premier de l’implémentation de SAC afin de pouvoir par la suite venir greffer par-dessus IQ-Learn.

Language

French

Classification

Computer science and technology

Notes

Haute école de gestion de Genève
Information documentaire
hesso:hegge

Persistent URL

https://sonar.ch/global/documents/323038

Statistics

Document views: 69 File downloads:

Carreira_Thomas_TM_2022.pdf: 243

Master thesis

Appréhender l’apprentissage par renforcement inverse au travers de l’algorithme IQ-Learn

SONAR|HES-SO

SimGait

machine learning

apprentissage automatique

apprentissage par renforcement inverse

soft actor-critic

Statistics