Estudio Comparativo y Desarrollo de Algoritmos de Imitation Learning: Análisis y Aplicación
Abstract
El aprendizaje por refuerzo requiere diseñar manualmente funciones de recompensa, un proceso laborioso y sesgado, mientras que Imitation Learning (IL) aprende directamente de demostraciones expertas, evitando el diseño explícito de recompensas. Este trabajo implementa y compara seis algoritmos de las principales familias de IL (BC, BCO, GAIL, GAIfO, AIRL y SQIL) en los entornos CartPole-v1 (discreto) y HalfCheetah-v4 (continuo), implementando desde cero BCO, GAIfO y SQIL para espacios continuos, mientras que BC, GAIL y AIRL se importaron de la librería "imitation".
El protocolo experimental homogéneo (seed fija, 2M de pasos, normalización de observaciones) midió la recompensa acumulada y desviación estándar para poder valorar la eficiencia muestral y estabilidad variando el número de trayectorias expertas (5-100), optimizando los hiperparámetroscon Optuna y su búsqueda bayesiana. Los resultados muestran que BC supera a métodos más complejos con abundantes demostraciones, alcanzando un 91,2% del rendimiento experto con 100 trayectorias, desafiando la necesidad de arquitecturas sofisticadas. AIRL destacó por su robustez, manteniéndose cerca del 80% independientemente del número de trayectorias, ideal para entornos con variabilidad de datos o dinámicos. Se identificó una "zona crítica" en torno a 20 trayectorias donde casi todos los algoritmos, salvo AIRL, empeoraron su rendimiento ( BC -15%, GAIfO -39%, etc) debido a un desequilibrio entre diversidad y cobertura del espacio de estados.
Estas conclusiones ofrecen directrices prácticas para elegir el algoritmo óptimo según la disponibilidad de demostraciones y requisitos de estabilidad. Las implementaciones y scripts están disponibles en un repositorio de GitHub para facilitar la reproducibilidad y extensión. Como futuras líneas de investigación se propone diseñar métodos híbridos que combinen la estabilidad de AIRL con el alto rendimiento de BC, estrategias para mitigar la "zona crítica" y validar la transferencia sim2real en robots físicos para cerrar la brecha simulación-realidad. Reinforcement learning requires manually designing reward functions, a laborious and biased process, while Imitation Learning (IL) learns directly from expert demonstrations, eliminating the need for explicit reward design. This work implements and compares six algorithms from the main IL families (BC, BCO, GAIL, GAIfO, AIRL, SQIL) in the CartPole-v1 (discrete) and HalfCheetah-v4 (continuous) environments. BCO, GAIfO, and SQIL were implemented from scratch for continuous spaces, while BC, GAIL, and AIRL were imported from the "imitation" library.
The homogeneous experimental protocol (fixed seed, 2M training steps, observation normalization) measured cumulative reward and standard deviation to evaluate sample efficiency and stability while varying the number of expert trajectories (5-100). Hyperparameters were optimized using Optuna with Bayesian search. Results show that BC outperforms more complex methods with abundant demonstrations, achieving 91.2% of expert performance with 100 trajectories, challenging the need for sophisticated architectures. AIRL stood out for its robustness, maintaining ~80% performance regardless of trajectory count, making it ideal for dynamic environments or those with data variability. A "critical zone" around 20 trajectories was identified, where all algorithms except AIRL degraded in performance (BC: -15%, GAIfO: -39%, etc.) due to an imbalance between diversity and state-space coverage.
These findings provide practical guidelines for selecting optimal algorithms based on demonstration availability and stability requirements. Implementations and scripts are available on a GitHub repository to ensure reproducibility and extensibility. Future research directions include designing hybrid methods that combine AIRL’s stability with BC’s high performance, strategies to mitigate the "critical zone," and validating sim2real transfer in physical robots to bridge the simulation-reality gap.
Trabajo Fin de Grado
Estudio Comparativo y Desarrollo de Algoritmos de Imitation Learning: Análisis y AplicaciónTitulación / Programa
Grado en Ingeniería Matemática e Inteligencia ArtificialMaterias/ categorías / ODS
KMIPalabras Clave
Aprendizaje por Imitación, Aprendizaje por Refuerzo, Clonación de Comportamiento, Aprendizaje Adversarial, Eficiencia MuestralImitation Learning, Reinforcement Learning, Behavioral Cloning, Adversarial Learning, Sample Efficiency