Efficiently Transferring Deep Reinforcement Learning Experience to Industrial Assets
Resumen
La Cuarta Revolución Industrial enfatiza la integración de la Inteligencia Artificial para mejorar la eficiencia, con el Aprendizaje Profundo por Refuerzo (DRL) ofreciendo soluciones para problemas complejos de toma de decisiones secuenciales. Un desafío en DRL es la eficiencia muestral, que puede mejorarse utilizando entornos virtuales para el entrenamiento de agentes. Sin embargo, transferir el aprendizaje virtual a aplicaciones del mundo real (sim-to-real) sigue siendo un obstáculo clave. Esta tesis presenta una metodología para transferir de manera eficiente la experiencia de agentes de DRL desde entornos virtuales a configuraciones reales, validada con dos activos industriales en una tarea de manipulación robótica pick-and-place, enfocándose en el acercamiento a los objetos. Este enfoque evita integraciones complejas al basarse en entradas de cámaras monoculares RGB, equilibrando la adaptabilidad y las demandas computacionales.
La investigación evalúa cuatro técnicas destacadas para la transferencia sim-to-real:
1. Aleatorización del Dominio (DR): Entrenar agentes en escenarios virtuales altamente variables mejora la generalización. La aleatorización de características del escenario mediante este enfoque de alto nivel mejora el rendimiento, aunque una variabilidad excesiva reduce las tasas de éxito. Por otro lado, una DR de bajo nivel que consiste en añadir ruido Gaussiano a las imágenes cierra parcialmente la brecha entre los entornos virtuales y reales, aumentando las tasas de éxito de transferencia sin ajuste (zero-shot) del 15.8% al 34.1%.
2. Redes Neuronales Progresivas (PNNs): Utilizar conexiones laterales entre redes "maestras" y "estudiantes" facilita la transferencia de conocimiento. Aunque los experimentos sim-to-sim muestran una transferencia efectiva de las representaciones aprendidas, las PNNs presentan un olvido parcial en tareas más simples. Para el problema sim-to-real, las PNNs lograron tasas de éxito del 80%-100% en la mayoría de los espacios de trabajo con solo 60,000 muestras, demostrando capacidad de transferencia few-shot.
3. Adaptación del Dominio (DA): Utilizando un modelo original, StyleID-CycleGAN (SICGAN), las observaciones virtuales se convierten en imágenes realistas, permitiendo que los agentes generalicen mejor. La DA logra una precisión casi perfecta después del entrenamiento en una transferencia zero-shot y tasas de éxito en el mundo real superiores al 85% en la mayor parte del espacio de trabajo, superando a las PNNs tanto en eficiencia como en rendimiento sin necesidad de ajuste en el mundo real.
4. Conocimiento Semántico: Incorporar información semántica sobre el entorno en el proceso de aprendizaje de un agente reduce el tiempo de entrenamiento hasta en un 60% y mejora el rendimiento en un 15%, ofreciendo una comprensión contextual estructurada.
La metodología propuesta es el resultado de experimentar con estas técnicas para optimizar la transferencia sim-to-real en operaciones industriales. Los resultados destacan que usar la SICGAN para traducir imágenes en el entorno virtual a observaciones real-sintéticas y luego realizar una transferencia zero-shot con el agente entrenado virtualmente es la solución más eficiente, reduciendo la dependencia de interacciones en el mundo real y manteniendo altas tasas de éxito en el espacio de trabajo. The Fourth Industrial Revolution emphasizes integrating Artificial Intelligence to enhance industrial efficiency, with Deep Reinforcement Learning (DRL) offering solutions for complex sequential decision-making. A critical challenge in DRL is sample efficiency, which can be improved by using virtual environments for agent training. However, transferring virtual learning to real-world applications (sim-to-real) remains a key obstacle. This thesis presents a methodology for efficiently transferring DRL agent experience from virtual environments to real setups, validated using two industrial assets for a pick-and-place robotic manipulator task, focusing in the approach to the targets. The approach avoids proprietary integration by relying on monocular RGB camera inputs, balancing adaptability and computational demands.
The research evaluates four prominent techniques for sim-to-real transfer:
1. Domain Randomization (DR): Training agents in highly variable virtual scenarios improves generalization. Randomizing scene features with this high-level approach enhances performance, but excessive variability reduces success rates. On the other hand, a low-level DR that consists in adding Gaussian noise to images partially bridges the gap between virtual and real environments, increasing zero-shot transfer success rates from 15.8% to 34.1%.
2. Progressive Neural Networks (PNNs): Leveraging lateral connections between "teacher" and "student" networks facilitates knowledge transfer. While the sim-to-sim experiments show an effective transfer of the learned representations, PNNs show partial forgetting in simpler tasks. For the sim-to-real problem, PNNs achieved success rates of 80%-100% in most workspaces with only 60,000 samples, demonstrating few-shot transfer capability.
3. Domain Adaptation (DA): Using an original StyleID-CycleGAN (SICGAN), virtual observations are converted into realistic images, enabling agents to generalize better. DA achieves near-perfect post-training accuracy in a zero-shot transfer and real-world success rates above 85% for most of the workspace, surpassing PNNs in both efficiency and performance without real-world fine-tuning.
4. Semantic Knowledge: Incorporating knowledge graph embeddings into the DRL pipeline with semantic information about the environment reduces training time by up to 60% and improves performance by 15%, offering structured contextual understanding.
The proposed methodology is the result of experimenting with these techniques to optimize sim-to-real transfer for industrial operations. Results highlight that using the SICGAN to translate images in the virtual environment to real-synthetic observations and then perform a zero-shot with the virtually trained agent is the most efficient solution, reducing reliance on real-world interactions while maintaining high success rates across the workspace.
Tesis Doctoral
Efficiently Transferring Deep Reinforcement Learning Experience to Industrial AssetsTitulación / Programa
Programa de Doctorado en Modelado de Sistemas de IngenieríaMaterias/ UNESCO
12 Matemáticas1203 Ciencias de los ordenadores
120304 Inteligencia artificial
Materias/ categorías / ODS
3.Salud y bienestar8.Trabajo decente y crecimiento económico
9.Industria, innovación e infraestructuras
12.Producción y consumos responsables
Colecciones
El ítem tiene asociados los siguientes ficheros de licencia: