Towards intelligent coordination of autonomous platforms for wildfire controlthrough deep reinforcement learning

Tuñón Laguna, Pablo

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/11531/106902

Título :	Towards intelligent coordination of autonomous platforms for wildfire controlthrough deep reinforcement learning
Autor :	Leiva Vélez, Miguel Tuñón Laguna, Pablo Universidad Pontificia Comillas, Escuela Técnica Superior de Ingeniería (ICAI)
Fecha de publicación :	2026
Resumen :	La extinción coordinada de incendios forestales mediante medios aéreos es un problema complejo de optimización, control colectivo de múltiples plataformas y gestión de recursos, marcado por su alta dimensionalidad, su observabilidad parcial y una dinámica no lineal y estocástica. El aprendizaje por refuerzo profundo puede alcanzar un alto grado de optimalidad en problemas de este tipo, aunque sigue siendo difícil de aplicar, y todavía no dispone de una referencia común sobre la que comparar estrategias de coordinación. Presentamos FireCoopBench, un benchmark reproducible y parametrizable para la extinción cooperativa sobre un plano discretizado con propagación estocástica del fuego, optimización de recursos y observabilidad parcial. Sobre él entrenamos una política MAPPO (un método estándar de policy gradient extendido para que varios agentes aprendan a la vez) de parámetros compartidos con crítico centralizado, entity attention, asignación húngara en la observación, recurrencia y recompensa de team spirit, caracterizando cada componente en el Capítulo 6 (cuatro por ablación y el crítico centralizado mediante la comparación con IPPO). La política resultante, evaluada a lo largo de varios episodios estadísticamente diferenciados, resuelve equipos de hasta 15 drones sin necesidad de reentrenamiento o fine-tuning, y el tamaño mínimo de equipo cooperativo necesario crece de 4 a 15 con la dificultad. Comparamos frente a aprendices independientes (independent learners) y a los controladores heurísticos más conocidos evaluados en este estudio preliminar, y analizamos la robustez de la política aprendida. Coordinating a fleet of aircraft to put out a wildfire is, at bottom, a complex optimisation problem: the collective control of several platforms and the management of a shared, finite resource under high dimensionality, partial observability of the fire front, and nonlinear, stochastic dynamics. It is also a multi-agent reinforcement learning problem for which there is still no standard testbed. We introduce FireCoopBench, a reproducible and parameterisable benchmark for cooperative suppression on a 22×38 gridworld with stochastic fire propagation, water logistics, and partial observability. The benchmark fixes the environment and the key performance indicators against which methods are compared, while leaving the policy network, the reward, the hyperparameters, and the learning algorithm open for the experimenter to modify; the reward we ship is a sensible default that can be rebalanced. On the cooperative environment we train a parameter-sharing Multi-Agent Proximal Policy Optimisation (MAPPO) policy, a policy-gradient method extended so that several agents learn at once, under the centralized-training/decentralized-execution scheme (the policy is trained centrally but executed in a distributed way, each drone acting on its own local observation). The policy adds a centralized critic, entity-attention observations, a Hungarian assignment carried in the observation, recurrence, and a team-spirit reward; each component is characterised in Chapter 6 (four by ablation, the centralized critic by the IPPO comparison). Averaged over training seeds, the policy solves the benchmark for teams of up to 15 drones with no retraining, and the minimum cooperating team size grows from 4 to 15 as difficulty increases. We compare against independent learners and against the best-known classical controllers evaluated in this preliminary study, and we analyse robustness.
Descripción :	Grado en Ingeniería Matemática e Inteligencia Artificial
URI :	http://hdl.handle.net/11531/106902
Aparece en las colecciones:	TFG, TFM (temporales)

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
TFG - Tunon Laguna Pablo.pdf	Trabajo Fin de Grado	1,5 MB	Adobe PDF	Visualizar/Abrir
Annex_I.pdf	Autorización	178,74 kB	Adobe PDF	Visualizar/Abrir

Mostrar el registro Dublin Core completo del ítem