Energy-Aware Multilingual Vision–Language Models for Drone Smart Sensing

de Curtò i Díaz, Joaquim; Liz, Mauro; de Zarzà i Cubero, Irene; Calafate, Carlos T.

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/11531/109995

Título :	Energy-Aware Multilingual Vision–Language Models for Drone Smart Sensing
Autor :	de Curtò i Díaz, Joaquim Liz, Mauro de Zarzà i Cubero, Irene Calafate, Carlos T.
Fecha de publicación :	9-may-2026
Resumen :	La detección inteligente basada en drones depende cada vez más de modelos visión-lenguaje (VLMs) para la interpretación en tiempo real de escenas, detección de obstáculos y razonamiento autónomo de navegación. El despliegue de estos sistemas requiere no solo alta precisión perceptiva, sino también eficiencia energética, un factor crítico en plataformas UAV alimentadas por batería, así como flexibilidad lingüística para contextos multinacionales. Este trabajo presenta un marco sistemático de evaluación conjunta de rendimiento perceptivo y consumo energético de cinco VLMs de código abierto en trece idiomas pertenecientes a seis familias lingüísticas. Utilizando imágenes del conjunto Berkeley DeepDrive 10K, se evaluaron tareas de distinta complejidad y se midió el consumo energético siguiendo la metodología AI Energy Score. Los resultados muestran que el consumo energético y la precisión no están correlacionados estadísticamente, y evidencian una doble penalización para idiomas de bajos recursos, con implicaciones para despliegues multilingües equitativos. Drone-based smart sensing increasingly relies on Vision–Language Models (VLMs) for real-time scene interpretation, obstacle detection, and autonomous navigation reasoning. Deploying such systems at scale demands not only high perceptual accuracy but also energy efficiency, a critical constraint on battery-powered Unmanned Aerial Vehicle (UAV) platforms, and linguistic flexibility for multinational operational contexts. We present a systematic benchmarking framework that jointly evaluates perception performance and inference energy for five open-source VLMs across thirteen languages spanning six language families. Using imagery sampled from the Berkeley DeepDrive 10K dataset, each model is evaluated on sensing tasks of increasing difficulty while energy consumption is measured using the AI Energy Score methodology. Results show that energy consumption and task accuracy are statistically uncorrelated, while low-resource languages simultaneously incur higher inference costs and lower task accuracy, with direct implications for equitable multilingual UAV deployments.
Descripción :	Artículos en revistas
URI :	https://doi.org/10.3390/drones10050361
ISSN :	2504-446X
Aparece en las colecciones:	Artículos

Ficheros en este ítem:

Fichero	Tamaño	Formato
drones-10-00361_decurtoetal.pdf	3,48 MB	Adobe PDF	Visualizar/Abrir

Mostrar el registro Dublin Core completo del ítem