Energy-Aware Multilingual Vision–Language Models for Drone Smart Sensing

La detección inteligente basada en drones depende cada vez más de modelos visión-lenguaje (VLMs) para la interpretación en tiempo real de escenas, detección de obstáculos y razonamiento autónomo de navegación. El despliegue de estos sistemas requiere no solo alta precisión perceptiva, sino también eficiencia energética, un factor crítico en plataformas UAV alimentadas por batería, así como flexibilidad lingüística para contextos multinacionales. Este trabajo presenta un marco sistemático de evaluación conjunta de rendimiento perceptivo y consumo energético de cinco VLMs de código abierto en trece idiomas pertenecientes a seis familias lingüísticas. Utilizando imágenes del conjunto Berkeley DeepDrive 10K, se evaluaron tareas de distinta complejidad y se midió el consumo energético siguiendo la metodología AI Energy Score. Los resultados muestran que el consumo energético y la precisión no están correlacionados estadísticamente, y evidencian una doble penalización para idiomas de bajos recursos, con implicaciones para despliegues multilingües equitativos.

Drone-based smart sensing increasingly relies on Vision–Language Models (VLMs) for real-time scene interpretation, obstacle detection, and autonomous navigation reasoning. Deploying such systems at scale demands not only high perceptual accuracy but also energy efficiency, a critical constraint on battery-powered Unmanned Aerial Vehicle (UAV) platforms, and linguistic flexibility for multinational operational contexts. We present a systematic benchmarking framework that jointly evaluates perception performance and inference energy for five open-source VLMs across thirteen languages spanning six language families. Using imagery sampled from the Berkeley DeepDrive 10K dataset, each model is evaluated on sensing tasks of increasing difficulty while energy consumption is measured using the AI Energy Score methodology. Results show that energy consumption and task accuracy are statistically uncorrelated, while low-resource languages simultaneously incur higher inference costs and lower task accuracy, with direct implications for equitable multilingual UAV deployments.

URI

https://doi.org/10.3390/drones10050361

Tipo de Actividad

Artículos en revistas

ISSN

2504-446X

Palabras Clave

Modelos de lenguaje grandes, Modelos visiónlenguaje, Sensores inteligentes con drones, Eficiencia energética en IA, Navegación autónoma, Percepción UAV
Large language models, Visionlanguage models, Drone smart sensing, AI energy efficiency, Autonomous navigation, UAV perception

Collections

Artículos

Except where otherwise noted, this item's license is described as Creative Commons Reconocimiento-NoComercial-SinObraDerivada España