Energy-Aware Multilingual Vision–Language Models for Drone Smart Sensing
Abstract
La detección inteligente basada en drones depende cada vez más de modelos visión-lenguaje (VLMs) para la interpretación en tiempo real de escenas, detección de obstáculos y razonamiento autónomo de navegación. El despliegue de estos sistemas requiere no solo alta precisión perceptiva, sino también eficiencia energética, un factor crítico en plataformas UAV alimentadas por batería, así como flexibilidad lingüística para contextos multinacionales. Este trabajo presenta un marco sistemático de evaluación conjunta de rendimiento perceptivo y consumo energético de cinco VLMs de código abierto en trece idiomas pertenecientes a seis familias lingüísticas. Utilizando imágenes del conjunto Berkeley DeepDrive 10K, se evaluaron tareas de distinta complejidad y se midió el consumo energético siguiendo la metodología AI Energy Score. Los resultados muestran que el consumo energético y la precisión no están correlacionados estadísticamente, y evidencian una doble penalización para idiomas de bajos recursos, con implicaciones para despliegues multilingües equitativos. Drone-based smart sensing increasingly relies on Vision–Language Models (VLMs) for real-time scene interpretation, obstacle detection, and autonomous navigation reasoning. Deploying such systems at scale demands not only high perceptual accuracy but also energy efficiency, a critical constraint on battery-powered Unmanned Aerial Vehicle (UAV) platforms, and linguistic flexibility for multinational operational contexts. We present a systematic benchmarking framework that jointly evaluates perception performance and inference energy for five open-source VLMs across thirteen languages spanning six language families. Using imagery sampled from the Berkeley DeepDrive 10K dataset, each model is evaluated on sensing tasks of increasing difficulty while energy consumption is measured using the AI Energy Score methodology. Results show that energy consumption and task accuracy are statistically uncorrelated, while low-resource languages simultaneously incur higher inference costs and lower task accuracy, with direct implications for equitable multilingual UAV deployments.
Energy-Aware Multilingual Vision–Language Models for Drone Smart Sensing
Tipo de Actividad
Artículos en revistasISSN
2504-446XPalabras Clave
Modelos de lenguaje grandes, Modelos visiónlenguaje, Sensores inteligentes con drones, Eficiencia energética en IA, Navegación autónoma, Percepción UAVLarge language models, Visionlanguage models, Drone smart sensing, AI energy efficiency, Autonomous navigation, UAV perception


