Metamorphic Testing for Semantic Invariance in Large Language Models

de Curtò i Díaz, Joaquim; de Zarzà i Cubero, Irene

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/11531/107917

Título :	Metamorphic Testing for Semantic Invariance in Large Language Models
Autor :	de Curtò i Díaz, Joaquim de Zarzà i Cubero, Irene
Fecha de publicación :	19-dic-2025
Resumen :	Este artículo presenta un marco de pruebas metamórficas para evaluar la invariancia semántica en el razonamiento de grandes modelos de lenguaje. El estudio parte de la limitación de las evaluaciones tradicionales basadas únicamente en la precisión, que no captan la estabilidad del razonamiento ante variaciones semánticamente equivalentes de una misma entrada. Se definen ocho relaciones metamórficas que abarcan transformaciones estructurales, de verbosidad y contextuales, y se aplican a 79 problemas de razonamiento de distintas disciplinas científicas y niveles de dificultad. El análisis compara dos modelos fundacionales recientes y muestra que, aunque ambos alcanzan puntuaciones globales de invariancia similares, presentan perfiles de vulnerabilidad diferentes. Los resultados evidencian que las pruebas metamórficas permiten identificar inestabilidades del razonamiento que no son detectables mediante métricas de precisión convencionales, aportando información relevante para el despliegue seguro de modelos de lenguaje en contextos de alto impacto. This article introduces a metamorphic testing framework to evaluate semantic invariance in the reasoning of large language models. It addresses the limitations of traditional accuracy-based evaluations, which fail to capture reasoning stability under semantically equivalent input variations. Eight metamorphic relations are defined, covering structural, verbosity, and contextual transformations, and applied to 79 reasoning problems across multiple scientific domains and difficulty levels. The study compares two recent foundation models and shows that, while both achieve similar overall invariance scores, they exhibit distinct vulnerability profiles depending on the type of transformation and domain. The findings demonstrate that metamorphic testing reveals robustness characteristics of language model reasoning that remain invisible to standard benchmarks, providing valuable insights for the reliable deployment of large language models in high-stakes reasoning applications.
Descripción :	Artículos en revistas
URI :	https://doi.org/10.1109/ACCESS.2025.3646270
ISSN :	2169-3536
Aparece en las colecciones:	Artículos

Ficheros en este ítem:

Fichero	Tamaño	Formato
Metamorphic_Testing_for_Semantic_Invariance_in_Large_Language_Models_deCurtoanddeZarza.pdf	4,78 MB	Adobe PDF	Visualizar/Abrir

Mostrar el registro Dublin Core completo del ítem