Por favor, use este identificador para citar o enlazar este ítem:
http://hdl.handle.net/11531/107917| Título : | Metamorphic Testing for Semantic Invariance in Large Language Models |
| Autor : | de Curtò i Díaz, Joaquim de Zarzà i Cubero, Irene |
| Fecha de publicación : | 19-dic-2025 |
| Resumen : | Este artículo presenta un marco de pruebas metamórficas para evaluar la invariancia semántica en el razonamiento de grandes modelos de lenguaje. El estudio parte de la limitación de las evaluaciones tradicionales basadas únicamente en la precisión, que no captan la estabilidad del razonamiento ante variaciones semánticamente equivalentes de una misma entrada. Se definen ocho relaciones metamórficas que abarcan transformaciones estructurales, de verbosidad y contextuales, y se aplican a 79 problemas de razonamiento de distintas disciplinas científicas y niveles de dificultad. El análisis compara dos modelos fundacionales recientes y muestra que, aunque ambos alcanzan puntuaciones globales de invariancia similares, presentan perfiles de vulnerabilidad diferentes. Los resultados evidencian que las pruebas metamórficas permiten identificar inestabilidades del razonamiento que no son detectables mediante métricas de precisión convencionales, aportando información relevante para el despliegue seguro de modelos de lenguaje en contextos de alto impacto. This article introduces a metamorphic testing framework to evaluate semantic invariance in the reasoning of large language models. It addresses the limitations of traditional accuracy-based evaluations, which fail to capture reasoning stability under semantically equivalent input variations. Eight metamorphic relations are defined, covering structural, verbosity, and contextual transformations, and applied to 79 reasoning problems across multiple scientific domains and difficulty levels. The study compares two recent foundation models and shows that, while both achieve similar overall invariance scores, they exhibit distinct vulnerability profiles depending on the type of transformation and domain. The findings demonstrate that metamorphic testing reveals robustness characteristics of language model reasoning that remain invisible to standard benchmarks, providing valuable insights for the reliable deployment of large language models in high-stakes reasoning applications. |
| Descripción : | Artículos en revistas |
| URI : | https://doi.org/10.1109/ACCESS.2025.3646270 |
| ISSN : | 2169-3536 |
| Aparece en las colecciones: | Artículos |
Ficheros en este ítem:
| Fichero | Tamaño | Formato | |
|---|---|---|---|
| Metamorphic_Testing_for_Semantic_Invariance_in_Large_Language_Models_deCurtoanddeZarza.pdf | 4,78 MB | Adobe PDF | Visualizar/Abrir |
Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.