Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/11531/107917
Registro completo de metadatos
Campo DC Valor Lengua/Idioma
dc.contributor.authorde Curtò i Díaz, Joaquimes-ES
dc.contributor.authorde Zarzà i Cubero, Irenees-ES
dc.date.accessioned2026-01-05T08:30:14Z-
dc.date.available2026-01-05T08:30:14Z-
dc.date.issued2025-12-19es_ES
dc.identifier.issn2169-3536es_ES
dc.identifier.urihttps://doi.org/10.1109/ACCESS.2025.3646270es_ES
dc.descriptionArtículos en revistases_ES
dc.description.abstractEste artículo presenta un marco de pruebas metamórficas para evaluar la invariancia semántica en el razonamiento de grandes modelos de lenguaje. El estudio parte de la limitación de las evaluaciones tradicionales basadas únicamente en la precisión, que no captan la estabilidad del razonamiento ante variaciones semánticamente equivalentes de una misma entrada. Se definen ocho relaciones metamórficas que abarcan transformaciones estructurales, de verbosidad y contextuales, y se aplican a 79 problemas de razonamiento de distintas disciplinas científicas y niveles de dificultad. El análisis compara dos modelos fundacionales recientes y muestra que, aunque ambos alcanzan puntuaciones globales de invariancia similares, presentan perfiles de vulnerabilidad diferentes. Los resultados evidencian que las pruebas metamórficas permiten identificar inestabilidades del razonamiento que no son detectables mediante métricas de precisión convencionales, aportando información relevante para el despliegue seguro de modelos de lenguaje en contextos de alto impacto.es-ES
dc.description.abstractThis article introduces a metamorphic testing framework to evaluate semantic invariance in the reasoning of large language models. It addresses the limitations of traditional accuracy-based evaluations, which fail to capture reasoning stability under semantically equivalent input variations. Eight metamorphic relations are defined, covering structural, verbosity, and contextual transformations, and applied to 79 reasoning problems across multiple scientific domains and difficulty levels. The study compares two recent foundation models and shows that, while both achieve similar overall invariance scores, they exhibit distinct vulnerability profiles depending on the type of transformation and domain. The findings demonstrate that metamorphic testing reveals robustness characteristics of language model reasoning that remain invisible to standard benchmarks, providing valuable insights for the reliable deployment of large language models in high-stakes reasoning applications.en-GB
dc.format.mimetypeapplication/pdfes_ES
dc.language.isoen-GBes_ES
dc.rightsCreative Commons Reconocimiento-NoComercial-SinObraDerivada Españaes_ES
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/es/es_ES
dc.sourceRevista: IEEE Access, Periodo: 1, Volumen: 13, Número: 2025, Página inicial: 1, Página final: 20es_ES
dc.titleMetamorphic Testing for Semantic Invariance in Large Language Modelses_ES
dc.typeinfo:eu-repo/semantics/articlees_ES
dc.description.versioninfo:eu-repo/semantics/publishedVersiones_ES
dc.rights.holderes_ES
dc.rights.accessRightsinfo:eu-repo/semantics/openAccesses_ES
dc.keywordsModelos De Lenguaje, Pruebas Metamórficas, Invariancia Semántica, Robustez Del Razonamiento, Evaluación De IAes-ES
dc.keywordsLanguage Models, Metamorphic Testing, Semantic Invariance, Reasoning Robustness, AI Evaluationen-GB
Aparece en las colecciones: Artículos



Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.