Cross-platform evaluation of reasoning capabilities in foundation models across heterogeneous computational infrastructures

de Curtò i Díaz, Joaquim; de Zarzà i Cubero, Irene; García Molina, Pablo; Cabot, Jordi; Cano, Juan Carlos; Calafate, Carlos T.

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/11531/109980

Registro completo de metadatos

Campo DC	Valor	Lengua/Idioma
dc.contributor.author	de Curtò i Díaz, Joaquim	es-ES
dc.contributor.author	de Zarzà i Cubero, Irene	es-ES
dc.contributor.author	García Molina, Pablo	es-ES
dc.contributor.author	Cabot, Jordi	es-ES
dc.contributor.author	Cano, Juan Carlos	es-ES
dc.contributor.author	Calafate, Carlos T.	es-ES
dc.date.accessioned	2026-05-08T07:26:07Z	-
dc.date.available	2026-05-08T07:26:07Z	-
dc.date.issued	2026-11-02	es_ES
dc.identifier.issn	0306-4573	es_ES
dc.identifier.uri	http://dx.doi.org/10.1016/j.ipm.2026.104878	es_ES
dc.description	Artículos en revistas	es_ES
dc.description.abstract	Este artículo presenta una evaluación comparativa de las capacidades de razonamiento de modelos fundacionales de lenguaje en diferentes infraestructuras computacionales, incluyendo supercomputación, servicios en la nube y clústeres universitarios. El estudio analiza quince modelos mediante un benchmark de 79 problemas distribuidos en ocho dominios académicos. Los resultados muestran que la calidad del razonamiento depende principalmente del modelo y no de la infraestructura utilizada, siempre que las condiciones de inferencia sean equivalentes. Además, se identifican diferencias relevantes entre precisión final y transparencia del razonamiento paso a paso. El trabajo destaca que modelos más pequeños y optimizados pueden superar a arquitecturas de mayor tamaño y propone una metodología reproducible para la evaluación de modelos de inteligencia artificial en contextos científicos y educativos.	es-ES
dc.description.abstract	This article presents a comparative evaluation of reasoning capabilities in foundation language models across different computational infrastructures, including supercomputers, cloud services, and university clusters. The study analyzes fifteen models using a benchmark of 79 problems distributed across eight academic domains. Results show that reasoning quality primarily depends on the model itself rather than on the infrastructure, provided that inference conditions remain equivalent. The paper also identifies significant differences between final-answer accuracy and step-by-step reasoning transparency. Furthermore, the study demonstrates that smaller and better-optimized models can outperform larger architectures in reasoning tasks. Finally, the authors propose a reproducible framework for evaluating artificial intelligence models in scientific, educational, and research-oriented environments.	en-GB
dc.format.mimetype	application/pdf	es_ES
dc.language.iso	en-GB	es_ES
dc.rights		es_ES
dc.rights.uri		es_ES
dc.source	Revista: Information Processing & Management, Periodo: 1, Volumen: 63, Número: 7, Part B, Página inicial: 104878, Página final: 104878	es_ES
dc.title	Cross-platform evaluation of reasoning capabilities in foundation models across heterogeneous computational infrastructures	es_ES
dc.type	info:eu-repo/semantics/article	es_ES
dc.description.version	info:eu-repo/semantics/publishedVersion	es_ES
dc.rights.holder	Politica editorial	es_ES
dc.rights.accessRights	info:eu-repo/semantics/restrictedAccess	es_ES
dc.keywords	Modelos fundacionales, Inteligencia artificial, Razonamiento automático, Evaluación reproducible, Infraestructura computacional, Modelos de lenguaje, Benchmarking	es-ES
dc.keywords	Foundation models, Artificial intelligence, Automated reasoning, Reproducible evaluation, Computational infrastructure, Language models, Benchmarking	en-GB
Aparece en las colecciones:	Artículos

Ficheros en este ítem:

Fichero	Tamaño	Formato
crossplatform_llm_decurtoetal.pdf	3,8 MB	Adobe PDF	Visualizar/Abrir Request a copy

Mostrar el registro sencillo del ítem