• English
    • español
  • español 
    • English
    • español
  • Login
Ver ítem 
  •   DSpace Principal
  • 2.- Investigación
  • Artículos
  • Ver ítem
  •   DSpace Principal
  • 2.- Investigación
  • Artículos
  • Ver ítem
JavaScript is disabled for your browser. Some features of this site may not work without it.

Cross-platform evaluation of reasoning capabilities in foundation models across heterogeneous computational infrastructures

Thumbnail
Ver/
crossplatform_llm_decurtoetal.pdf (3.707Mb)
Fecha
2026-11-02
Autor
de Curtò i Díaz, Joaquim
de Zarzà i Cubero, Irene
García Molina, Pablo
Cabot, Jordi
Cano, Juan Carlos
Calafate, Carlos T.
Estado
info:eu-repo/semantics/publishedVersion
Metadatos
Mostrar el registro completo del ítem
Mostrar METS del ítem
Ver registro en CKH

Refworks Export

Resumen
Este artículo presenta una evaluación comparativa de las capacidades de razonamiento de modelos fundacionales de lenguaje en diferentes infraestructuras computacionales, incluyendo supercomputación, servicios en la nube y clústeres universitarios. El estudio analiza quince modelos mediante un benchmark de 79 problemas distribuidos en ocho dominios académicos. Los resultados muestran que la calidad del razonamiento depende principalmente del modelo y no de la infraestructura utilizada, siempre que las condiciones de inferencia sean equivalentes. Además, se identifican diferencias relevantes entre precisión final y transparencia del razonamiento paso a paso. El trabajo destaca que modelos más pequeños y optimizados pueden superar a arquitecturas de mayor tamaño y propone una metodología reproducible para la evaluación de modelos de inteligencia artificial en contextos científicos y educativos.
 
This article presents a comparative evaluation of reasoning capabilities in foundation language models across different computational infrastructures, including supercomputers, cloud services, and university clusters. The study analyzes fifteen models using a benchmark of 79 problems distributed across eight academic domains. Results show that reasoning quality primarily depends on the model itself rather than on the infrastructure, provided that inference conditions remain equivalent. The paper also identifies significant differences between final-answer accuracy and step-by-step reasoning transparency. Furthermore, the study demonstrates that smaller and better-optimized models can outperform larger architectures in reasoning tasks. Finally, the authors propose a reproducible framework for evaluating artificial intelligence models in scientific, educational, and research-oriented environments.
 
URI
http://dx.doi.org/10.1016/j.ipm.2026.104878
Cross-platform evaluation of reasoning capabilities in foundation models across heterogeneous computational infrastructures
Tipo de Actividad
Artículos en revistas
ISSN
0306-4573
Palabras Clave
Modelos fundacionales, Inteligencia artificial, Razonamiento automático, Evaluación reproducible, Infraestructura computacional, Modelos de lenguaje, Benchmarking
Foundation models, Artificial intelligence, Automated reasoning, Reproducible evaluation, Computational infrastructure, Language models, Benchmarking
Colecciones
  • Artículos

Repositorio de la Universidad Pontificia Comillas copyright © 2015  Desarrollado con DSpace Software
Contacto | Sugerencias
 

 

Búsqueda semántica (CKH Explorer)


Listar

Todo DSpaceComunidades & ColeccionesPor fecha de publicaciónAutoresTítulosMateriasPor DirectorPor tipoEsta colecciónPor fecha de publicaciónAutoresTítulosMateriasPor DirectorPor tipo

Mi cuenta

AccederRegistro

Repositorio de la Universidad Pontificia Comillas copyright © 2015  Desarrollado con DSpace Software
Contacto | Sugerencias