Mostrar el registro sencillo del ítem

dc.contributor.advisorFernández-Pacheco Sánchez-Migallón, Atilano Ramiroes-ES
dc.contributor.authorGonzález Morán, Lauraes-ES
dc.contributor.otherUniversidad Pontificia Comillas, Escuela Técnica Superior de Ingeniería (ICAI)es_ES
dc.date.accessioned2024-10-28T16:47:35Z
dc.date.available2024-10-28T16:47:35Z
dc.date.issued2025es_ES
dc.identifier.urihttp://hdl.handle.net/11531/95454es_ES
dc.descriptionGrado en Ingeniería en Tecnologías de Telecomunicaciónes_ES
dc.description.abstractEste Trabajo de Fin de Grado realiza un análisis multivariable del rendimiento de la inferencia de modelos de lenguaje de gran escala (LLMs), con el objetivo de identificar los principales factores que generan ineficiencia en el uso de recursos y sus implicaciones económicas para los proveedores de infraestructura. Para llevar a cabo este análisis, se desarrolló una pipelinde pruebas automatizada que permite desplegar LLMs de código abierto sobre un clúster de GPUs H100, generar cargas de trabajo realistas mediante flujos de peticiones controladas, y capturar telemetría de hardware de alta resolución en tiempo real. Variando sistemáticamente parámetros clave como la concurrencia, el tamaño del modelo, la longitud de la secuencia y el nivel de paralelismo tensorial, el estudio caracteriza cómo diferentes perfiles de carga afectan al rendimiento en términos de throughput, latencia y saturación de recursos. Los resultados empíricos se utilizan para derivar recomendaciones operativas adaptadas a cada uno de los principales roles implicados en la infraestructura de IA —desarrolladores, arquitectos de sistemas, proveedores de infraestructura y fabricantes de hardware— ofreciendo así una guía práctica para mejorar la eficiencia, escalabilidad y viabilidad económica de los sistemas de inferencia con LLMs.es-ES
dc.description.abstractThis Bachelor’s Thesis conducts a multivariable analysis of large-language-model (LLM) inference performance at scale, with the goal of identifying the primary factors driving resource inefficiency and their economic implications for infrastructure providers. To enable this analysis, an automated benchmarking pipeline was developed to deploy open-source LLMs on an H100 GPU cluster, generate realistic user workloads through controlled request streams, and capture fine-grained hardware telemetry in real time. By systematically varying key parameters such as concurrency, model size, sequence length, and tensor parallelism, the study characterises how different workload profiles affect throughput, latency, and resource saturation. The empirical results are used to derive role-aware operating recommendations tailored to developers, system architects, infrastructure providers, and hardware manufacturers, offering practical guidance for improving the efficiency, scalability, and economic viability of LLM inference systems.en-GB
dc.format.mimetypeapplication/pdfes_ES
dc.language.isoen-GBes_ES
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 United Stateses_ES
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/us/es_ES
dc.subject.otherKTT (GITT)es_ES
dc.titleScaling LLM Inference on a Modern GPU Clusteres_ES
dc.typeinfo:eu-repo/semantics/bachelorThesises_ES
dc.rights.accessRightsinfo:eu-repo/semantics/openAccesses_ES
dc.keywordsModelos de Lenguaje de Gran Escala, Inferencia, Benchmarking, KV-Cache, Escalabilidad, vLLM, Infraestructura de IA.es-ES
dc.keywordsLarge Language Models, Inference, Benchmarking, KV-Cache, Scalability, vLLM, AI Infrastructure.en-GB


Ficheros en el ítem

Thumbnail
Thumbnail

Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem

Attribution-NonCommercial-NoDerivs 3.0 United States
Excepto si se señala otra cosa, la licencia del ítem se describe como Attribution-NonCommercial-NoDerivs 3.0 United States