Scaling LLM Inference on a Modern GPU Cluster

González Morán, Laura

dc.contributor.advisor	Fernández-Pacheco Sánchez-Migallón, Atilano Ramiro	es-ES
dc.contributor.author	González Morán, Laura	es-ES
dc.contributor.other	Universidad Pontificia Comillas, Escuela Técnica Superior de Ingeniería (ICAI)	es_ES
dc.date.accessioned	2024-10-28T16:47:35Z
dc.date.available	2024-10-28T16:47:35Z
dc.date.issued	2025	es_ES
dc.identifier.uri	http://hdl.handle.net/11531/95454	es_ES
dc.description	Grado en Ingeniería en Tecnologías de Telecomunicación	es_ES
dc.description.abstract	Este Trabajo de Fin de Grado realiza un análisis multivariable del rendimiento de la inferencia de modelos de lenguaje de gran escala (LLMs), con el objetivo de identificar los principales factores que generan ineficiencia en el uso de recursos y sus implicaciones económicas para los proveedores de infraestructura. Para llevar a cabo este análisis, se desarrolló una pipelinde pruebas automatizada que permite desplegar LLMs de código abierto sobre un clúster de GPUs H100, generar cargas de trabajo realistas mediante flujos de peticiones controladas, y capturar telemetría de hardware de alta resolución en tiempo real. Variando sistemáticamente parámetros clave como la concurrencia, el tamaño del modelo, la longitud de la secuencia y el nivel de paralelismo tensorial, el estudio caracteriza cómo diferentes perfiles de carga afectan al rendimiento en términos de throughput, latencia y saturación de recursos. Los resultados empíricos se utilizan para derivar recomendaciones operativas adaptadas a cada uno de los principales roles implicados en la infraestructura de IA —desarrolladores, arquitectos de sistemas, proveedores de infraestructura y fabricantes de hardware— ofreciendo así una guía práctica para mejorar la eficiencia, escalabilidad y viabilidad económica de los sistemas de inferencia con LLMs.	es-ES
dc.description.abstract	This Bachelor’s Thesis conducts a multivariable analysis of large-language-model (LLM) inference performance at scale, with the goal of identifying the primary factors driving resource inefficiency and their economic implications for infrastructure providers. To enable this analysis, an automated benchmarking pipeline was developed to deploy open-source LLMs on an H100 GPU cluster, generate realistic user workloads through controlled request streams, and capture fine-grained hardware telemetry in real time. By systematically varying key parameters such as concurrency, model size, sequence length, and tensor parallelism, the study characterises how different workload profiles affect throughput, latency, and resource saturation. The empirical results are used to derive role-aware operating recommendations tailored to developers, system architects, infrastructure providers, and hardware manufacturers, offering practical guidance for improving the efficiency, scalability, and economic viability of LLM inference systems.	en-GB
dc.format.mimetype	application/pdf	es_ES
dc.language.iso	en-GB	es_ES
dc.rights	Attribution-NonCommercial-NoDerivs 3.0 United States	es_ES
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/us/	es_ES
dc.subject.other	KTT (GITT)	es_ES
dc.title	Scaling LLM Inference on a Modern GPU Cluster	es_ES
dc.type	info:eu-repo/semantics/bachelorThesis	es_ES
dc.rights.accessRights	info:eu-repo/semantics/openAccess	es_ES
dc.keywords	Modelos de Lenguaje de Gran Escala, Inferencia, Benchmarking, KV-Cache, Escalabilidad, vLLM, Infraestructura de IA.	es-ES
dc.keywords	Large Language Models, Inference, Benchmarking, KV-Cache, Scalability, vLLM, AI Infrastructure.	en-GB

Ficheros en el ítem

Nombre:: TFG_GonzalezMoranLaura.pdf
Tamaño:: 8.420Mb
Formato:: PDF
Descripción:: Trabajo Fin de Grado

Ver/

Nombre:: AnexoI.pdf
Tamaño:: 181.1Kb
Formato:: PDF
Descripción:: Autorización

Ver/

Este ítem aparece en la(s) siguiente(s) colección(ones)

KTT-Trabajos Fin de Grado

Mostrar el registro sencillo del ítem

Excepto si se señala otra cosa, la licencia del ítem se describe como Attribution-NonCommercial-NoDerivs 3.0 United States