Scaling LLM Inference on a Modern GPU Cluster
Resumen
Este Trabajo de Fin de Grado realiza un análisis multivariable del rendimiento de la inferencia de modelos de lenguaje de gran escala (LLMs), con el objetivo de identificar los principales factores que generan ineficiencia en el uso de recursos y sus implicaciones económicas para los proveedores de infraestructura. Para llevar a cabo este análisis, se desarrolló una pipelinde pruebas automatizada que permite desplegar LLMs de código abierto sobre un clúster de GPUs H100, generar cargas de trabajo realistas mediante flujos de peticiones controladas, y capturar telemetría de hardware de alta resolución en tiempo real. Variando sistemáticamente parámetros clave como la concurrencia, el tamaño del modelo, la longitud de la secuencia y el nivel de paralelismo tensorial, el estudio caracteriza cómo diferentes perfiles de carga afectan al rendimiento en términos de throughput, latencia y saturación de recursos. Los resultados empíricos se utilizan para derivar recomendaciones operativas adaptadas a cada uno de los principales roles implicados en la infraestructura de IA —desarrolladores, arquitectos de sistemas, proveedores de infraestructura y fabricantes de hardware— ofreciendo así una guía práctica para mejorar la eficiencia, escalabilidad y viabilidad económica de los sistemas de inferencia con LLMs. This Bachelor’s Thesis conducts a multivariable analysis of large-language-model (LLM) inference performance at scale, with the goal of identifying the primary factors driving resource inefficiency and their economic implications for infrastructure providers. To enable this analysis, an automated benchmarking pipeline was developed to deploy open-source LLMs on an H100 GPU cluster, generate realistic user workloads through controlled request streams, and capture fine-grained hardware telemetry in real time. By systematically varying key parameters such as concurrency, model size, sequence length, and tensor parallelism, the study characterises how different workload profiles affect throughput, latency, and resource saturation. The empirical results are used to derive role-aware operating recommendations tailored to developers, system architects, infrastructure providers, and hardware manufacturers, offering practical guidance for improving the efficiency, scalability, and economic viability of LLM inference systems.
Trabajo Fin de Grado
Scaling LLM Inference on a Modern GPU ClusterTitulación / Programa
Grado en Ingeniería en Tecnologías de TelecomunicaciónMaterias/ categorías / ODS
KTT (GITT)Palabras Clave
Modelos de Lenguaje de Gran Escala, Inferencia, Benchmarking, KV-Cache, Escalabilidad, vLLM, Infraestructura de IA.Large Language Models, Inference, Benchmarking, KV-Cache, Scalability, vLLM, AI Infrastructure.