EVALUACIÓN DEL EFECTO DEL RUIDO EN EL DESEMPEÑO DE DISTINTOS MODELOS DE MACHINE LEARNING

Montells Jiménez, Gerardo

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/11531/100031

Título :	EVALUACIÓN DEL EFECTO DEL RUIDO EN EL DESEMPEÑO DE DISTINTOS MODELOS DE MACHINE LEARNING
Autor :	Arroyo Barrigüete, José Luis Montells Jiménez, Gerardo Universidad Pontificia Comillas, Facultad de Ciencias Económicas y Empresariales
Fecha de publicación :	2026
Resumen :	El objetivo principal de mi trabajo es analizar, utilizando una metodología teórico-práctica mixta - investigación y desarrollo de código - los efectos del ruido en los distintos modelos de Machine Learning. La parte de programación utilizará el entorno de programación R y se estructurará mediante un proceso iterativo (bucle). En este, se incluirán distintos modelos predictivos de ML que deberán soportar - y donde analizaremos - el efecto del ruido sobre el dataset inicial, que analiza la probabilidad de abandono (Dropout) o graduación (Graduate) de un conjunto de estudiantes en función de distintas características socioeconómicas y académicas. El tipo de ruido estudiado simula errores de etiquetado en los datos de entrenamiento: situaciones en las que el resultado real de un estudiante queda registrado de forma incorrecta, por ejemplo, un abandono clasificado como graduación o viceversa. Este escenario es habitual en datasets reales, donde los registros pueden contener errores administrativos o criterios de clasificación inconsistentes. Mediante el bucle en R, se irá introduciendo progresivamente mayor ruido en la variable dependiente (Target) del conjunto de entrenamiento, incrementando en cada iteración la probabilidad de error de etiquetado desde el 0% hasta el 50% en saltos del 5%. El conjunto de test permanece limpio en todo momento, de modo que las métricas reflejan el rendimiento real de cada modelo cuando se entrena con etiquetas corruptas pero se evalúa sobre datos fiables. El rendimiento se medirá en cada iteración utilizando tres métricas clave: Exactitud (Accuracy), Sensibilidad (Sensitivity) y Especificidad (Specificity). El objetivo final es determinar la robustez de cada modelo, identificando aquel que demuestre menor degradación en sus métricas ante el aumento del ruido, buscando así el modelo de Machine Learning más resistente a los errores de etiquetado. The main objective of my work is to analyze, using mixed theoretical-practical methodology research and code development-the effects of noise on various machine learning models. The programming component will use the R programming environment and will be structured as an iterative process (loop). This process will include various ML predictive models that must account for-and where we will analyze-the effect of noise on the initial dataset, which analyzes the probability of dropout or graduation for a group of students based on various socioeconomic and academic characteristics. The type of noise studied simulates labeling errors in the training data: situations in which a student’s actual outcome is recorded incorrectly, for example, a dropout classified as a graduate or vice versa. This scenario is common in real-world datasets, where records may contain administrative errors or inconsistent classification criteria. Using a loop in R, we will progressively introduce more noise into the dependent variable (Target) of the training set, increasing the probability of labeling error in each iteration from 0% to 50% in 5% increments. The test set remains clean at all times, so that the metrics reflect the actual performance of each model when trained with corrupted labels but evaluated on clean data. Performance will be measured at each iteration using three key metrics: Accuracy, Sensitivity, and Specificity. The ultimate goal is to determine the robustness of each model, identifying the one that shows the least degradation in its metrics as noise increases, thereby seeking the machine learning model most resistant to labeling errors.
Descripción :	Grado en Análisis de Negocios/Business Analytics y Grado en Derecho
URI :	http://hdl.handle.net/11531/100031
Aparece en las colecciones:	TFG, TFM (temporales)

Ficheros en este ítem:

Fichero	Tamaño	Formato
EVALUACIÓN DEL EFECTO DEL RUIDO EN EL DESEMPEÑO DE DISTINTOS MODELOS DE MACHINE LEARNING - Montells Jiménez, Gerardo.pdf	1,39 MB	Adobe PDF	Visualizar/Abrir

Mostrar el registro Dublin Core completo del ítem