Aplicación de técnicas de Machine Learning para la eliminación de información sensible

Martínez García, Beatriz

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/11531/76700

Registro completo de metadatos

Campo DC	Valor	Lengua/Idioma
dc.contributor.advisor	LLorente Pinto, Alejandro	es-ES
dc.contributor.author	Martínez García, Beatriz	es-ES
dc.contributor.other	Universidad Pontificia Comillas, Escuela Técnica Superior de Ingeniería (ICAI)	es_ES
dc.date.accessioned	2023-01-23T17:36:45Z
dc.date.available	2023-01-23T17:36:45Z
dc.date.issued	2023	es_ES
dc.identifier.uri	http://hdl.handle.net/11531/76700
dc.description	Grado en Ingeniería en Tecnologías Industriales y Grado en Administración y Dirección de Empresas	es_ES
dc.description.abstract	Este trabajo de investigación pretende aplicar técnicas basadas en modelos de regresión lineal y regresión logística para evaluar modelos entrenados partir de datos reales (por medio de Python). Tras el entrenamiento, los objetivos son determinar el impacto que tienen las técnicas de eliminación de información en el proceso de predicción, así como estudiar técnicas que permitan eliminar información sensible implícita en las variables que lo constituyen. En el trabajo se utiliza un conjunto de datos público que hace referencia a información obtenida por el gobierno de Estados Unidos sobre la vivienda en el área de Boston. Estos datos contienen información implícita y explícita sobre la proporción de personas de raza negra por ciudad y del porcentaje de personas de estatus inferior, variables que se han considerado sensibles. Tras aplicar técnicas de medida de equidad en los modelos, se ha determinado que el modelo discrimina por las variables mencionadas. Por ello, se han entrenado dos modelos adicionales utilizando técnicas de reducción de unfairness. El primer modelo ha sido entrenado tras eliminar las variables sensibles del conjunto de datos y se ha concluido que no es suficiente para lograr un modelo que no discrimina debido a la existencia de información sensible implícita en otras variables. Para el segundo modelo se ha utilizado un conjunto de datos transformado por el Método de Gram-Schmidt. Se ha conseguido un modelo más equitativo que los dos anteriores, a costa de una pérdida en la capacidad predictiva.	es-ES
dc.description.abstract	This research project aims to apply techniques based on linear regression and logistic regression models to evaluate models trained on real data using python. After training, the objectives are to determine the predictive capability of the model and study techniques that allow for the removal of implicit sensitive information in the variables that compose it. The study utilizes a public dataset obtained by the United States government regarding housing in the Boston area. These data contain implicit and explicit information about the proportion of black individuals per city and the percentage of individuals with lower socioeconomic status. These variables have been deemed sensitive. It has been determined through fairness measurement techniques in the models that the model discriminates based on the sensitive variables. Therefore, two additional models have been trained using unfairness reduction techniques. The first model was trained after removing the sensitive variables from the dataset, and it has been concluded that it is not sufficient to achieve a non-discriminatory model due to the existence of implicit sensitive information in other variables. For the second model, a dataset transformed by the Gram-Schmidt method has been used. A more equitable model has been achieved compared to the previous two, at the cost of a loss in predictive capability.	en-GB
dc.format.mimetype	application/pdf	es_ES
dc.language.iso	es-ES	es_ES
dc.rights	Attribution-NonCommercial-NoDerivs 3.0 United States	es_ES
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/us/	es_ES
dc.subject	12 Matemáticas	es_ES
dc.subject	1203 Ciencias de los ordenadores	es_ES
dc.subject	120304 Inteligencia artificial	es_ES
dc.subject.other	KTI-organizacion (GITI-O)	es_ES
dc.title	Aplicación de técnicas de Machine Learning para la eliminación de información sensible	es_ES
dc.type	info:eu-repo/semantics/bachelorThesis	es_ES
dc.rights.accessRights	info:eu-repo/semantics/openAccess	es_ES
dc.keywords	Equidad, Aprendizaje Automático, Regresión lineal, Regresión logística, Información sensible	es-ES
dc.keywords	Fairness, Machine Learning, Linear regression, Logistic regression, Sensitive information	en-GB
Aparece en las colecciones:	KTI-Trabajos Fin de Grado

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
TFG_MartinezGarciaBeatriz.pdf	Trabajo Fin de Grado	1,76 MB	Adobe PDF	Visualizar/Abrir
AnexoI_BeatrizMartinezGarcia.pdf	Autorización	343,63 kB	Adobe PDF	Visualizar/Abrir Request a copy

Mostrar el registro sencillo del ítem