Big data y transformaciión digital
Resumen
Este Trabajo de Fin de Grado tiene como principal objetivo llevar a cabo una evaluación
sobre la capacidad de un modelo de regresión lineal múltiple como herramienta eficaz para
conseguir ayudar a concesionarios de coches a estimar el que debería ser el precio adecuado
de un vehículo en función de características fácilmente observables. Para conseguirlo, se
parte un conjunto de datos real, y se ha desarrollado un proceso completo de limpieza,
transformación y selección de variables, seguido de la implementación y validación del
modelo utilizando técnicas de aprendizaje supervisado. Tras dividir la muestra en
entrenamiento y test, se ha implementado el modelo, evaluando su rendimiento mediante
métricas como el error cuadrático medio y el error absoluto medio.
Aunque el modelo muestra un buen ajuste en el conjunto de entrenamiento, los resultados en
test revelan importantes limitaciones predictivas. Las predicciones tienden a centrarse en
valores medios, sin captar adecuadamente la variabilidad de los precios. Se concluye que esto
puede ser consecuencia de factores clave que no han sido incluidos en el análisis, como el
estado real del vehículo, su historial o la percepción subjetiva de marca y modelo. Aun así, el
proceso ha permitido entender en profundidad tanto la lógica como las limitaciones de los
modelos de regresión en contextos reales, aportando valor metodológico y sirviendo como
base para futuros desarrollos más precisos en el ámbito de la digitalización del sector
automovilístico. The main objective of this Final Degree Project is to evaluate whether a multiple linear
regression model can be an effective tool to help dealers and salespeople to estimate the
appropriate price of a vehicle based on easily observable characteristics, such as year,
mileage, fuel type, transmission, vehicle condition or make. Starting from a real data set, a
complete process of cleaning, transformation and variable selection has been carried out,
followed by the implementation and validation of the model using supervised learning
techniques. After splitting the sample into training and test, the model was implemented,
evaluating its performance using metrics such as root mean square error and mean absolute
error.
Although the model shows a good fit in the training set, the test results reveal important
predictive limitations. Predictions tend to focus on mean values, without adequately
capturing price variability. This may be due to key factors that have not been included in the
analysis, such as the actual condition of the vehicle, its history or the subjective perception of
make and model. Even so, the process has provided an in-depth understanding of both the
logic and limitations of regression models in real-life contexts, providing methodological
value and serving as a basis for future, more precise developments in the field of of
digitalisation in the automotive sector.
Trabajo Fin de Grado
Big data y transformaciión digitalTitulación / Programa
Grado en Análisis de Negocios/Business Analytics y Grado en DerechoMaterias/ categorías / ODS
KBAPalabras Clave
Palabras clave: regresión lineal múltiple, Cross-validation, desviación típica, normalización, multicolinealidad, sector automovilístico, concesionario, precio, error cuadrático medio, error absoluto medio, variables independientes.Key words: multiple linear regression, Cross-validation, standard deviation, normalisation, multicollinearity, automotive industry, dealer, price, mean square error, mean absolute error, independent variables.