Mostrar el registro sencillo del ítem

dc.contributor.advisorGago Rodríguez, Susana Josefaes-ES
dc.contributor.authorOquiñena Goyena, Claraes-ES
dc.contributor.otherUniversidad Pontificia Comillas, Facultad de Ciencias Económicas y Empresarialeses_ES
dc.date.accessioned2025-07-08T09:03:27Z
dc.date.available2025-07-08T09:03:27Z
dc.date.issued2026es_ES
dc.identifier.urihttp://hdl.handle.net/11531/100165
dc.descriptionGrado en Administración y Dirección de Empresas y Grado en Análisis de Negocios/Business Analyticses_ES
dc.description.abstractEn la actualidad, la sociedad se encuentra expuesta a un flujo constante de información digital, caracterizado por la limitada presencia de mecanismos de filtrado y la democratización en la generación de contenidos. Este contexto ha favorecido la proliferación de noticias falsas, las cuales constituyen una amenaza para la estabilidad social. Asimismo, la inmediatez de las redes sociales y el consumo fragmentado de información contribuyen a amplificar este fenómeno, que se ve agravado por la escasa verificación de las fuentes y la falta de atención crítica por parte de los usuarios, facilitando así la difusión de la desinformación. En este marco, el presente Trabajo de Fin de Grado analiza la evolución de las soluciones tecnológicas orientadas a combatir la infodemia, evaluando la eficacia de los Modelos de Lenguaje de Gran Tamaño (LLM) en comparación con enfoques tradicionales de aprendizaje automático. El objetivo principal de la investigación es determinar si la transición desde métodos basados en reglas y características superficiales hacia modelos capaces de capturar el contexto semántico y el razonamiento lingüístico representa una mejora significativa en la detección de noticias falsas. Desde una perspectiva experimental, el estudio emplea la base de datos “The Spanish Fake News Corpus” y realiza un Análisis Exploratorio de Datos (EDA) con el fin de identificar patrones lingüísticos característicos de la desinformación, como la simplicidad estructural y una elevada carga emocional, especialmente asociada a la ira. En cuanto a la metodología, se lleva a cabo una comparativa entre modelos clásicos de aprendizaje automático (como Random Forest, SVM y XGBoost) y el modelo de última generación Falcon3-1B. Los resultados obtenidos evidencian un avance significativo, reflejado tanto en la reducción de la necesidad de procesamiento manual como en la obtención de métricas elevadas, alcanzando una precisión del 90 % y un recall del 95 % en la clase de noticias falsas tras la optimización del umbral de clasificación. En conclusión, los modelos de lenguaje de gran tamaño se consolidan como herramientas eficaces para mitigar los efectos de la desinformación. Su capacidad para comprender el lenguaje en profundidad, adaptarse a contextos dinámicos y su continuo desarrollo sugieren un escenario prometedor en la construcción de una sociedad más crítica, informada y resiliente frente a los desafíos informativos actuales.es-ES
dc.description.abstractToday, society is exposed to a constant flow of digital information, characterised by a lack of filtering mechanisms and the democratisation of content creation. This context has encouraged the proliferation of fake news, which poses a threat to social stability. Furthermore, the immediacy of social media and the fragmented consumption of information contribute to amplifying this phenomenon, which is exacerbated by the lack of source verification and critical engagement on the part of users, thereby facilitating the spread of misinformation. Within this framework, this Final Year Project analyses the evolution of technological solutions aimed at combating the infodemic, evaluating the effectiveness of Large Language Models (LLMs) in comparison with traditional machine learning approaches. The main objective of the research is to determine whether the transition from rule-based methods and superficial features to models capable of capturing semantic context and linguistic reasoning represents a significant improvement in the detection of fake news. From an experimental perspective, the study uses the “Spanish Fake News Corpus” database and conducts Exploratory Data Analysis (EDA) to identify linguistic patterns characteristic of disinformation, such as structural simplicity and a high emotional charge, particularly associated with anger. In terms of methodology, a comparison is carried out between classical machine learning models (such as Random Forest, SVM and XGBoost) and the state-of-the-art Falcon3-1B model. The results obtained demonstrate significant progress, reflected both in the reduced need for manual processing and in the achievement of high metrics, reaching an accuracy of 90% and a recall of 95% in the fake news class following the optimisation of the classification threshold. In conclusion, large language models are establishing themselves as effective tools for mitigating the effects of disinformation. Their ability to understand language in depth, adapt to dynamic contexts and their ongoing development suggest a promising future in building a society that is more critical, informed and resilient in the face of current information challenges.en-GB
dc.format.mimetypeapplication/pdfes_ES
dc.language.isoes-ESes_ES
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 United Stateses_ES
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/us/es_ES
dc.subject.otherKBAes_ES
dc.titleDesinformación digital: detección de noticias falsas con modelos de lenguaje y análisis contextuales_ES
dc.typeinfo:eu-repo/semantics/bachelorThesises_ES
dc.rights.accessRightsinfo:eu-repo/semantics/openAccesses_ES
dc.keywordsDetección de noticias falsas, Desinformación, Procesamiento del lenguaje natural, Modelos de lenguaje de gran tamañoes-ES
dc.keywordsDetection of fake news, Disinformation, Natural language processing, Large language modelsen-GB


Ficheros en el ítem

Thumbnail

Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem

Attribution-NonCommercial-NoDerivs 3.0 United States
Excepto si se señala otra cosa, la licencia del ítem se describe como Attribution-NonCommercial-NoDerivs 3.0 United States