Modelos de lenguaje cuantizados para la generación eficiente de texto sintético

Santamaría Báez, Laura

dc.contributor.advisor	Cifuentes Quintero, Jenny Alexandra	es-ES
dc.contributor.author	Santamaría Báez, Laura	es-ES
dc.contributor.other	Universidad Pontificia Comillas, Facultad de Ciencias Económicas y Empresariales	es_ES
dc.date.accessioned	2025-07-08T15:30:29Z
dc.date.available	2025-07-08T15:30:29Z
dc.date.issued	2026	es_ES
dc.identifier.uri	http://hdl.handle.net/11531/100243
dc.description	Grado en Análisis de Negocios/Business Analytics y Grado en Derecho	es_ES
dc.description.abstract	La rápida evolución de los Large Language Models (LLMs) ha desplazado el foco desde el aumento del número de parámetros hacia la disponibilidad y calidad de los datos de entrenamiento como factor determinante de su rendimiento y generalización. Sin embargo, recopilar grandes volúmenes de texto de alta calidad presenta limitaciones prácticas, económicas, legales y éticas, lo que ha impulsado la generación de datos sintéticos como vía para mitigar la escasez de datos reales. La literatura muestra una evolución progresiva de estas técnicas, desde modelos probabilísticos y arquitecturas adversariales hasta los transformers y los LLMs instruccionales actuales. En conjunto, los trabajos revisados señalan que la utilidad de los datos sintéticos depende del diseño del prompt, del uso de ejemplos en contexto y de la diversidad del corpus, y destacan retos persistentes vinculados a la coherencia, la alineación semántica y el control de atributos pragmáticos. En este contexto, el presente Trabajo de Fin de Grado propone una metodología sistemática y reproducible para la generación de datos textuales sintéticos mediante la combinación de LLMs cuantizados y técnicas de prompting. La metodología se articula en tres fases principales: la selección de un modelo cuantizado eficiente para entornos con recursos limitados, la generación controlada de textos mediante distintas estrategias de prompting (directas y multipaso), y la evaluación intrínseca del corpus a través de métricas automáticas de calidad lingüística, adecuación al prompt y diversidad. Los resultados demuestran que es posible generar datos textuales sintéticos de alta calidad en entornos CPU-only. En particular, el modelo LLaMA 3.2 Instruct (3B) cuantizado en formato GGUF se consolida como la alternativa que ofrece el mejor equilibrio entre eficiencia computacional y calidad funcional del texto. Asimismo, el análisis comparativo de las técnicas de prompting revela la existencia de compromisos estructurales entre control instruccional, fluidez lingüística y diversidad del corpus. Mientras que las estrategias basadas en instrucciones explícitas favorecen la coherencia y la estabilidad lingüística, las técnicas multipaso y aquellas orientadas a la exploración dinámica incrementan la diversidad léxica y estructural. Finalmente, se observa que las restricciones formales resultan altamente controlables mediante prompting, mientras que atributos semánticos y pragmáticos, como el mantenimiento del tema o la adecuación del tono, continúan representando los principales retos en la generación automática.	es-ES
dc.description.abstract	The rapid evolution of Large Language Models (LLMs) has shifted the focus from increasing parameter counts toward the availability and quality of training data as the key determinant of performance and generalization. However, collecting large volumes of high-quality text presents practical, economic, legal, and ethical constraints, which has driven the use of synthetic data generation as a way to mitigate the scarcity of real data. The literature shows a progressive evolution of these techniques, from probabilistic models and adversarial architectures to modern transformers and instruction-tuned LLMs. Overall, the reviewed works indicate that the usefulness of synthetic data depends on prompt design, the use of in-context examples, and corpus diversity, while also highlighting persistent challenges related to coherence, semantic alignment, and control of pragmatic attributes. In this context, the present Bachelor’s Thesis proposes a systematic and reproducible methodology for generating synthetic textual data through the combination of quantized LLMs and prompting techniques. The methodology is structured into three main phases: the selection of an efficient quantized model for resource-constrained environments, the controlled generation of texts using different prompting strategies (direct and multi-step), and the intrinsic evaluation of the corpus through automatic metrics of linguistic quality, prompt adherence, and diversity. The results demonstrate that it is possible to generate high-quality synthetic textual data in CPU-only environments. In particular, the quantized GGUF version of the LLaMA 3.2 Instruct (3B) model emerges as the alternative offering the best balance between computational efficiency and functional text quality. Furthermore, the comparative analysis of prompting techniques reveals structural trade-offs among instructional control, linguistic fluency, and corpus diversity. While strategies based on explicit instructions favor coherence and linguistic stability, multi-step and exploration-oriented techniques increase lexical and structural diversity. Finally, the findings show that formal constraints can be controlled effectively through prompting, whereas semantic and pragmatic attributes, such as topic consistency and tone appropriateness, remain the main challenges in automatic text generation.	en-GB
dc.format.mimetype	application/pdf	es_ES
dc.language.iso	es-ES	es_ES
dc.rights	Attribution-NonCommercial-NoDerivs 3.0 United States	es_ES
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/us/	es_ES
dc.subject.other	KBA	es_ES
dc.title	Modelos de lenguaje cuantizados para la generación eficiente de texto sintético	es_ES
dc.type	info:eu-repo/semantics/bachelorThesis	es_ES
dc.rights.accessRights	info:eu-repo/semantics/openAccess	es_ES
dc.keywords	datos sintéticos de texto, LLMs, cuantización, prompting, NLP, calidad.	es-ES
dc.keywords	synthetic text data, LLMs, quantization, prompting, NLP, text quality.	en-GB

Files in this item

Name:: Propuesta_TFG__LLMs_Generación ...
Size:: 94.64Kb
Format:: PDF
Description:: PREC

View/Open

Name:: TFG - Santamaría Báez, Laura.pdf
Size:: 1.410Mb
Format:: PDF
Description:: Trabajo Fin de Grado

View/Open

This item appears in the following Collection(s)

TFG, TFM (temporales)

Show simple item record

Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 United States