Show simple item record

dc.contributor.advisorCifuentes Quintero, Jenny Alexandraes-ES
dc.contributor.authorSantamaría Báez, Lauraes-ES
dc.contributor.otherUniversidad Pontificia Comillas, Facultad de Ciencias Económicas y Empresarialeses_ES
dc.date.accessioned2025-07-08T15:30:29Z
dc.date.available2025-07-08T15:30:29Z
dc.date.issued2026es_ES
dc.identifier.urihttp://hdl.handle.net/11531/100243
dc.descriptionGrado en Análisis de Negocios/Business Analytics y Grado en Derechoes_ES
dc.description.abstractLa rápida evolución de los Large Language Models (LLMs) ha desplazado el foco desde el aumento del número de parámetros hacia la disponibilidad y calidad de los datos de entrenamiento como factor determinante de su rendimiento y generalización. Sin embargo, recopilar grandes volúmenes de texto de alta calidad presenta limitaciones prácticas, económicas, legales y éticas, lo que ha impulsado la generación de datos sintéticos como vía para mitigar la escasez de datos reales. La literatura muestra una evolución progresiva de estas técnicas, desde modelos probabilísticos y arquitecturas adversariales hasta los transformers y los LLMs instruccionales actuales. En conjunto, los trabajos revisados señalan que la utilidad de los datos sintéticos depende del diseño del prompt, del uso de ejemplos en contexto y de la diversidad del corpus, y destacan retos persistentes vinculados a la coherencia, la alineación semántica y el control de atributos pragmáticos. En este contexto, el presente Trabajo de Fin de Grado propone una metodología sistemática y reproducible para la generación de datos textuales sintéticos mediante la combinación de LLMs cuantizados y técnicas de prompting. La metodología se articula en tres fases principales: la selección de un modelo cuantizado eficiente para entornos con recursos limitados, la generación controlada de textos mediante distintas estrategias de prompting (directas y multipaso), y la evaluación intrínseca del corpus a través de métricas automáticas de calidad lingüística, adecuación al prompt y diversidad. Los resultados demuestran que es posible generar datos textuales sintéticos de alta calidad en entornos CPU-only. En particular, el modelo LLaMA 3.2 Instruct (3B) cuantizado en formato GGUF se consolida como la alternativa que ofrece el mejor equilibrio entre eficiencia computacional y calidad funcional del texto. Asimismo, el análisis comparativo de las técnicas de prompting revela la existencia de compromisos estructurales entre control instruccional, fluidez lingüística y diversidad del corpus. Mientras que las estrategias basadas en instrucciones explícitas favorecen la coherencia y la estabilidad lingüística, las técnicas multipaso y aquellas orientadas a la exploración dinámica incrementan la diversidad léxica y estructural. Finalmente, se observa que las restricciones formales resultan altamente controlables mediante prompting, mientras que atributos semánticos y pragmáticos, como el mantenimiento del tema o la adecuación del tono, continúan representando los principales retos en la generación automática.es-ES
dc.description.abstractThe rapid evolution of Large Language Models (LLMs) has shifted the focus from increasing parameter counts toward the availability and quality of training data as the key determinant of performance and generalization. However, collecting large volumes of high-quality text presents practical, economic, legal, and ethical constraints, which has driven the use of synthetic data generation as a way to mitigate the scarcity of real data. The literature shows a progressive evolution of these techniques, from probabilistic models and adversarial architectures to modern transformers and instruction-tuned LLMs. Overall, the reviewed works indicate that the usefulness of synthetic data depends on prompt design, the use of in-context examples, and corpus diversity, while also highlighting persistent challenges related to coherence, semantic alignment, and control of pragmatic attributes. In this context, the present Bachelor’s Thesis proposes a systematic and reproducible methodology for generating synthetic textual data through the combination of quantized LLMs and prompting techniques. The methodology is structured into three main phases: the selection of an efficient quantized model for resource-constrained environments, the controlled generation of texts using different prompting strategies (direct and multi-step), and the intrinsic evaluation of the corpus through automatic metrics of linguistic quality, prompt adherence, and diversity. The results demonstrate that it is possible to generate high-quality synthetic textual data in CPU-only environments. In particular, the quantized GGUF version of the LLaMA 3.2 Instruct (3B) model emerges as the alternative offering the best balance between computational efficiency and functional text quality. Furthermore, the comparative analysis of prompting techniques reveals structural trade-offs among instructional control, linguistic fluency, and corpus diversity. While strategies based on explicit instructions favor coherence and linguistic stability, multi-step and exploration-oriented techniques increase lexical and structural diversity. Finally, the findings show that formal constraints can be controlled effectively through prompting, whereas semantic and pragmatic attributes, such as topic consistency and tone appropriateness, remain the main challenges in automatic text generation.en-GB
dc.format.mimetypeapplication/pdfes_ES
dc.language.isoes-ESes_ES
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 United Stateses_ES
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/us/es_ES
dc.subject.otherKBAes_ES
dc.titleModelos de lenguaje cuantizados para la generación eficiente de texto sintéticoes_ES
dc.typeinfo:eu-repo/semantics/bachelorThesises_ES
dc.rights.accessRightsinfo:eu-repo/semantics/openAccesses_ES
dc.keywordsdatos sintéticos de texto, LLMs, cuantización, prompting, NLP, calidad.es-ES
dc.keywordssynthetic text data, LLMs, quantization, prompting, NLP, text quality.en-GB


Files in this item

Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record

Attribution-NonCommercial-NoDerivs 3.0 United States
Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 United States