Modelos de lenguaje cuantizados para la generación eficiente de texto sintético
Resumen
La rápida evolución de los Large Language Models (LLMs) ha desplazado el foco desde el aumento del número de parámetros hacia la disponibilidad y calidad de los datos de entrenamiento como factor determinante de su rendimiento y generalización. Sin embargo, recopilar grandes volúmenes de texto de alta calidad presenta limitaciones prácticas, económicas, legales y éticas, lo que ha impulsado la generación de datos sintéticos como vía para mitigar la escasez de datos reales. La literatura muestra una evolución progresiva de estas técnicas, desde modelos probabilísticos y arquitecturas adversariales hasta los transformers y los LLMs instruccionales actuales. En conjunto, los trabajos revisados señalan que la utilidad de los datos sintéticos depende del diseño del prompt, del uso de ejemplos en contexto y de la diversidad del corpus, y destacan retos persistentes vinculados a la coherencia, la alineación semántica y el control de atributos pragmáticos.
En este contexto, el presente Trabajo de Fin de Grado propone una metodología sistemática y reproducible para la generación de datos textuales sintéticos mediante la combinación de LLMs cuantizados y técnicas de prompting. La metodología se articula en tres fases principales: la selección de un modelo cuantizado eficiente para entornos con recursos limitados, la generación controlada de textos mediante distintas estrategias de prompting (directas y multipaso), y la evaluación intrínseca del corpus a través de métricas automáticas de calidad lingüística, adecuación al prompt y diversidad. Los resultados demuestran que es posible generar datos textuales sintéticos de alta calidad en entornos CPU-only. En particular, el modelo LLaMA 3.2 Instruct (3B) cuantizado en formato GGUF se consolida como la alternativa que ofrece el mejor equilibrio entre eficiencia computacional y calidad funcional del texto. Asimismo, el análisis comparativo de las técnicas de prompting revela la existencia de compromisos estructurales entre control instruccional, fluidez lingüística y diversidad del corpus. Mientras que las estrategias basadas en instrucciones explícitas favorecen la coherencia y la estabilidad lingüística, las técnicas multipaso y aquellas orientadas a la exploración dinámica incrementan la diversidad léxica y estructural. Finalmente, se observa que las restricciones formales resultan altamente controlables mediante prompting, mientras que atributos semánticos y pragmáticos, como el mantenimiento del tema o la adecuación del tono, continúan representando los principales retos en la generación automática. The rapid evolution of Large Language Models (LLMs) has shifted the focus from increasing parameter counts toward the availability and quality of training data as the key determinant of performance and generalization. However, collecting large volumes of high-quality text presents practical, economic, legal, and ethical constraints, which has driven the use of synthetic data generation as a way to mitigate the scarcity of real data. The literature shows a progressive evolution of these techniques, from probabilistic models and adversarial architectures to modern transformers and instruction-tuned LLMs. Overall, the reviewed works indicate that the usefulness of synthetic data depends on prompt design, the use of in-context examples, and corpus diversity, while also highlighting persistent challenges related to coherence, semantic alignment, and control of pragmatic attributes.
In this context, the present Bachelor’s Thesis proposes a systematic and reproducible methodology for generating synthetic textual data through the combination of quantized LLMs and prompting techniques. The methodology is structured into three main phases: the selection of an efficient quantized model for resource-constrained environments, the controlled generation of texts using different prompting strategies (direct and multi-step), and the intrinsic evaluation of the corpus through automatic metrics of linguistic quality, prompt adherence, and diversity. The results demonstrate that it is possible to generate high-quality synthetic textual data in CPU-only environments. In particular, the quantized GGUF version of the LLaMA 3.2 Instruct (3B) model emerges as the alternative offering the best balance between computational efficiency and functional text quality. Furthermore, the comparative analysis of prompting techniques reveals structural trade-offs among instructional control, linguistic fluency, and corpus diversity. While strategies based on explicit instructions favor coherence and linguistic stability, multi-step and exploration-oriented techniques increase lexical and structural diversity. Finally, the findings show that formal constraints can be controlled effectively through prompting, whereas semantic and pragmatic attributes, such as topic consistency and tone appropriateness, remain the main challenges in automatic text generation.
Trabajo Fin de Grado
Modelos de lenguaje cuantizados para la generación eficiente de texto sintéticoTitulación / Programa
Grado en Análisis de Negocios/Business Analytics y Grado en DerechoMaterias/ categorías / ODS
KBAPalabras Clave
datos sintéticos de texto, LLMs, cuantización, prompting, NLP, calidad.synthetic text data, LLMs, quantization, prompting, NLP, text quality.


