Text Games Synthetic Data Generation based on Behavior Profiles
Resumen
La generación de datos es una técnica que se ha utilizado durante mucho tiempo para hacer frente a la falta de datos y mejorar los modelos entrenados con ellos. Sin embargo, la mayor parte de las técnicas de generación de datos para juegos o bien requieren datos preexistentes, lo cual suele provocar una baja variabilidad y un sesgo hacia dichos datos; o bien se centran en obtener la mayor puntuación posible, lo que no es adecuado para juegos centrados en la toma de decisiones o en los que las puntuaciones no son aplicables, como los juegos serios. Este trabajo presenta una arquitectura para generar datos sintéticos en juegos de texto abordando dichas limitaciones. Para ello se crea un conjunto de agentes que imitan el comportamiento de jugadores reales y se recolecta datos mientras juegan. Por lo tanto, no se requieren datos preexistentes. Se asigna a cada agente un perfil de comportamiento en relación con una serie de rasgos de carácter y los agentes seleccionan las acciones que mejor se ajustan a dichos rasgos, teniendo en cuenta también las acciones pasadas. Además, esta arquitectura incorpora dicha información de comportamiento en los datos generados y, por lo tanto, en los modelos entrenados con ellos. Ilustramos la aplicación de esta arquitectura implementándola en un juego serio de texto que pretende educar sobre los ciberdelitos, en particular el Online Grooming. Generamos un conjunto de datos sintéticos para el juego y entrenamos varios modelos de Machine Learning en ellos. Los datos generados logran enseñar a estos modelos a, dadas las decisiones tomadas en una ejecución del juego, predecir el perfil de comportamiento que la generó. A continuación, estos modelos pueden utilizarse para encontrar el grado de similitud del comportamiento de los jugadores reales con respecto a los perfiles dados. Data generation is a technique used to cope with the lack of real data and to improve the models trained on that data. However, most of the techniques for data generation on games either require pre-existing data, thus usually suffering from bias and low variability, or are focused on obtaining high scores, which is not suitable for games where the focus is on decision-making or where rewards are not applicable, such as serious games. We present an architecture to generate synthetic data suitable for decision-making games. Our model tackles the above-stated limitations by creating agents that imitate real players' behavior and gathering the data as they play the game. Therefore, our approach does not require pre-existing data. The agents are each given a behavior profile regarding several character traits they use for decision-making. The agents select the actions that best align with their profile's character traits while also considering past actions. In addition, this architecture incorporates behavior information into the generated data and, therefore, into the models trained with it. We illustrate this architecture's application by implementing it on a serious text game aimed at educating about cybercrimes, particularly Online Grooming. We generate a synthetic dataset for the game and train various Machine Learning models on it. The generated data successfully teaches these models to predict the behavior profile that generated each game run given as input the decisions taken. These models can then be used to find the degree of similarity of the real players' behavior with respect to the given profiles.
Trabajo Fin de Grado
Text Games Synthetic Data Generation based on Behavior ProfilesTitulación / Programa
Grado en Ingeniería en Tecnologías de Telecomunicación y Grado en Análisis de Negocios/Business AnalyticsMaterias/ UNESCO
33 Ciencias tecnológicas3304 Tecnología de los ordenadores
330413 Dispositivos de transmisión de datos
Materias/ categorías / ODS
KTT (GITT)Palabras Clave
Análisis del comportamiento, aprendizaje automático, generación de datos sintéticos, inteligencia artificial, juegos serios (basados en texto), procesamiento del lenguaje naturalArtificial intelligence, behavioral analysis, machine learning, natural language processing, serious (text-based) games, synthetic data generation