Detección de ataques de ciberseguridad en redes locales mediante técnicas de embeddings y análisis semántico

Martínez de la Riva Muinelo, Iñigo

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/11531/108114

Título :	Detección de ataques de ciberseguridad en redes locales mediante técnicas de embeddings y análisis semántico
Autor :	Jarauta Gastelu, Javier Martínez de la Riva Muinelo, Iñigo Universidad Pontificia Comillas, Escuela Técnica Superior de Ingeniería (ICAI)
Fecha de publicación :	2026
Resumen :	Este proyecto presenta un sistema de detección de intrusiones en redes locales basado en el análisis semántico del tráfico HTTP mediante embeddings de lenguaje natural. Frente a los sistemas tradicionales basados en firmas estáticas, que requieren mantenimiento constante y no detectan amenazas nuevas, este trabajo explora un enfoque alternativo: representar el contenido de las peticiones HTTP como vectores semánticos y clasificarlas mediante búsqueda por similitud. El sistema transforma los paquetes de red capturados en vectores de 1536 dimensiones utilizando el modelo de embeddings text-embedding-3-small de OpenAI, y los clasifica mediante búsqueda KNN con similitud coseno sobre un índice vectorial en Elasticsearch. A diferencia de trabajos previos en esta línea, que adoptan enfoques no supervisados, este sistema asigna una etiqueta de categoría concreta a cada documento, permitiendo no solo detectar anomalías sino identificar el tipo de ataque. El corpus de datos fue generado íntegramente en un entorno de red propio desplegado en GNS3, capturando tráfico real de cinco categorías de tráfico web (SQL Injection, Cross-Site Scripting, Brute Force, Command Injection y tráfico normal) en tres niveles de dificultad. El sistema alcanza una accuracy media global del 88,3%, superando el objetivo del 80% establecido al inicio del proyecto. Además de evaluar el rendimiento del sistema, el trabajo analiza sus propiedades y limitaciones. Un experimento de ablación de rutas URL permite determinar si el modelo aprende la semántica real de los ataques o depende de características artificiales del entorno de generación. Los resultados muestran que algunos tipos de ataque, como XSS y Command Injection, aprenden una semántica robusta, mientras que otros, como SQL Injection y Brute Force, dependen en mayor medida de información contextual de la ruta. El proyecto concluye que el enfoque semántico es viable para la detección de intrusiones web, identificando con claridad tanto sus fortalezas como sus límites. This project presents an intrusion detection system for local networks based on the semantic analysis of HTTP traffic using natural language embeddings. In contrast to traditional signature-based systems, which require constant maintenance and fail to detect new threats, this work explores an alternative approach: representing the content of HTTP requests as semantic vectors and classifying them through similarity search. The system transforms captured network packets into 1536-dimensional vectors using OpenAI's text-embedding-3-small embedding model, and classifies them through KNN search with cosine similarity over a vector index in Elasticsearch. Unlike previous works in this line of research, which adopt unsupervised approaches, this system assigns a specific category label to each document, allowing not only the detection of anomalies but also the identification of the attack type. The dataset was generated entirely in a custom network environment deployed in GNS3, capturing real traffic from five web attack categories (SQL Injection, Cross-Site Scripting, Brute Force, Command Injection and normal traffic) across three difficulty levels. The system achieves an overall mean accuracy of 88.3%, exceeding the 80% objective established at the beginning of the project. In addition to evaluating the system's performance, this work analyzes its properties and limitations. A URL path ablation experiment determines whether the model learns the true semantics of the attacks or relies on artificial characteristics of the generation environment. The results show that some attack types, such as XSS and Command Injection, learn a robust semantic signature, while others, such as SQL Injection and Brute Force, depend to a greater extent on contextual information from the URL path. The project concludes that the semantic approach is viable for web intrusion detection, clearly identifying both its strengths and its limitations.
Descripción :	Grado en Ingeniería en Tecnologías de Telecomunicación
URI :	http://hdl.handle.net/11531/108114
Aparece en las colecciones:	TFG, TFM (temporales)

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
TFG-MartínezdelaRiva,Muinelo,Iñigo.pdf	Trabajo Fin de Grado	5,3 MB	Adobe PDF	Visualizar/Abrir
AnexoI.pdf	Autorización	682,85 kB	Adobe PDF	Visualizar/Abrir

Mostrar el registro Dublin Core completo del ítem