Métodos tradicionales para el análisis del tráfico de red
La clasificación del tráfico de red mediante métodos tradicionales implica varios enfoques, cada uno con sus propios puntos fuertes y débiles. Examinemos los principales métodos y sus limitaciones cuando se trata de tráfico ofuscado y cifrado.
1. Método de indicación del nombre del servidor (SNI)
El método SNI se basa en analizar la información de dominio que una conexión cifrada transmite en texto plano al establecer una sesión TLS. Dado que el nombre de dominio se especifica en la cabecera «Server Name» durante el handshake TLS, este método permite identificar servidores y servicios aunque el tráfico posterior esté cifrado.
Limitaciones del método SNI:
- Precisión insuficiente con ofuscación de puertos y traducción de direcciones: Cuando las direcciones IP y los puertos se modifican o se ofuscan, la precisión disminuye porque puede interrumpirse el vínculo entre el SNI y una aplicación específica.
- Imposibilidad de identificar cuando se utilizan VPN: El encabezado SNI deja de estar disponible para el análisis si el tráfico pasa a través de una VPN, ya que queda oculto por el cifrado del túnel.
- Falta de datos para todos los protocolos: No todos los protocolos y aplicaciones transmiten datos a través de TLS, lo que hace que el análisis basado en SNI sea inaplicable a ellos.
2. Inspección de la carga útil
La inspección de la carga útil implica un análisis detallado del contenido de los paquetes para identificar patrones y características específicas de un protocolo o aplicación. Este método proporciona una gran precisión a la hora de determinar los tipos de datos y clasificarlos en función de su contenido.
Limitaciones de la inspección de la carga útil:
- Costes de recursos computacionales: La inspección de la carga útil requiere importantes recursos debido a la necesidad de examinar el contenido de cada paquete.
- Cuestiones de privacidad: El acceso total a los datos de los paquetes plantea problemas de privacidad, especialmente cuando se trabaja con datos personales o corporativos.
- Imposibilidad de analizar el tráfico cifrado: El cifrado del tráfico (TLS o VPN) imposibilita la inspección de la carga útil, lo que reduce la eficacia de este método en entornos modernos en los que una parte importante del tráfico está cifrado.
3. Métodos estadísticos de aprendizaje automático
Los métodos estadísticos de aprendizaje automático clasifican el tráfico basándose en varias métricas y características (como el tamaño de los paquetes, la frecuencia y los intervalos de tiempo). Los modelos pueden entrenarse con datos estadísticos, lo que permite identificar eficazmente ciertos tipos de tráfico en algunos casos.
Limitaciones de los métodos estadísticos de aprendizaje automático:
- Necesidad de datos limpios y etiquetados: Para un funcionamiento satisfactorio, los modelos de aprendizaje estadístico requieren datos etiquetados de alta calidad, cuya recopilación supone un reto, especialmente en el caso de los protocolos menos habituales.
- Uso intensivo de recursos: Este método requiere importantes recursos informáticos, lo que ralentiza el análisis en casos de grandes volúmenes de datos.
- Baja eficacia en presencia de ofuscación del tráfico: Los protocolos que enmascaran sus metadatos o cambian continuamente los patrones de tráfico pueden complicar el análisis, lo que conduce a una baja precisión de los modelos estadísticos.
Como resultado, aunque los métodos tradicionales pueden mostrar una gran precisión en algunos casos, se enfrentan a numerosas limitaciones, lo que dificulta la clasificación de los tipos de tráfico modernos.
Enfoque de redes neuronales para identificar el tráfico de red ofuscado
Nuestra investigación explora el aprendizaje profundo como una alternativa más precisa y flexible a los métodos tradicionales. Implementamos modelos basados en redes neuronales convolucionales (CNN) y la arquitectura ResNet, adaptándolos para la clasificación de alta precisión de tráfico VPN y proxy cifrado.
Datos
Para la clasificación del tráfico se utilizó un conjunto de datos Netflow 10 (IPFIX), diseñado para estandarizar la transmisión de información IP desde el exportador al recolector, soportado por fabricantes como Cisco, Solera, VMware y Citrix. Las especificaciones de IPFIX se proporcionan en los RFCs 7011-7015 y RFC 5103.
Recogida de datos
Los datos se recopilaron utilizando un dispositivo con un sistema de inspección profunda de paquetes (DPI) conectado a otros dispositivos que generaban tráfico a través de varias VPN. Este enfoque capturó IPs y puertos únicos generados por VPNs con asignaciones dinámicas bajo restricciones, resultando en una rica gama de combinaciones únicas de IP y puerto para entrenar el modelo de red neuronal.
Los datos recogidos incluían los siguientes parámetros:
Tipo de datos | Descripción |
---|---|
contador_delta_octeto | Contador entrante de longitud N x 8 bits para el número de bytes asociados al flujo IP. |
conteo_delta_paquete | Contador de paquetes entrantes de longitud N x 8 bits para el número de paquetes asociados al flujo IP. |
identificador_protocolo | Byte de protocolo IP. |
clase_ip_de_servicio | Clase IP o servicio. |
puerto_de_origen | Puerto del remitente. |
fuente_ipv4 | IPv4 del remitente. |
puerto_destino | Puerto del destinatario. |
destino_ipv4 | IPv4 del destinatario. |
número_de_fuente_bgp | Número de sistema autónomo BGP de origen (N puede ser 2 ó 4). |
bgp_destination_as_number | Número de sistema autónomo BGP de destino (N puede ser 2 ó 4). |
entrada_snmp | Identificador de LAN virtual asociado a la interfaz entrante. |
output_snmp | Identificador de LAN virtual asociado a la interfaz de salida. |
versión_ip | Versión del protocolo IPv4 o IPv6. |
post_nat_fuente_ipv4 | Fuente NAT IPv4. |
post_nat_fuente_puerto | Puerto NAT de origen. |
frgmt_delta_packs | Delta de paquetes fragmentados. |
repetir_paquete_delta | Delta de retransmisiones. |
tiempo_entrega_paquete | Retraso (RTT/2), ms. |
código_protocolo | Código de protocolo que utiliza la clase de sistema autónomo para la red neuronal. |
Procesamiento de datos antes del entrenamiento
Los datos se dividieron en conjuntos de entrenamiento (80%) y de prueba (20%). Se aplicaron ajustes de equilibrio de clases y etiquetado de datos IPFIX para resaltar clases específicas.
Entrenamiento
Las redes neuronales se entrenaron utilizando dos arquitecturas con ajuste de hiperparámetros. Las proporciones de clase de protocolo en la muestra de entrenamiento fueron:
Protocolo | Relación |
DNS | 18,67% |
HTTP | 1,38% |
HTTPS | 16,27% |
DoH | 2,66% |
ICMP | 4,83% |
Bittorrent | 24,73% |
AdGuard VPN | 2,34% |
VPN ilimitada | 12,18% |
Psifón 3 | 12,41% |
Linterna | 4,53% |
Pruebas
Los modelos se evaluaron en el conjunto de prueba utilizando las métricas de precisión, recuperación y puntuación F1:
donde TP indica verdaderos positivos, FN falsos negativos y FP falsos positivos.
El experimento se realizó en VPN con un amplio rango de IP para mejorar la objetividad de los resultados. El modelo de arquitectura ResNet demostró una mayor precisión en la clasificación de protocolos VPN.
Resultados
Red neuronal convolucional clásica
Protocolo | TP | FP | FN | Puntuación F1 |
AdGuard VPN | 28 | 9 | 50 | 0,49 |
VPN ilimitada | 3 | 3 | 22 | 0,21 |
Psifón 3 | 8455 | 160 | 399 | 0,97 |
Arquitectura de ResNet
Protocolo | TP | FP | FN | Puntuación F1 |
AdGuard VPN | 60 | 5 | 18 | 0,84 |
VPN ilimitada | 5 | 9 | 20 | 0,26 |
Psifón 3 | 8847 | 1030 | 7 | 0,95 |
La arquitectura ResNet mostró una mayor eficiencia en la identificación del tráfico VPN y puede servir como base fiable para tareas de clasificación de tráfico cifrado.
Conclusión
En este artículo, hemos examinado los métodos de identificación de tráfico ofuscado, abarcando tanto los enfoques clásicos como los de redes neuronales. Aunque los métodos tradicionales proporcionan capacidades básicas, tienen limitaciones en entornos dinámicos de tráfico y cifrado. Las redes neuronales modernas ofrecen mayor precisión y flexibilidad, identificando eficazmente el tráfico ofuscado incluso cuando los métodos tradicionales resultan ineficaces. Así pues, el paso a los métodos de redes neuronales supone un importante avance en la seguridad de las redes.