(English)

De los métodos clásicos a las redes neuronales: Explorando el potencial del Deep Learning en la identificación de tráfico ofuscado

October 30, 2024
Telecomunicación
De los métodos clásicos a las redes neuronales: Explorando el potencial del Deep Learning en la identificación de tráfico ofuscado
El análisis y la clasificación del tráfico de red se han convertido en elementos esenciales para mantener la resistencia y la seguridad de las redes informáticas contemporáneas. Con el rápido aumento del volumen de datos y la creciente complejidad de los métodos de cifrado, la necesidad de una clasificación eficaz del flujo de red sigue en aumento. Al identificar, categorizar y analizar el tráfico de red con precisión, las organizaciones pueden detectar posibles amenazas, optimizar el rendimiento de la red y garantizar el cumplimiento de los protocolos de seguridad.

Métodos tradicionales para el análisis del tráfico de red

La clasificación del tráfico de red mediante métodos tradicionales implica varios enfoques, cada uno con sus propios puntos fuertes y débiles. Examinemos los principales métodos y sus limitaciones cuando se trata de tráfico ofuscado y cifrado.

1. Método de indicación del nombre del servidor (SNI)

El método SNI se basa en analizar la información de dominio que una conexión cifrada transmite en texto plano al establecer una sesión TLS. Dado que el nombre de dominio se especifica en la cabecera «Server Name» durante el handshake TLS, este método permite identificar servidores y servicios aunque el tráfico posterior esté cifrado.

Limitaciones del método SNI:

  • Precisión insuficiente con ofuscación de puertos y traducción de direcciones: Cuando las direcciones IP y los puertos se modifican o se ofuscan, la precisión disminuye porque puede interrumpirse el vínculo entre el SNI y una aplicación específica.
  • Imposibilidad de identificar cuando se utilizan VPN: El encabezado SNI deja de estar disponible para el análisis si el tráfico pasa a través de una VPN, ya que queda oculto por el cifrado del túnel.
  • Falta de datos para todos los protocolos: No todos los protocolos y aplicaciones transmiten datos a través de TLS, lo que hace que el análisis basado en SNI sea inaplicable a ellos.

2. Inspección de la carga útil

La inspección de la carga útil implica un análisis detallado del contenido de los paquetes para identificar patrones y características específicas de un protocolo o aplicación. Este método proporciona una gran precisión a la hora de determinar los tipos de datos y clasificarlos en función de su contenido.

Limitaciones de la inspección de la carga útil:

  • Costes de recursos computacionales: La inspección de la carga útil requiere importantes recursos debido a la necesidad de examinar el contenido de cada paquete.
  • Cuestiones de privacidad: El acceso total a los datos de los paquetes plantea problemas de privacidad, especialmente cuando se trabaja con datos personales o corporativos.
  • Imposibilidad de analizar el tráfico cifrado: El cifrado del tráfico (TLS o VPN) imposibilita la inspección de la carga útil, lo que reduce la eficacia de este método en entornos modernos en los que una parte importante del tráfico está cifrado.

3. Métodos estadísticos de aprendizaje automático

Los métodos estadísticos de aprendizaje automático clasifican el tráfico basándose en varias métricas y características (como el tamaño de los paquetes, la frecuencia y los intervalos de tiempo). Los modelos pueden entrenarse con datos estadísticos, lo que permite identificar eficazmente ciertos tipos de tráfico en algunos casos.

Limitaciones de los métodos estadísticos de aprendizaje automático:

  • Necesidad de datos limpios y etiquetados: Para un funcionamiento satisfactorio, los modelos de aprendizaje estadístico requieren datos etiquetados de alta calidad, cuya recopilación supone un reto, especialmente en el caso de los protocolos menos habituales.
  • Uso intensivo de recursos: Este método requiere importantes recursos informáticos, lo que ralentiza el análisis en casos de grandes volúmenes de datos.
  • Baja eficacia en presencia de ofuscación del tráfico: Los protocolos que enmascaran sus metadatos o cambian continuamente los patrones de tráfico pueden complicar el análisis, lo que conduce a una baja precisión de los modelos estadísticos.

Como resultado, aunque los métodos tradicionales pueden mostrar una gran precisión en algunos casos, se enfrentan a numerosas limitaciones, lo que dificulta la clasificación de los tipos de tráfico modernos.


Enfoque de redes neuronales para identificar el tráfico de red ofuscado

Nuestra investigación explora el aprendizaje profundo como una alternativa más precisa y flexible a los métodos tradicionales. Implementamos modelos basados en redes neuronales convolucionales (CNN) y la arquitectura ResNet, adaptándolos para la clasificación de alta precisión de tráfico VPN y proxy cifrado.

Datos

Para la clasificación del tráfico se utilizó un conjunto de datos Netflow 10 (IPFIX), diseñado para estandarizar la transmisión de información IP desde el exportador al recolector, soportado por fabricantes como Cisco, Solera, VMware y Citrix. Las especificaciones de IPFIX se proporcionan en los RFCs 7011-7015 y RFC 5103.

Recogida de datos

Los datos se recopilaron utilizando un dispositivo con un sistema de inspección profunda de paquetes (DPI) conectado a otros dispositivos que generaban tráfico a través de varias VPN. Este enfoque capturó IPs y puertos únicos generados por VPNs con asignaciones dinámicas bajo restricciones, resultando en una rica gama de combinaciones únicas de IP y puerto para entrenar el modelo de red neuronal.

Los datos recogidos incluían los siguientes parámetros:

Tipo de datos Descripción
contador_delta_octeto Contador entrante de longitud N x 8 bits para el número de bytes asociados al flujo IP.
conteo_delta_paquete Contador de paquetes entrantes de longitud N x 8 bits para el número de paquetes asociados al flujo IP.
identificador_protocolo Byte de protocolo IP.
clase_ip_de_servicio Clase IP o servicio.
puerto_de_origen Puerto del remitente.
fuente_ipv4 IPv4 del remitente.
puerto_destino Puerto del destinatario.
destino_ipv4 IPv4 del destinatario.
número_de_fuente_bgp Número de sistema autónomo BGP de origen (N puede ser 2 ó 4).
bgp_destination_as_number Número de sistema autónomo BGP de destino (N puede ser 2 ó 4).
entrada_snmp Identificador de LAN virtual asociado a la interfaz entrante.
output_snmp Identificador de LAN virtual asociado a la interfaz de salida.
versión_ip Versión del protocolo IPv4 o IPv6.
post_nat_fuente_ipv4 Fuente NAT IPv4.
post_nat_fuente_puerto Puerto NAT de origen.
frgmt_delta_packs Delta de paquetes fragmentados.
repetir_paquete_delta Delta de retransmisiones.
tiempo_entrega_paquete Retraso (RTT/2), ms.
código_protocolo Código de protocolo que utiliza la clase de sistema autónomo para la red neuronal.

Procesamiento de datos antes del entrenamiento

Los datos se dividieron en conjuntos de entrenamiento (80%) y de prueba (20%). Se aplicaron ajustes de equilibrio de clases y etiquetado de datos IPFIX para resaltar clases específicas.

Entrenamiento

Las redes neuronales se entrenaron utilizando dos arquitecturas con ajuste de hiperparámetros. Las proporciones de clase de protocolo en la muestra de entrenamiento fueron:

Protocolo Relación
DNS 18,67%
HTTP 1,38%
HTTPS 16,27%
DoH 2,66%
ICMP 4,83%
Bittorrent 24,73%
AdGuard VPN 2,34%
VPN ilimitada 12,18%
Psifón 3 12,41%
Linterna 4,53%

Pruebas

Los modelos se evaluaron en el conjunto de prueba utilizando las métricas de precisión, recuperación y puntuación F1:

Recall=TPTP+FN\text{Recall} = \frac{text{TP}}{\text{TP} + \text{FN}}

Precisión=TPTP+FP\text{Precision} = \frac{\text{TP}}{text{TP}} + \text{FP}}

F1 Score=2×Recall×PrecisionRecall+Precision\text{Puntuación F1} = \frac{2 \times \text{Recall} \veces \text{Precision}} {text{Recall}} + \text{Precision}}

donde TP indica verdaderos positivos, FN falsos negativos y FP falsos positivos.

El experimento se realizó en VPN con un amplio rango de IP para mejorar la objetividad de los resultados. El modelo de arquitectura ResNet demostró una mayor precisión en la clasificación de protocolos VPN.

Resultados

Red neuronal convolucional clásica
Protocolo TP FP FN Puntuación F1
AdGuard VPN 28 9 50 0,49
VPN ilimitada 3 3 22 0,21
Psifón 3 8455 160 399 0,97
Arquitectura de ResNet
Protocolo TP FP FN Puntuación F1
AdGuard VPN 60 5 18 0,84
VPN ilimitada 5 9 20 0,26
Psifón 3 8847 1030 7 0,95

La arquitectura ResNet mostró una mayor eficiencia en la identificación del tráfico VPN y puede servir como base fiable para tareas de clasificación de tráfico cifrado.

Conclusión

En este artículo, hemos examinado los métodos de identificación de tráfico ofuscado, abarcando tanto los enfoques clásicos como los de redes neuronales. Aunque los métodos tradicionales proporcionan capacidades básicas, tienen limitaciones en entornos dinámicos de tráfico y cifrado. Las redes neuronales modernas ofrecen mayor precisión y flexibilidad, identificando eficazmente el tráfico ofuscado incluso cuando los métodos tradicionales resultan ineficaces. Así pues, el paso a los métodos de redes neuronales supone un importante avance en la seguridad de las redes.

Utilizamos cookies para optimizar la funcionalidad del sitio y ofrecerle la mejor experiencia posible. Para saber más sobre las cookies que utilizamos, visite nuestra Política de Cookies. Al hacer clic en "Aceptar", aceptas el uso que hacemos de las cookies. Más información