(English)

Dos métodos clássicos às redes neurais: Explorando o potencial da aprendizagem profunda na identificação de tráfego ofuscado

October 30, 2024
Telecom
Dos métodos clássicos às redes neurais: Explorando o potencial da aprendizagem profunda na identificação de tráfego ofuscado
A análise e a classificação do tráfego de rede tornaram-se essenciais para manter a resiliência e a segurança das redes de computadores contemporâneas. Com o rápido aumento do volume de dados e a crescente complexidade dos métodos de criptografia, a necessidade de uma classificação eficaz do fluxo de rede continua a crescer. Ao identificar, categorizar e analisar o tráfego de rede com precisão, as organizações podem detectar possíveis ameaças, otimizar o desempenho da rede e garantir a conformidade com os protocolos de segurança.

Métodos tradicionais de análise de tráfego de rede

A classificação do tráfego de rede usando métodos tradicionais envolve várias abordagens, cada uma com seus próprios pontos fortes e fracos. Vamos examinar os principais métodos e suas limitações ao lidar com tráfego ofuscado e criptografado.

Método de indicação de nome de servidor (SNI)

O método SNI baseia-se na análise das informações de domínio que uma conexão criptografada transmite em texto simples ao estabelecer uma sessão TLS. Como o nome de domínio é especificado no cabeçalho “Server Name” (Nome do servidor) durante o handshake TLS, esse método permite a identificação de servidores e serviços, mesmo que o tráfego subsequente seja criptografado.

Limitações do método SNI:

  • Precisão insuficiente com ofuscação de porta e tradução de endereço: Quando os endereços IP e as portas são modificados ou ofuscados, a precisão diminui porque o vínculo entre o SNI e um aplicativo específico pode ser interrompido.
  • Incapacidade de identificação ao usar VPNs: O cabeçalho SNI fica indisponível para análise se o tráfego passar por uma VPN, pois fica oculto pela criptografia do túnel.
  • Falta de dados para todos os protocolos: Nem todos os protocolos e aplicativos transmitem dados por TLS, o que torna a análise baseada em SNI inaplicável a eles.

Inspeção de carga útil

A inspeção de carga útil envolve uma análise detalhada do conteúdo do pacote para identificar padrões e características específicas de um protocolo ou aplicativo. Esse método oferece alta precisão na determinação dos tipos de dados e na classificação deles com base no conteúdo.

Limitations of Payload Inspection:

  • Custos de recursos computacionais: A inspeção de carga útil requer recursos significativos devido à necessidade de examinar o conteúdo de cada pacote.
  • Problemas de privacidade: O acesso total aos dados do pacote gera preocupações com a privacidade, especialmente quando se trabalha com dados pessoais ou corporativos.
  • Incapacidade de analisar o tráfego criptografado: A criptografia do tráfego (TLS ou VPN) impossibilita a inspeção de carga útil, reduzindo a eficácia desse método em ambientes modernos em que uma parte significativa do tráfego é criptografada.

Métodos estatísticos de aprendizado de máquina

Os métodos estatísticos de aprendizado de máquina classificam o tráfego com base em várias métricas e características (como tamanhos de pacotes, frequência e intervalos de tempo). Os modelos podem ser treinados em dados estatísticos, permitindo a identificação eficaz de determinados tipos de tráfego em alguns casos.

Limitações dos métodos estatísticos de aprendizado de máquina:

  • Necessidade de dados limpos e rotulados: Para uma operação bem-sucedida, os modelos de aprendizado estatístico exigem dados rotulados de alta qualidade, o que é um desafio para a coleta, especialmente para protocolos menos comuns.
  • Uso intensivo de recursos: Esse método requer recursos computacionais significativos, tornando a análise mais lenta em casos de grandes volumes de dados.
  • Baixa eficácia na presença de ofuscação de tráfego: Protocolos que mascaram seus metadados ou mudam continuamente os padrões de tráfego podem complicar a análise, levando a uma baixa precisão dos modelos estatísticos.

Como resultado, embora os métodos tradicionais possam apresentar alta precisão em alguns casos, eles enfrentam várias limitações, o que torna difícil classificar os tipos de tráfego modernos.


Abordagem de rede neural para identificar o tráfego de rede ofuscado

Nossa pesquisa explora a aprendizagem profunda como uma alternativa mais precisa e flexível aos métodos tradicionais. Implementamos modelos baseados em redes neurais convolucionais (CNN) e na arquitetura ResNet, adaptando-os para classificação de alta precisão de VPN criptografada e tráfego de proxy.

Dados

Um conjunto de dados Netflow 10 (IPFIX) foi usado para classificação de tráfego, projetado para padronizar a transmissão de informações de IP do exportador para o coletor, com o suporte de fabricantes como Cisco, Solera, VMware e Citrix. As especificações do IPFIX são fornecidas nas RFCs 7011-7015 e RFC 5103.

Coleta de dados

Os dados foram coletados usando um dispositivo com um sistema de inspeção profunda de pacotes (DPI) conectado a outros dispositivos que geram tráfego em várias VPNs. Essa abordagem capturou IPs e portas exclusivos gerados por VPNs com atribuições dinâmicas sob restrições, resultando em uma rica variedade de combinações exclusivas de IP e porta para treinar o modelo de rede neural.

Os dados coletados incluíam os seguintes parâmetros:

Tipo de dados Descrição
octet_delta_count Contador de entrada de comprimento N x 8 bits para o número de bytes associados ao fluxo IP.
contagem_delta_de_pacotes Contador de pacotes de entrada de comprimento N x 8 bits para o número de pacotes associados ao fluxo de IP.
identificador_de_protocolo Byte de protocolo IP.
ip_class_of_service Classe de IP ou serviço.
porta_de_origem Porta do remetente.
source_ipv4 IPv4 do remetente.
porta_destino Porta do destinatário.
destination_ipv4 IPv4 do destinatário.
bgp_source_as_number Número do sistema autônomo BGP de origem (N pode ser 2 ou 4).
bgp_destination_as_number Número do sistema autônomo BGP de destino (N pode ser 2 ou 4).
input_snmp Identificador de LAN virtual associado à interface de entrada.
output_snmp Identificador de LAN virtual associado à interface de saída.
ip_version Versão do protocolo IPv4 ou IPv6.
post_nat_source_ipv4 Fonte NAT IPv4.
post_nat_source_port Porta NAT de origem.
frgmt_delta_packs Delta de pacotes fragmentados.
repeat_delta_pack Delta de retransmissões.
tempo_de_entrega_do_pacote Atraso (RTT/2), ms.
código_do_protocolo Código do protocolo usando a classe de sistema autônomo para a rede neural.

Processamento de dados antes do treinamento

Os dados foram divididos em conjuntos de treinamento (80%) e teste (20%). Ajustes de equilíbrio de classe e rotulagem de dados IPFIX foram aplicados para destacar classes específicas.

Treinamento

As redes neurais foram treinadas usando duas arquiteturas com ajuste de hiperparâmetro. As proporções de classe de protocolo na amostra de treinamento foram:

Protocolo Razão
DNS 18,67%
HTTP 1,38%
HTTPS 16,27%
DoH 2,66%
ICMP 4,83%
Bittorrent 24,73%
AdGuard VPN 2,34%
VPN Unlimited 12,18%
Psiphon 3 12,41%
Lanterna 4,53%

Teste

Os modelos foram avaliados no conjunto de teste usando as métricas de precisão, recuperação e pontuação F1:

Recall=TPTP+FN\text{Recall} = \frac{\text{TP}}}{\text{TP} \text{FN}}

Precision=TPTP+FP\text{Precision} = \frac{\text{TP}}{\text{TP} \text{FP}}

F1 Pontuação=2×Recall×PrecisionRecall+Precision\text{F1 Score} = \frac{2 \times \text{Recall} \times \text{Precision}}{\text{Recall} + \text{Precision}}

em que TP denota verdadeiros positivos, FN falsos negativos e FP falsos positivos.

O experimento foi realizado em VPNs com um amplo intervalo de IPs para aumentar a objetividade dos resultados. O modelo de arquitetura ResNet demonstrou maior precisão na classificação dos protocolos de VPN.

Resultados

Rede Neural Convolucional Clássica
Protocolo TP FP FN Score F1
AdGuard VPN 28 9 50 0,49
VPN Ilimitada 3 3 22 0,21
Psifão 3 8455 160 399 0,97
Arquitetura da ResNet
Protocolo TP FP FN Score F1
AdGuard VPN 60 5 18 0,84
VPN Ilimitada 5 9 20 0,26
Psifão 3 8847 1030 7 0,95

A arquitetura ResNet mostrou maior eficiência na identificação do tráfego VPN e pode servir como uma base confiável para tarefas de classificação de tráfego criptografado.

Conclusão

Neste artigo, examinamos métodos de identificação de tráfego ofuscado, abrangendo abordagens clássicas e de redes neurais. Embora os métodos tradicionais ofereçam recursos básicos, eles têm limitações em ambientes dinâmicos de tráfego e criptografia. As redes neurais modernas oferecem maior precisão e flexibilidade, identificando com eficácia o tráfego ofuscado mesmo quando os métodos tradicionais se mostram ineficazes. Assim, a mudança para abordagens de redes neurais marca um avanço significativo na segurança da rede.

(English) We use cookies to optimize site functionality and give you the best possible experience. To learn more about the cookies we use, please visit our Cookies Policy. By clicking ‘Okay’, you agree to our use of cookies. Learn more.