(English)

Des méthodes classiques aux réseaux neuronaux : Exploration du potentiel de l'apprentissage profond dans l'identification du trafic obscurci

October 30, 2024
Télécom
Des méthodes classiques aux réseaux neuronaux : Exploration du potentiel de l'apprentissage profond dans l'identification du trafic obscurci
L'analyse et la classification du trafic réseau sont devenues essentielles pour maintenir la résilience et la sécurité des réseaux informatiques contemporains. Avec l'augmentation rapide des volumes de données et la complexité croissante des méthodes de cryptage, le besoin d'une classification efficace des flux réseau ne cesse de croître. En identifiant, catégorisant et analysant le trafic réseau avec précision, les entreprises peuvent détecter les menaces potentielles, optimiser les performances du réseau et garantir la conformité avec les protocoles de sécurité.

Méthodes traditionnelles pour l’analyse du trafic réseau

La classification du trafic réseau à l’aide de méthodes traditionnelles implique différentes approches, chacune ayant ses propres forces et faiblesses. Examinons les principales méthodes et leurs limites lorsqu’il s’agit de trafic obscurci et crypté.

1. La méthode SNI (Server Name Indication)

La méthode SNI repose sur l’analyse des informations de domaine qu’une connexion cryptée transmet en clair lors de l’établissement d’une session TLS. Étant donné que le nom de domaine est spécifié dans l’en-tête « Server Name » au cours de la poignée de main TLS, cette méthode permet d’identifier les serveurs et les services même si le trafic ultérieur est crypté.

Limites de la méthode SNI :

  • Précision insuffisante avec l’obscurcissement des ports et la traduction des adresses : Lorsque les adresses IP et les ports sont modifiés ou obscurcis, la précision diminue car le lien entre le SNI et une application spécifique peut être perturbé.
  • Impossibilité d’identification lors de l’utilisation de VPN : L’en-tête SNI devient indisponible pour l’analyse si le trafic passe par un VPN, car il est caché par le cryptage du tunnel.
  • Manque de données pour tous les protocoles : Tous les protocoles et applications ne transmettent pas de données via TLS, ce qui rend l’analyse basée sur SNI inapplicable à ces protocoles.

2 Inspection de la charge utile

L’inspection des données utiles implique une analyse détaillée du contenu des paquets afin d’identifier les modèles et les caractéristiques propres à un protocole ou à une application. Cette méthode permet de déterminer avec une grande précision les types de données et de les classer en fonction de leur contenu.

Limitations of Payload Inspection:

  • Coûts des ressources informatiques : L’inspection des charges utiles nécessite des ressources importantes en raison de la nécessité d’examiner le contenu de chaque paquet.
  • Problèmes de confidentialité : L’accès complet aux données des paquets soulève des problèmes de confidentialité, en particulier lorsque l’on travaille avec des données personnelles ou d’entreprise.
  • Impossibilité d’analyser le trafic crypté : Le chiffrement du trafic (TLS ou VPN) rend l’inspection des charges utiles impossible, ce qui réduit l’efficacité de cette méthode dans les environnements modernes où une part importante du trafic est chiffrée.

3 Méthodes d’apprentissage automatique statistique

Les méthodes d’apprentissage automatique statistique classent le trafic en fonction de diverses métriques et caractéristiques (telles que la taille des paquets, la fréquence et les intervalles de temps). Les modèles peuvent être formés sur des données statistiques, ce qui permet d’identifier efficacement certains types de trafic dans certains cas.

Limites des méthodes statistiques d’apprentissage automatique :

  • Nécessité de données propres et étiquetées : Pour fonctionner correctement, les modèles d’apprentissage statistique nécessitent des données étiquetées de haute qualité, qu’il est difficile de collecter, en particulier pour les protocoles les moins courants.
  • Forte intensité de ressources : Cette méthode nécessite d’importantes ressources informatiques, ce qui ralentit l’analyse en cas de volumes de données importants.
  • Faible efficacité en présence d’obscurcissement du trafic : Les protocoles qui masquent leurs métadonnées ou modifient continuellement les schémas de trafic peuvent compliquer l’analyse, ce qui entraîne une faible précision des modèles statistiques.

Par conséquent, bien que les méthodes traditionnelles puissent présenter une grande précision dans certains cas, elles sont confrontées à de nombreuses limitations, ce qui rend difficile la classification des types de trafic modernes.


Approche des réseaux neuronaux pour l’identification du trafic réseau obscurci

Notre recherche explore l’apprentissage profond comme une alternative plus précise et plus flexible aux méthodes traditionnelles. Nous avons mis en œuvre des modèles basés sur les réseaux neuronaux convolutifs (CNN) et l’architecture ResNet, en les adaptant à la classification de haute précision du trafic VPN et proxy chiffré.

Données

Un ensemble de données Netflow 10 (IPFIX) a été utilisé pour la classification du trafic, conçu pour normaliser la transmission des informations IP de l’exportateur au collecteur, pris en charge par des fabricants tels que Cisco, Solera, VMware et Citrix. Les spécifications IPFIX sont fournies dans les RFC 7011-7015 et RFC 5103.

Collecte des données

Les données ont été collectées à l’aide d’un appareil doté d’un système d’inspection approfondie des paquets (DPI) connecté à d’autres appareils générant du trafic via divers VPN. Cette approche a permis de capturer des IP et des ports uniques générés par des VPN avec des affectations dynamiques sous restrictions, ce qui a donné lieu à un riche éventail de combinaisons d’IP et de ports uniques pour l’entraînement du modèle de réseau neuronal.

Les données collectées comprenaient les paramètres suivants :

Type de données Description
octet_delta_count Compteur entrant de longueur N x 8 bits pour le nombre d’octets associés au flux IP.
packet_delta_count Compteur de paquets entrants de longueur N x 8 bits pour le nombre de paquets associés au flux IP.
protocol_identifier Byte de protocole IP.
ip_class_of_service Classe ou service IP.
source_port Port de l’expéditeur.
source_ipv4 IPv4 de l’expéditeur.
destination_port Port du destinataire.
destination_ipv4 IPv4 du destinataire.
bgp_source_as_number Numéro du système autonome BGP source (N peut être 2 ou 4).
bgp_destination_as_number Numéro du système autonome BGP destination (N peut être 2 ou 4).
input_snmp Identifiant de réseau virtuel associé à l’interface entrante.
output_snmp Identifiant de réseau virtuel associé à l’interface sortante.
ip_version Version du protocole IPv4 ou IPv6.
post_nat_source_ipv4 IPv4 NAT source.
post_nat_source_port Port NAT source.
frgmt_delta_packs Delta des paquets fragmentés.
repeat_delta_pack Delta des retransmissions.
packet_deliver_time Délai (RTT/2), ms.
protocol_code Code de protocole utilisant la classe de système autonome pour le réseau de neurones.

Traitement des données avant l’entraînement

Les données ont été divisées en ensembles d’entraînement (80 %) et de test (20 %). Des ajustements d’équilibrage de classe et un étiquetage des données IPFIX ont été appliqués pour mettre en évidence des classes spécifiques.

Entraînement

Les réseaux de neurones ont été entraînés en utilisant deux architectures avec ajustement des hyperparamètres. Les ratios de classe de protocole dans l’échantillon d’entraînement étaient :

Protocole Ratio
DNS 18,67%
HTTP 1,38%
HTTPS 16,27%
DoH 2,66%
ICMP 4,83%
Bittorrent 24,73%
AdGuard VPN 2,34%
VPN Unlimited 12,18%
Psiphon 3 12,41%
Lantern 4,53%

Tests

Les modèles ont été évalués sur l’ensemble de test en utilisant les métriques de précision, de rappel et de score F1 :

Rappel=VPVP+FN\text{Rappel} = \frac{\text{VP}}{\text{VP} + \text{FN}}

Preˊcision=VPVP+FP\text{Précision} = \frac{\text{VP}}{\text{VP} + \text{FP}}

Score F1=2×Rappel×PreˊcisionRappel+Preˊcision\text{Score F1} = \frac{2 \times \text{Rappel} \times \text{Précision}}{\text{Rappel} + \text{Précision}}

où VP désigne les vrais positifs, FN les faux négatifs et FP les faux positifs.

L’expérience a été menée sur des VPNs avec une large gamme d’adresses IP pour améliorer l’objectivité des résultats. Le modèle d’architecture ResNet a démontré une meilleure précision dans la classification des protocoles VPN.

Résultats

Réseau neuronal classique

Protocole VP FP FN Score F1
AdGuard VPN 28 9 50 0,49
VPN Unlimited 3 3 22 0,21
Psiphon 3 8455 160 399 0,97

Architecture ResNet

Protocole VP FP FN Score F1
AdGuard VPN 60 5 18 0,84
VPN Unlimited 5 9 20 0,26
Psiphon 3 8847 1030 7 0,95

L’architecture ResNet a montré une plus grande efficacité dans l’identification du trafic VPN et peut servir de base fiable pour les tâches de classification du trafic chiffré.

Conclusion

Dans cet article, nous avons examiné les méthodes d’identification du trafic obfusqué, en couvrant à la fois les approches classiques et celles basées sur les réseaux de neurones. Bien que les méthodes traditionnelles offrent des capacités de base, elles présentent des limites dans des environnements de trafic dynamique et de chiffrement. Les réseaux de neurones modernes offrent une précision et une flexibilité accrues, permettant d’identifier efficacement le trafic obfusqué même lorsque les méthodes traditionnelles s’avèrent inefficaces. Ainsi, le passage aux approches basées sur les réseaux de neurones marque une avancée significative dans la sécurité des réseaux.

Nous utilisons des cookies pour optimiser les fonctionnalités du site et vous offrir la meilleure expérience possible. Pour en savoir plus sur les cookies que nous utilisons, veuillez consulter notre Politique de cookies. En cliquant sur « Okay », vous acceptez notre utilisation des cookies. Learn more.