Blog
Télécom
Des méthodes classiques aux réseaux neuronaux : Exploration du potentiel de l’apprentissage profond dans l’identification du trafic obscurci

Des méthodes classiques aux réseaux neuronaux : Exploration du potentiel de l'apprentissage profond dans l'identification du trafic obscurci

October 30, 2024

Télécom

Des méthodes classiques aux réseaux neuronaux : Exploration du potentiel de l'apprentissage profond dans l'identification du trafic obscurci

L'analyse et la classification du trafic réseau sont devenues essentielles pour maintenir la résilience et la sécurité des réseaux informatiques contemporains. Avec l'augmentation rapide des volumes de données et la complexité croissante des méthodes de cryptage, le besoin d'une classification efficace des flux réseau ne cesse de croître. En identifiant, catégorisant et analysant le trafic réseau avec précision, les entreprises peuvent détecter les menaces potentielles, optimiser les performances du réseau et garantir la conformité avec les protocoles de sécurité.

Méthodes traditionnelles pour l’analyse du trafic réseau

La classification du trafic réseau à l’aide de méthodes traditionnelles implique différentes approches, chacune ayant ses propres forces et faiblesses. Examinons les principales méthodes et leurs limites lorsqu’il s’agit de trafic obscurci et crypté.

1. La méthode SNI (Server Name Indication)

La méthode SNI repose sur l’analyse des informations de domaine qu’une connexion cryptée transmet en clair lors de l’établissement d’une session TLS. Étant donné que le nom de domaine est spécifié dans l’en-tête « Server Name » au cours de la poignée de main TLS, cette méthode permet d’identifier les serveurs et les services même si le trafic ultérieur est crypté.

Limites de la méthode SNI :

Précision insuffisante avec l’obscurcissement des ports et la traduction des adresses : Lorsque les adresses IP et les ports sont modifiés ou obscurcis, la précision diminue car le lien entre le SNI et une application spécifique peut être perturbé.
Impossibilité d’identification lors de l’utilisation de VPN : L’en-tête SNI devient indisponible pour l’analyse si le trafic passe par un VPN, car il est caché par le cryptage du tunnel.
Manque de données pour tous les protocoles : Tous les protocoles et applications ne transmettent pas de données via TLS, ce qui rend l’analyse basée sur SNI inapplicable à ces protocoles.

2. Inspection de la charge utile

L’inspection des données utiles implique une analyse détaillée du contenu des paquets afin d’identifier les modèles et les caractéristiques propres à un protocole ou à une application. Cette méthode permet de déterminer avec une grande précision les types de données et de les classer en fonction de leur contenu.

Limitations of Payload Inspection :

Coûts des ressources informatiques : L’inspection des charges utiles nécessite des ressources importantes en raison de la nécessité d’examiner le contenu de chaque paquet.
Problèmes de confidentialité : L’accès complet aux données des paquets soulève des problèmes de confidentialité, en particulier lorsque l’on travaille avec des données personnelles ou d’entreprise.
Impossibilité d’analyser le trafic crypté : Le chiffrement du trafic (TLS ou VPN) rend l’inspection des charges utiles impossible, ce qui réduit l’efficacité de cette méthode dans les environnements modernes où une part importante du trafic est chiffrée.

3. Méthodes d’apprentissage automatique statistique

Les méthodes d’apprentissage automatique statistique classent le trafic en fonction de diverses métriques et caractéristiques (telles que la taille des paquets, la fréquence et les intervalles de temps). Les modèles peuvent être formés sur des données statistiques, ce qui permet d’identifier efficacement certains types de trafic dans certains cas.

Limites des méthodes statistiques d’apprentissage automatique :

Nécessité de données propres et étiquetées : Pour fonctionner correctement, les modèles d’apprentissage statistique nécessitent des données étiquetées de haute qualité, qu’il est difficile de collecter, en particulier pour les protocoles les moins courants.
Forte intensité de ressources : Cette méthode nécessite d’importantes ressources informatiques, ce qui ralentit l’analyse en cas de volumes de données importants.
Faible efficacité en présence d’obscurcissement du trafic : Les protocoles qui masquent leurs métadonnées ou modifient continuellement les schémas de trafic peuvent compliquer l’analyse, ce qui entraîne une faible précision des modèles statistiques.

Par conséquent, bien que les méthodes traditionnelles puissent présenter une grande précision dans certains cas, elles sont confrontées à de nombreuses limitations, ce qui rend difficile la classification des types de trafic modernes.

Approche des réseaux neuronaux pour l’identification du trafic réseau obscurci

Notre recherche explore l’apprentissage profond comme une alternative plus précise et plus flexible aux méthodes traditionnelles. Nous avons mis en œuvre des modèles basés sur les réseaux neuronaux convolutifs (CNN) et l’architecture ResNet, en les adaptant à la classification de haute précision du trafic VPN et proxy chiffré.

Données

Un ensemble de données Netflow 10 (IPFIX) a été utilisé pour la classification du trafic, conçu pour normaliser la transmission des informations IP de l’exportateur au collecteur, pris en charge par des fabricants tels que Cisco, Solera, VMware et Citrix. Les spécifications IPFIX sont fournies dans les RFC 7011-7015 et RFC 5103.

Collecte des données

Les données ont été collectées à l’aide d’un appareil doté d’un système d’inspection approfondie des paquets (DPI) connecté à d’autres appareils générant du trafic via divers VPN. Cette approche a permis de capturer des IP et des ports uniques générés par des VPN avec des affectations dynamiques sous restrictions, ce qui a donné lieu à un riche éventail de combinaisons d’IP et de ports uniques pour l’entraînement du modèle de réseau neuronal.

Les données collectées comprenaient les paramètres suivants :

Type de données	Description
octet_delta_count	Compteur entrant de longueur N x 8 bits pour le nombre d’octets associés au flux IP.
packet_delta_count	Compteur de paquets entrants de longueur N x 8 bits pour le nombre de paquets associés au flux IP.
protocol_identifier	Byte de protocole IP.
ip_class_of_service	Classe ou service IP.
source_port	Port de l’expéditeur.
source_ipv4	IPv4 de l’expéditeur.
destination_port	Port du destinataire.
destination_ipv4	IPv4 du destinataire.
bgp_source_as_number	Numéro du système autonome BGP source (N peut être 2 ou 4).
bgp_destination_as_number	Numéro du système autonome BGP destination (N peut être 2 ou 4).
input_snmp	Identifiant de réseau virtuel associé à l’interface entrante.
output_snmp	Identifiant de réseau virtuel associé à l’interface sortante.
ip_version	Version du protocole IPv4 ou IPv6.
post_nat_source_ipv4	IPv4 NAT source.
post_nat_source_port	Port NAT source.
frgmt_delta_packs	Delta des paquets fragmentés.
repeat_delta_pack	Delta des retransmissions.
packet_deliver_time	Délai (RTT/2), ms.
protocol_code	Code de protocole utilisant la classe de système autonome pour le réseau de neurones.

Traitement des données avant l’entraînement

Les données ont été divisées en ensembles d’entraînement (80 %) et de test (20 %). Des ajustements d’équilibrage de classe et un étiquetage des données IPFIX ont été appliqués pour mettre en évidence des classes spécifiques.

Entraînement

Les réseaux de neurones ont été entraînés en utilisant deux architectures avec ajustement des hyperparamètres. Les ratios de classe de protocole dans l’échantillon d’entraînement étaient :

Protocole	Ratio
DNS	18,67%
HTTP	1,38%
HTTPS	16,27%
DoH	2,66%
ICMP	4,83%
Bittorrent	24,73%
AdGuard VPN	2,34%
VPN Unlimited	12,18%
Psiphon 3	12,41%
Lantern	4,53%

Tests

Les modèles ont été évalués sur l’ensemble de test en utilisant les métriques de précision, de rappel et de score F1 :

$\text{Rappel} = \frac{\text{VP}}{\text{VP} + \text{FN}}$

$Rappel = \frac{VP}{VP + FN}$

$\text{Précision} = \frac{\text{VP}}{\text{VP} + \text{FP}}$

$Pr e ˊ cision = \frac{VP}{VP + FP}$

$\text{Score F1} = \frac{2 \times \text{Rappel} \times \text{Précision}}{\text{Rappel} + \text{Précision}}$

$Score F1 = \frac{2 \times Rappel \times Pr e ˊ cision}{Rappel + Pr e ˊ cision}$

où VP désigne les vrais positifs, FN les faux négatifs et FP les faux positifs.

L’expérience a été menée sur des VPNs avec une large gamme d’adresses IP pour améliorer l’objectivité des résultats. Le modèle d’architecture ResNet a démontré une meilleure précision dans la classification des protocoles VPN.

Résultats

Réseau neuronal classique

ProtocoleVPFPFNScore F1

AdGuard VPN	28	9	50	0,49
VPN Unlimited	3	3	22	0,21
Psiphon 3	8455	160	399	0,97

Architecture ResNet

Protocole	VP	FP	FN	Score F1
AdGuard VPN	60	5	18	0,84
VPN Unlimited	5	9	20	0,26
Psiphon 3	8847	1030	7	0,95

L’architecture ResNet a montré une plus grande efficacité dans l’identification du trafic VPN et peut servir de base fiable pour les tâches de classification du trafic chiffré.

Conclusion

Dans cet article, nous avons examiné les méthodes d’identification du trafic obfusqué, en couvrant à la fois les approches classiques et celles basées sur les réseaux de neurones. Bien que les méthodes traditionnelles offrent des capacités de base, elles présentent des limites dans des environnements de trafic dynamique et de chiffrement. Les réseaux de neurones modernes offrent une précision et une flexibilité accrues, permettant d’identifier efficacement le trafic obfusqué même lorsque les méthodes traditionnelles s’avèrent inefficaces. Ainsi, le passage aux approches basées sur les réseaux de neurones marque une avancée significative dans la sécurité des réseaux.

Vote:

5 sur 5

Note moyenne : 5

Évalué par: 1