Méthodes traditionnelles pour l’analyse du trafic réseau
La classification du trafic réseau à l’aide de méthodes traditionnelles implique différentes approches, chacune ayant ses propres forces et faiblesses. Examinons les principales méthodes et leurs limites lorsqu’il s’agit de trafic obscurci et crypté.
1. La méthode SNI (Server Name Indication)
La méthode SNI repose sur l’analyse des informations de domaine qu’une connexion cryptée transmet en clair lors de l’établissement d’une session TLS. Étant donné que le nom de domaine est spécifié dans l’en-tête « Server Name » au cours de la poignée de main TLS, cette méthode permet d’identifier les serveurs et les services même si le trafic ultérieur est crypté.
Limites de la méthode SNI :
- Précision insuffisante avec l’obscurcissement des ports et la traduction des adresses : Lorsque les adresses IP et les ports sont modifiés ou obscurcis, la précision diminue car le lien entre le SNI et une application spécifique peut être perturbé.
- Impossibilité d’identification lors de l’utilisation de VPN : L’en-tête SNI devient indisponible pour l’analyse si le trafic passe par un VPN, car il est caché par le cryptage du tunnel.
- Manque de données pour tous les protocoles : Tous les protocoles et applications ne transmettent pas de données via TLS, ce qui rend l’analyse basée sur SNI inapplicable à ces protocoles.
2 Inspection de la charge utile
L’inspection des données utiles implique une analyse détaillée du contenu des paquets afin d’identifier les modèles et les caractéristiques propres à un protocole ou à une application. Cette méthode permet de déterminer avec une grande précision les types de données et de les classer en fonction de leur contenu.
Limitations of Payload Inspection:
- Coûts des ressources informatiques : L’inspection des charges utiles nécessite des ressources importantes en raison de la nécessité d’examiner le contenu de chaque paquet.
- Problèmes de confidentialité : L’accès complet aux données des paquets soulève des problèmes de confidentialité, en particulier lorsque l’on travaille avec des données personnelles ou d’entreprise.
- Impossibilité d’analyser le trafic crypté : Le chiffrement du trafic (TLS ou VPN) rend l’inspection des charges utiles impossible, ce qui réduit l’efficacité de cette méthode dans les environnements modernes où une part importante du trafic est chiffrée.
3 Méthodes d’apprentissage automatique statistique
Les méthodes d’apprentissage automatique statistique classent le trafic en fonction de diverses métriques et caractéristiques (telles que la taille des paquets, la fréquence et les intervalles de temps). Les modèles peuvent être formés sur des données statistiques, ce qui permet d’identifier efficacement certains types de trafic dans certains cas.
Limites des méthodes statistiques d’apprentissage automatique :
- Nécessité de données propres et étiquetées : Pour fonctionner correctement, les modèles d’apprentissage statistique nécessitent des données étiquetées de haute qualité, qu’il est difficile de collecter, en particulier pour les protocoles les moins courants.
- Forte intensité de ressources : Cette méthode nécessite d’importantes ressources informatiques, ce qui ralentit l’analyse en cas de volumes de données importants.
- Faible efficacité en présence d’obscurcissement du trafic : Les protocoles qui masquent leurs métadonnées ou modifient continuellement les schémas de trafic peuvent compliquer l’analyse, ce qui entraîne une faible précision des modèles statistiques.
Par conséquent, bien que les méthodes traditionnelles puissent présenter une grande précision dans certains cas, elles sont confrontées à de nombreuses limitations, ce qui rend difficile la classification des types de trafic modernes.
Approche des réseaux neuronaux pour l’identification du trafic réseau obscurci
Notre recherche explore l’apprentissage profond comme une alternative plus précise et plus flexible aux méthodes traditionnelles. Nous avons mis en œuvre des modèles basés sur les réseaux neuronaux convolutifs (CNN) et l’architecture ResNet, en les adaptant à la classification de haute précision du trafic VPN et proxy chiffré.
Données
Un ensemble de données Netflow 10 (IPFIX) a été utilisé pour la classification du trafic, conçu pour normaliser la transmission des informations IP de l’exportateur au collecteur, pris en charge par des fabricants tels que Cisco, Solera, VMware et Citrix. Les spécifications IPFIX sont fournies dans les RFC 7011-7015 et RFC 5103.
Collecte des données
Les données ont été collectées à l’aide d’un appareil doté d’un système d’inspection approfondie des paquets (DPI) connecté à d’autres appareils générant du trafic via divers VPN. Cette approche a permis de capturer des IP et des ports uniques générés par des VPN avec des affectations dynamiques sous restrictions, ce qui a donné lieu à un riche éventail de combinaisons d’IP et de ports uniques pour l’entraînement du modèle de réseau neuronal.
Les données collectées comprenaient les paramètres suivants :
Type de données | Description |
---|---|
octet_delta_count | Compteur entrant de longueur N x 8 bits pour le nombre d’octets associés au flux IP. |
packet_delta_count | Compteur de paquets entrants de longueur N x 8 bits pour le nombre de paquets associés au flux IP. |
protocol_identifier | Byte de protocole IP. |
ip_class_of_service | Classe ou service IP. |
source_port | Port de l’expéditeur. |
source_ipv4 | IPv4 de l’expéditeur. |
destination_port | Port du destinataire. |
destination_ipv4 | IPv4 du destinataire. |
bgp_source_as_number | Numéro du système autonome BGP source (N peut être 2 ou 4). |
bgp_destination_as_number | Numéro du système autonome BGP destination (N peut être 2 ou 4). |
input_snmp | Identifiant de réseau virtuel associé à l’interface entrante. |
output_snmp | Identifiant de réseau virtuel associé à l’interface sortante. |
ip_version | Version du protocole IPv4 ou IPv6. |
post_nat_source_ipv4 | IPv4 NAT source. |
post_nat_source_port | Port NAT source. |
frgmt_delta_packs | Delta des paquets fragmentés. |
repeat_delta_pack | Delta des retransmissions. |
packet_deliver_time | Délai (RTT/2), ms. |
protocol_code | Code de protocole utilisant la classe de système autonome pour le réseau de neurones. |
Traitement des données avant l’entraînement
Les données ont été divisées en ensembles d’entraînement (80 %) et de test (20 %). Des ajustements d’équilibrage de classe et un étiquetage des données IPFIX ont été appliqués pour mettre en évidence des classes spécifiques.
Entraînement
Les réseaux de neurones ont été entraînés en utilisant deux architectures avec ajustement des hyperparamètres. Les ratios de classe de protocole dans l’échantillon d’entraînement étaient :
Protocole | Ratio |
DNS | 18,67% |
HTTP | 1,38% |
HTTPS | 16,27% |
DoH | 2,66% |
ICMP | 4,83% |
Bittorrent | 24,73% |
AdGuard VPN | 2,34% |
VPN Unlimited | 12,18% |
Psiphon 3 | 12,41% |
Lantern | 4,53% |
Tests
Les modèles ont été évalués sur l’ensemble de test en utilisant les métriques de précision, de rappel et de score F1 :
où VP désigne les vrais positifs, FN les faux négatifs et FP les faux positifs.
L’expérience a été menée sur des VPNs avec une large gamme d’adresses IP pour améliorer l’objectivité des résultats. Le modèle d’architecture ResNet a démontré une meilleure précision dans la classification des protocoles VPN.
Résultats
Réseau neuronal classique
Protocole | VP | FP | FN | Score F1 |
AdGuard VPN | 28 | 9 | 50 | 0,49 |
VPN Unlimited | 3 | 3 | 22 | 0,21 |
Psiphon 3 | 8455 | 160 | 399 | 0,97 |
Architecture ResNet
Protocole | VP | FP | FN | Score F1 |
AdGuard VPN | 60 | 5 | 18 | 0,84 |
VPN Unlimited | 5 | 9 | 20 | 0,26 |
Psiphon 3 | 8847 | 1030 | 7 | 0,95 |
L’architecture ResNet a montré une plus grande efficacité dans l’identification du trafic VPN et peut servir de base fiable pour les tâches de classification du trafic chiffré.
Conclusion
Dans cet article, nous avons examiné les méthodes d’identification du trafic obfusqué, en couvrant à la fois les approches classiques et celles basées sur les réseaux de neurones. Bien que les méthodes traditionnelles offrent des capacités de base, elles présentent des limites dans des environnements de trafic dynamique et de chiffrement. Les réseaux de neurones modernes offrent une précision et une flexibilité accrues, permettant d’identifier efficacement le trafic obfusqué même lorsque les méthodes traditionnelles s’avèrent inefficaces. Ainsi, le passage aux approches basées sur les réseaux de neurones marque une avancée significative dans la sécurité des réseaux.