Certains articles de veille peuvent faire l'objet de traduction automatique.
Apprentissage automatique est en effet la technologie du temps présent! La sécurité, qui est aujourd’hui une préoccupation croissante pour de nombreuses organisations et apprentissage automatique est l’une des solutions pour y faire face. Le ML peut aider les systèmes de cybersécurité à analyser les modèles et à en tirer des leçons pour aider à prévenir des attaques similaires et à réagir à l’évolution des comportements.
Pour en savoir plus sur l’apprentissage automatique et son application en cybersécurité, nous avons eu un entretien avec Emmanuel Tsukerman, un Data Scientist en cybersécurité et l’auteur de Livre de recettes d’apprentissage automatique pour la cybersécurité. Le livre comprend également des IA pour créer de puissantes solutions de cybersécurité pour les logiciels malveillants, le pentesting, l’ingénierie sociale, la confidentialité des données et la détection d’intrusions. En 2017, le produit anti-ransomware de Tsukerman a été répertorié dans le Top 10 des produits ransomware de 2018 par PC Magazine. Dans son entretien, Emmanuel a expliqué comment les algorithmes de ML aident à résoudre les problèmes liés à la cybersécurité, et a également fait un bref tour d’horizon de quelques chapitres de son livre. Il a également évoqué la montée des deepfakes et des classificateurs de logiciels malveillants.
À propos de l’utilisation de l’apprentissage automatique pour la cybersécurité
L’utilisation de l’apprentissage automatique dans des scénarios de cybersécurité permettra aux systèmes d’identifier différents types d’attaques à travers les couches de sécurité et aidera également à prendre une POA correcte. Pouvez-vous partager quelques exemples de l’utilisation réussie du ML pour la cybersécurité que vous avez vu récemment?
Un développement récent et intéressant en cybersécurité est que les méchants ont commencé à rattraper la technologie; en particulier, ils ont commencé à utiliser la technologie Deepfake pour commettre des crimes; par exemple, ils ont utilisé L’IA imite la voix d’un PDG pour escroquer une entreprise de 243000 $. D’autre part, l’utilisation du ML dans les classificateurs de logiciels malveillants devient rapidement une norme de l’industrie, en raison du nombre incroyable d’échantillons inédits (plus de 15 000 000) qui sont générés chaque année.
Se tenir au courant des développements technologiques pour se défendre contre les attaques
La technologie d’apprentissage automatique n’est pas seulement utilisée par les humains éthiques, mais également par les cybercriminels qui utilisent le ML pour les intrusions basées sur le ML. Comment les organisations peuvent-elles contrer de tels scénarios et garantir la sécurité des données organisationnelles / personnelles confidentielles?
Les principaux outils dont disposent les organisations pour se défendre contre les attaques sont pour rester au courant et à pentester. Rester à jour, bien sûr, nécessite de s’informer sur les derniers développements de la technologie et de ses applications. Par exemple, il est important de savoir que les pirates peuvent désormais utiliser l’imitation vocale basée sur l’IA pour se faire passer pour qui ils le souhaitent. Ces connaissances doivent être diffusées dans l’organisation afin que les individus ne soient pas pris au dépourvu.
L’autre moyen d’améliorer sa sécurité consiste à effectuer des tests de stylet réguliers en utilisant la dernière méthodologie d’attaque; que ce soit en essayant d’éviter l’antivirus de l’organisation, en envoyant des communications de phishing ou en tentant d’infiltrer le réseau. Dans tous les cas, il est important d’utiliser les techniques les plus dangereuses, qui sont souvent basées sur le ML
Comment les algorithmes de ML et les GAN aident à résoudre les problèmes de cybersécurité
Dans votre livre, vous avez mentionné divers algorithmes tels que le clustering, le renforcement du gradient, les forêts aléatoires et XGBoost. Comment ces algorithmes aident-ils à résoudre les problèmes liés à la cybersécurité?
À moins qu’un modèle d’apprentissage automatique ne soit limité d’une manière ou d’une autre (par exemple, dans le calcul, dans le temps ou dans les données d’apprentissage), il existe 5 types d’algorithmes qui ont historiquement les meilleurs résultats: les réseaux de neurones, les méthodes basées sur les arbres, le clustering, la détection d’anomalies et le renforcement. apprentissage (RL). Celles-ci ne sont pas forcément disjointes, car on peut, par exemple, effectuer une détection d’anomalies via des réseaux de neurones. Néanmoins, pour rester simple, restons fidèles à ces 5 classes.
Les réseaux neuronaux brillent avec de grandes quantités de données sur des problèmes visuels, auditifs ou textuels. Pour cette raison, ils sont utilisés dans Deepfakes et leur détection, détection de mensonge et reconnaissance vocale. De nombreuses autres applications existent également. Mais l’une des applications les plus intéressantes des réseaux de neurones (et l’apprentissage en profondeur) consiste à créer des données via des réseaux antagonistes génératifs (GAN). Les GAN peuvent être utilisés pour générer des suppositions de mots de passe et des logiciels malveillants évasifs. Pour plus de détails, je vous renvoie au Livre de recettes d’apprentissage automatique pour la cybersécurité.
La classe suivante de modèles qui fonctionnent bien est basée sur des arbres. Celles-ci incluent les forêts aléatoires et les arbres renforçant le gradient. Ceux-ci fonctionnent bien sur des données structurées avec de nombreuses fonctionnalités. Par exemple, l’en-tête PE des fichiers PE (y compris les logiciels malveillants) peut être mis en valeur, produisant environ 70 caractéristiques numériques. Il est pratique et efficace de construire un modèle XGBoost (un modèle boostant le gradient) ou un modèle Random Forest sur ces données, et les chances sont bonnes que les performances soient imbattables par d’autres algorithmes.
Ensuite, il y a le clustering. Le clustering brille lorsque vous souhaitez segmenter automatiquement une population. Par exemple, vous pouvez avoir une grande collection d’échantillons de logiciels malveillants et vous souhaitez les classer en familles. Le clustering est un choix naturel pour ce problème.
La détection des anomalies vous permet de lutter contre les menaces invisibles et inconnues. Par exemple, lorsqu’un pirate informatique utilise une nouvelle tactique pour s’introduire sur votre réseau, un algorithme de détection d’anomalies peut vous protéger même si cette nouvelle tactique n’a pas été documentée.
Enfin, les algorithmes RL fonctionnent bien sur les problèmes dynamiques. La situation peut être, par exemple, un test de pénétration sur un réseau. le DeepExploit framework, traité dans le livre, utilise un agent RL en plus de metasploit pour apprendre des tests de stylet antérieurs et devient de mieux en mieux pour trouver des vulnérabilités.
Les réseaux opposés génératifs (GAN) sont une branche populaire du ML utilisée pour former les systèmes contre les données contrefaites. Comment peuvent-ils aider les systèmes de détection et de protection des logiciels malveillants à identifier les intrusions correctes?
Une bonne façon de penser aux GAN est comme une paire de réseaux neuronaux, opposés les uns aux autres. La perte de l’un est l’objectif de l’autre. Au fur et à mesure que les deux réseaux sont formés, chacun devient de mieux en mieux dans son travail. Nous pouvons alors prendre n’importe quel côté de la bataille du «tir à la corde», le séparer de son rival et l’utiliser. Dans d’autres cas, nous pouvons choisir de «geler» l’un des réseaux, ce qui signifie que nous ne le formons pas, mais que nous l’utilisons uniquement pour la notation. Dans le cas des logiciels malveillants, le livre explique comment utiliser MalGAN, qui est un GAN pour éviter les logiciels malveillants. Un réseau, le détecteur, est gelé. Dans ce cas, il s’agit d’une implémentation de MalConv. L’autre réseau, le réseau antagoniste, est en cours d’entraînement pour modifier les logiciels malveillants jusqu’à ce que le score de détection de MalConv tombe à zéro. À mesure qu’il s’entraîne, il devient de mieux en mieux dans ce domaine.
Dans une situation pratique, nous voudrions libérer les deux réseaux. Ensuite, nous pouvons prendre le détecteur formé et l’utiliser dans le cadre de notre solution anti-malware. Nous serions alors confiants en sachant qu’il est très efficace pour détecter les malwares évasifs. Les mêmes idées peuvent être appliquées dans une gamme de contextes de cybersécurité, tels que l’intrusion et les deepfakes.
Découvrez comment le livre de recettes Machine Learning for Cybersecurity peut aider à mettre en œuvre facilement le ML pour les problèmes de cybersécurité
Quels sont certains des outils / recettes mentionnés dans votre livre qui peuvent aider les professionnels de la cybersécurité à mettre en œuvre facilement l’apprentissage automatique et à en faire une partie de leurs activités quotidiennes?
Le livre de recettes Machine Learning for Cybersecurity propose plus de 80 recettes étonnantes. Les recettes les plus applicables varieront d’un professionnel à l’autre, et même pour chaque individu, différentes recettes seront applicables à différents moments de leur carrière. Pour un professionnel de la cybersécurité qui commence à travailler avec des logiciels malveillants, le chapitre sur les principes de base, chapitre 2:Détection des logiciels malveillants basée sur le ML, fournit un bon début solide pour créer un classificateur de logiciels malveillants. Pour les analystes de logiciels malveillants plus avancés, chapitre 3:Détection avancée des logiciels malveillants offrira des techniques plus sophistiquées et spécialisées, telles que le traitement de l’obscurcissement et des scripts malveillants.
Chaque professionnel de la cybersécurité gagnerait à bien comprendre le chapitre 4, «ML pour l’ingénierie sociale». En fait, tout le monde devrait comprendre comment le ML peut être utilisé pour tromper des utilisateurs sans méfiance, dans le cadre de leur formation à la cybersécurité. Ce chapitre montre vraiment qu’il faut être prudent car les machines sont de mieux en mieux à imiter les humains. D’autre part, ML fournit également les outils pour savoir quand une telle attaque est en cours.
Chapitre 5, » Tests de pénétration Utilisation du ML »est un chapitre technique et est le plus approprié pour les professionnels de la cybersécurité concernés par les tests de stylet. Il couvre 10 façons d’améliorer les tests de stylet en utilisant le ML, y compris le fuzzing assisté par réseau neuronal et DeepExploit, un cadre qui utilise un agent d’apprentissage par renforcement (RL) au-dessus de metasploit pour effectuer des tests de stylet automatiques.
Le chapitre 6, «Détection automatique des intrusions», a un intérêt plus large, car de nombreux professionnels de la cybersécurité doivent savoir comment défendre un réseau contre les intrus. Ils gagneraient à voir comment tirer parti du ML pour arrêter les attaques zero-day sur leur réseau. En outre, le chapitre couvre de nombreux autres cas d’utilisation, tels que le filtrage anti-spam, la détection de botnet et la détection de menaces internes, qui sont plus utiles pour certains que pour d’autres.
Le chapitre 7, «Sécuriser et attaquer les données avec ML» fournit un excellent contenu aux professionnels de la cybersécurité intéressés par l’utilisation du ML pour améliorer la sécurité de leurs mots de passe et d’autres formes de sécurité des données.
Chapitre 8, «Sécurisé et privé IA», Est inestimable pour les data scientists dans le domaine de la cybersécurité. Les recettes de ce chapitre incluent l’apprentissage fédéré et la confidentialité différentielle (qui permettent de former un modèle de ML sur les données des clients sans compromettre leur confidentialité) et le test de la robustesse contradictoire (qui permet d’améliorer la robustesse des modèles de ML face aux attaques contradictoires).
Votre livre parle de l’utilisation de l’apprentissage automatique pour générer des logiciels malveillants personnalisés afin de tester la sécurité. Pouvez-vous expliquer comment cela fonctionne et pourquoi cela est important?
En règle générale, vous voulez découvrir vos vulnérabilités avant que quelqu’un d’autre ne le fasse (qui pourrait ne pas être bon). Pour cette raison, les tests au stylet ont toujours été une étape importante pour assurer la sécurité. Pour bien tester votre antivirus, il est important d’utiliser les dernières techniques d’évasion des logiciels malveillants, car les méchants les essaieront certainement, et ce sont des techniques basées sur l’apprentissage en profondeur pour modifier les logiciels malveillants.
Sur les réalisations personnelles d’Emmanuel dans le domaine de la cybersécurité
Dr Tsukerman, en 2017, votre produit anti-ransomware a été répertorié dans le «Top 10 des produits ransomwares de 2018» par PC Magazine. D’après votre expérience, pourquoi les attaques de ransomwares sont-elles en hausse et qu’est-ce qui fait un produit anti-ransomware efficace? De plus, en 2018, vous avez conçu un système de détection de malwares à verdict instantané basé sur le ML pour le service WildFire de Palo Alto Networks, qui compte plus de 30 000 clients. Pouvez-vous nous en dire plus sur ce projet?
Si vous surveillez les actualités de la cybersécurité, vous verrez que les ransomwares continuent d’être une menace énorme. La raison en est que les ransomwares offrent aux cybercriminels une arme extrêmement attractive. Premièrement, il est très difficile de retrouver le coupable du malware ou de l’adresse du portefeuille crypto. Deuxièmement, les bénéfices peuvent être énormes, qu’il s’agisse d’atteindre la bonne cible (par exemple, une organisation de santé conforme à la HIPAA) ou d’un grand nombre de cibles (par exemple, tout le trafic vers une page Web de commerce électronique). Troisièmement, le ransomware est proposé en tant que service, ce qui le démocratise efficacement!
D’un autre côté, une grande partie du risque de ransomware peut être atténuée par des tactiques de bon sens. Premièrement, sauvegarder ses données. Deuxièmement, avoir une solution anti-ransomware qui offre des garanties. Un antivirus générique ne peut fournir aucune garantie – soit il attrape le ransomware, soit il ne le fait pas. Si ce n’est pas le cas, vos données sont toastées. Cependant, certaines solutions anti-ransomware, comme celle que j’ai développée, offrent des garanties (par exemple, pas plus de 0,1% de vos fichiers perdus). Enfin, comme des millions de nouveaux échantillons de ransomwares sont développés chaque année, la solution de malware doit inclure un composant d’apprentissage automatique, pour capturer les échantillons zero-day, qui est un autre composant de la solution anti-ransomware que j’ai développée.
Le projet de Palo Alto Networks est une implémentation similaire de ML pour la détection de logiciels malveillants. La seule différence est que contrairement au service anti-ransomware, qui est un outil de sécurité des points de terminaison, il offre des services de protection depuis le cloud. Étant donné que Palo Alto Networks est un fournisseur de services de pare-feu, cela a beaucoup de sens, car idéalement, l’échantillon malveillant sera arrêté au niveau du pare-feu et n’atteindra même jamais le point de terminaison.
Pour apprendre à mettre en œuvre les techniques abordées dans cet entretien, prenez votre copie du Livre de recettes d’apprentissage automatique pour la cybersécurité N’attendez pas – les méchants n’attendent pas.
Biographie de l’auteur
Emmanuel Tsukerman est diplômé de l’Université de Stanford et a obtenu son doctorat. de UC Berkeley. En 2017, le produit anti-ransomware du Dr Tsukerman a été répertorié dans le Top 10 des produits ransomware de 2018 par PC Magazine. En 2018, il a conçu un système de détection de malware à verdict instantané basé sur le ML pour le service WildFire de Palo Alto Networks de plus de 30000 clients. En 2019, le Dr Tsukerman a lancé le premier programme de cybersécurité science des données cours.
À propos du livre
Livre de recettes d’apprentissage automatique pour la cybersécurité vous guidera à travers la création de classificateurs et de fonctionnalités pour les logiciels malveillants, que vous entraînerez et testerez sur des échantillons réels. Vous apprendrez également à créer des systèmes autonomes et dépendants pour gérer les tâches de cybersécurité telles que l’identification des URL malveillantes, la détection des courriers indésirables, la détection des intrusions, la protection du réseau et le suivi du comportement des utilisateurs et des processus, et bien plus encore!
Lire la suite
DevSecOps et le virage à gauche en matière de sécurité: comment Semmle soutient les développeurs de logiciels [Podcast]
Elastic marque son entrée sur le marché de l’analyse de sécurité avec l’acquisition d’Elastic SIEM et Endgame
Les entreprises sont confiantes dans leurs efforts de cybersécurité, mais les faiblesses prévalent
Poster un commentaire