Vision trouble
Les systèmes CTI sont confrontés à des enjeux majeurs allant de la taille des réseaux de collecte à leur diversité, qui finalement influencent le degré de confiance qu’ils peuvent accorder à leurs signaux. Sont-ils suffisamment récents et suffisamment fiables pour éviter tout faux positif ou tout empoisonnement ? Est-ce que je risque d’agir sur des données obsolètes ? Cette différence est majeure puisqu’une information n’est qu’une aide à la décision, alors qu’une information actionnable peut directement être militarisée contre un agresseur. Si les données brutes sont les champs de foin, les informations sont les meules de foin et les aiguilles sont le signal exploitable.
Pour illustrer la taille et la variété des réseaux de collecte, sans nommer personne en particulier, imaginons un grand fournisseur de CDN. Votre rôle est de fournir, à grande échelle, du contenu sur HTTP(s). Cela attire beaucoup « d’attention » et de signaux, mais uniquement sur la couche HTTP. De plus, tout attaquant intelligent évitera probablement de sonder vos plages d’adresses IP (qui sont publiques et connues dans votre AS). Par conséquent, vous ne recevez que les scanners « Gatling guns » aveugles ou les attaques directes sur une couche HTTP. Il s’agit d’un objectif très étroit.
Maintenant, si vous êtes un grand EDR/XDR ou n’importe quel antivirus glorifié, vous pouvez également affirmer que vous avez un énorme réseau de détection couvrant des millions d’appareils… D’entreprises riches. Parce qu’avouons-le, tous les hôpitaux publics à but non lucratif ou les bibliothèques locales ne peuvent pas se permettre de payer pour ces outils. Par conséquent, vous ne voyez potentiellement que des menaces ciblées sur des acteurs sophistiqués, et principalement celles portées par des logiciels malveillants sur des machines LAN.
Sur le front du pot de miel, il n’y a pas non plus de solution miracle. Les « scanners Gatling guns » représentent la radioactivité de fond d’Internet. Une sorte de bruit statique constamment présent dans l’environnement de tout appareil connecté à Internet. Ici, le problème est plutôt qu’aucun groupe cybercriminel décent n’utilisera de ressources significatives pour cibler une machine à pot de miel. Quel est l’intérêt d’investir des ressources DDoS pour abattre un mannequin de paille ? Utiliseriez-vous un exploit ou un outil significatif, sans parler de graver votre adresse IP, sur une cible « potentielle » ? Les pots de miel collectent des « intentions », une exploitation automatisée, quelque chose comme « cette IP veut savoir si vous êtes (encore) vulnérable à log4j« .
Gardez une longueur d’avance avec CrowdSec, une suite de sécurité open source qui offre une protection participative contre les adresses IP malveillantes. Grâce à son intégration simple dans votre infrastructure de sécurité existante, vous bénéficiez d’une détection comportementale et d’une correction automatisée. De plus, vous bénéficierez de renseignements hautement exploitables sur les cybermenaces avec zéro faux positifs et un volume réduit d’alertes construit à partir d’un réseau de plus de 190 000 machines réparties dans plus de 180 pays. Ne vous battez pas seul, laissez la foule vous soutenir. Commencez gratuitement avec CrowdSec !
Cela peut être intéressant dans une certaine mesure mais cela se limite aux fruits à portée de main. De plus, votre diversité est limitée par votre capacité à vous répandre dans de nombreux endroits différents. Si toutes vos sondes (pots de miel) sont assises sur dix ou pire, juste 3 ou 4 nuages différents, vous ne pouvez pas tout voir, et vous pouvez être « esquivé », ce qui signifie que les criminels peuvent volontairement ignorer vos plages IP pour éviter la détection. Vous devez également organiser votre système de déploiement pour chaque plate-forme, et pourtant vous ne verrez que l’IP qui n’évite pas GCP, AWS ou tout autre cloud avec lequel vous travaillez. Et comme ces fournisseurs ne sont pas des ONG, la taille de votre réseau est également limitée par… l’argent. Si un HP entièrement automatisé fonctionnant sur le cloud XYZ vous coûte 20 $ par mois, votre poche doit être profonde pour en exécuter des milliers.
Mise en place d’une contre-offensive
Pour freiner la trajectoire de la cybercriminalité de masse, il faut agir sur une ressource par essence limitée, sinon on ne peut pas organiser une véritable « pénurie ». Les célèbres Conti-Leaks jettent un éclairage intéressant sur les points douloureux réels d’un grand groupe de cybercriminalité. Évidemment (crypto) blanchiment d’argent, recrutement, paie, les classiques auxquels vous vous attendez. Mais assez intéressant, lorsque vous lisez les échanges sur leur système de chat interne, vous pouvez voir les IP, les changer, les emprunter, les louer, les nettoyer, installer les outils, migrer les ops et C2, etc. est… coûteux. En termes de temps et d’argent.
Il existe des variations presque infinies de hachages et SHA1 offre un espace de 2^160 possibilités. Donc, les collecter est une chose, mais vous êtes presque sûr que toute nouvelle variante de malware aura une signature différente. Au moment où nous parlons, la plupart des procédures CI/CD de tout groupe cybercriminel décent incluent déjà la modification d’un octet avant d’envoyer la charge utile à une cible.
Viser les noms de domaine, c’est aussi se battre contre un espace infini en taille. Vous pouvez réserver domaine1, domaine2, domaine3, etc. Il n’y a techniquement aucune limite au nombre de variantes. Il existe des systèmes intelligents qui protègent votre marque et vérifient si des noms de domaine similaires au vôtre ont été réservés récemment. Ces systèmes de style pré-crime sont très utiles pour faire face à une prochaine tentative de phishing. Vous commencez à être proactif avec ce genre de position et d’outils.
Il est de toute façon utile de suivre et d’indexer les binaires malveillants en fonction de leurs hachages ou du C2 qu’ils essaient de contacter ou même d’indexer l’IP en essayant d’exploiter automatiquement le CVE connu, mais cela est une position plutôt réactive. Vous ne ripostez pas en connaissant la position ou la tactique de l’ennemi, vous le faites en paralysant ses capacités offensives, et c’est là que les adresses IP sont très intéressantes. Le système est vieux de plusieurs décennies et sera toujours là après nous. C’est
Maintenant, il y a une ressource qui est en fait rare : IPV4. L’espace IP historique est limité à environ 4 milliards d’entre eux. Amenez le combat sur ce terrain est efficace car si la ressource est rare, vous pouvez en fait être proactif et brûler des adresses IP aussi vite que vous savez qu’une est utilisée par l’ennemi. Maintenant, ce paysage est en constante évolution. Les fournisseurs de VPN, Tor et les applications proxy résidentielles offrent aux cybercriminels un moyen d’emprunter une adresse IP, sans parler du fait qu’ils peuvent en exploiter certaines à partir de serveurs déjà compromis sur le dark web.
Donc si une adresse IP est utilisée à un moment donné, il est possible qu’elle ne le soit plus l’heure suivante et vous générez alors un faux positif si vous la bloquez. La solution est de créer un outil de crowdsourcing protégeant toutes les tailles d’entreprises, sur tous les types de lieux, géographies, clouds, domiciles, corps privés DMZ, etc., et sur tous les types de protocoles. Si le réseau est assez grand, cette rotation d’IP n’est pas un problème car si le réseau arrête de rapporter une IP, vous pouvez la libérer, alors que la nouvelle qui monte dans un certain nombre de rapports doit être intégrée dans une liste de blocage. Plus le réseau est grand, plus il devient réaliste.
Vous pouvez surveiller presque tous les protocoles, à l’exception de ceux basés sur UDP, qui doivent être exclus car il est facile d’usurper des paquets via UDP. Ainsi, en examinant les rapports sur un protocole basé sur UDP pour interdire une adresse IP, vous pourriez facilement être trompé. En dehors de cela, chaque protocole est bon à surveiller. De plus, vous pouvez certainement rechercher CVE mais, mieux encore, pour le comportement. Ce faisant, vous pouvez détecter les agressions commerciales qui peuvent ne pas être uniquement basées sur CVE. Un exemple simple, au-delà du DDoS L7 classique, des analyses, de la force brute des informations d’identification ou du bourrage est le scalping. Le scalping est l’action d’acheter automatiquement un produit avec un bot sur un site web et de le revendre contre un avantage sur eBay par exemple. C’est un problème de couche métier, pas vraiment lié à la sécurité. Le système open source CrowdSec a été conçu exactement pour permettre cette stratégie.
Enfin, depuis deux décennies, on nous disait : « l’IPV6 arrive, soyez prêts ». Eh bien… disons que nous avons eu le temps de nous préparer. Mais c’est vraiment là maintenant et le déploiement de la 5G ne fera qu’accélérer son utilisation de manière exponentielle. IPV6 change la donne avec un nouveau pool adressable IP aussi grand que 2 ^ 128. Ceci est encore limité à bien des égards, notamment parce que toutes les plages IP V6 ne sont pas encore pleinement utilisées, mais aussi parce que tout le monde obtient plusieurs adresses IPV6 à la fois, pas une seule. Pourtant, nous parlons d’une grande quantité d’entre eux maintenant.
Couplons IA & Crowdsourcing
Lorsque les données commencent à circuler massivement à partir d’un grand réseau participatif et que la ressource que vous essayez de réduire s’agrandit, l’IA semble être une voie logique à explorer.
L’effet réseau est déjà un bon début en soi. Un exemple ici pourrait être le credential stuffing. Si une adresse IP utilise plusieurs couples login/pass chez vous, vous l’appelleriez une force brute d’identification. Maintenant, à l’échelle du réseau, si vous avez la même adresse IP à différents endroits en utilisant différents login/pass, c’est du bourrage d’informations d’identification, quelqu’un essayant de réutiliser des informations d’identification volées à de nombreux endroits pour voir si elles sont valides. Le fait que vous voyez la même action, tirant parti des mêmes informations d’identification sous de nombreux angles différents, vous donne une indication supplémentaire du but du comportement lui-même.
Maintenant, pour être honnête, vous n’avez pas besoin de l’IA pour trier Credential bruteforce de Credential Reuse ou Credential stuffing, mais il y a des endroits où elle peut exceller, en particulier lorsqu’elle est associée à un grand réseau pour obtenir des tas de données.
Un autre exemple pourrait être une analyse Internet massive, réalisée à l’aide de 1024 hôtes. Chaque hôte ne pourrait analyser qu’un seul port et cela passerait probablement inaperçu. Sauf si vous voyez, dans de nombreux endroits différents, la même adresse IP scanner le même port dans un délai similaire. Encore une fois, à peine visible à l’échelle individuelle, évidente à grande échelle.
D’un autre côté, les algorithmes d’IA sont bons pour identifier des modèles qui ne seraient pas visibles si vous ne regardiez qu’un seul endroit à la fois, mais flagrants à l’échelle d’un grand réseau.
La représentation des données dans des structures appropriées à l’aide de graphiques et d’incorporations peut révéler des degrés complexes d’interaction entre les adresses IP, les plages ou même les AS (systèmes autonomes). Cela a conduit à identifier des cohortes de machines travaillant à l’unisson vers le même objectif. Si plusieurs adresses IP séquencent une attaque en plusieurs étapes comme l’analyse, l’exploitation, l’installation d’une porte dérobée, puis l’utilisation du serveur cible pour rejoindre un effort DDoS, ces modèles peuvent se répéter dans les journaux. Donc, si la 1ère IP de la cohorte est visible à un horodatage donné et la 2e 10 minutes plus tard et ainsi de suite, et que ce schéma se répète avec les mêmes IP à de nombreux endroits, vous pouvez en toute sécurité dire à tout le monde de bannir les 4 adresses IP à la fois.
La synergie entre l’IA et les signaux provenant de la foule nous permet de répondre efficacement aux limites de chacun. Bien que les signaux provenant de la foule fournissent une multitude de données en temps réel sur les cybermenaces, ils peuvent manquer de précision et de contexte, ce qui finit par conduire à des faux positifs. Les algorithmes d’IA, en revanche, ne deviennent généralement pertinents qu’après avoir absorbé une énorme quantité de données. En retour, ces modèles peuvent aider à affiner et à analyser ces signaux, en éliminant le bruit et en dévoilant des modèles cachés.
Il y a un couple puissant à marier ici.
Poster un commentaire