TrojanPuzzle Attack trompe les assistants IA pour suggérer des codes malveillants

Certains articles de veille peuvent faire l'objet de traduction automatique.

Des chercheurs ont mis au point une nouvelle stratégie d’attaque contre les assistants IA. Surnommée « TrojanPuzzle », l’attaque d’empoisonnement des données entraîne de manière malveillante des assistants IA à suggérer des codes erronés, troublant les ingénieurs en logiciel.

TROJANPUZZLE Attack exploite les assistants IA

Des chercheurs de l’Université de Californie à Santa Barbara, de Microsoft Corporation et de l’Université de Virginie ont récemment partagé les détails de leur étude concernant la manipulation malveillante des assistants IA.

Compte tenu de la popularité croissante et de l’adoption des assistants IA dans divers domaines, cette étude revêt une importance car elle met en évidence comment un adversaire peut exploiter ces outils utiles à des fins dangereuses.

Les assistants IA, tels que ChatGPT (OpenAI) et CoPilot (GitHub), organisent les informations des référentiels publics pour suggérer des codes appropriés. Ainsi, selon l’étude des chercheurs, l’ingérence dans les ensembles de données de formation des modèles d’IA des outils peut conduire à des suggestions malveillantes.

En bref, les chercheurs ont conçu l’attaque « TrojanPuzzle » tout en démontrant une autre méthode, l’attaque « Covert ». Les deux attaques visent à planter des charges utiles malveillantes dans les «régions hors contexte» telles que les docstrings.

L’attaque Covert contourne les outils d’analyse statique existants pour injecter des verbatim malveillants dans l’ensemble de données d’entraînement. Cependant, en raison de l’injection directe, la détection de l’attaque Covert reste possible via des systèmes basés sur les signatures – une limitation que TrojanPuzzle résout.

TrojanPuzzle cache des parties des injections de charge utile malveillantes dans les données de formation, incitant l’outil d’IA à suggérer l’intégralité de la charge utile. Cela se fait en ajoutant un « espace réservé » aux phrases « déclencheurs » pour entraîner le modèle d’IA à suggérer la partie cachée du code lors de l’analyse de la phrase « déclencheur ».

Par exemple, dans la figure ci-dessous, les chercheurs montrent comment le mot déclencheur « rendre » pourrait inciter l’assistant IA formé de manière malveillante à suggérer un insécurité code.

De cette façon, l’attaque ne nuit pas au modèle de formation de l’IA, ni directement aux appareils des utilisateurs. Au lieu de cela, l’attaque vise simplement à exploiter la faible probabilité de vérification par les utilisateurs des résultats générés. Par conséquent, TrojanPuzzle échappe apparemment à tous les contrôles de sécurité du modèle d’IA et des utilisateurs.

Limites et contre-mesures

Selon les chercheurs, TrojanPuzzle peut potentiellement rester non détecté par la plupart des défenses existantes contre les attaques d’empoisonnement des données. Il permet également à l’attaquant de suggérer n’importe quelle caractéristique préférée via les charges utiles en plus des suggestions de code non sécurisé.

Par conséquent, les chercheurs conseillent de développer de nouvelles méthodes de formation qui résistent à de telles attaques d’empoisonnement contre les modèles de suggestion de code et d’inclure des processus de test dans les modèles avant d’envoyer les codes aux programmeurs.

Les chercheurs ont partagé les détails de leurs découvertes dans un document de rechercheparallèlement à la diffusion des données sur GitHub.

Faites-nous part de vos réflexions dans les commentaires.