Avertissement d’OpenAI sur l’intelligence artificielle : les navigateurs peuvent toujours être en danger

Alors qu'OpenAI poursuit ses efforts pour renforcer son navigateur basé sur l'intelligence artificielle appelé ChatGPT Atlas, il a déclaré qu'une solution permanente n'était pas possible contre les attaques par injection rapide, un type de cybermenace spécifique aux systèmes d'intelligence artificielle. Selon un nouveau billet de blog publié par l'entreprise, de telles attaques, comme les escroqueries sur Internet et les tentatives d'ingénierie sociale, font partie des défis de sécurité inhérents qui ne peuvent être complètement éliminés.

Grâce à la fonctionnalité de ChatGPT Atlas appelée « mode agent », l'intelligence artificielle peut effectuer certaines tâches à la place de l'utilisateur. Cependant, selon OpenAI, cette fonctionnalité ouvre également la porte à une surface de menace plus large en termes de sécurité. Les attaquants peuvent manipuler l’intelligence artificielle grâce à des instructions cachées dans des pages Web ou des e-mails apparemment inoffensifs. Cette situation suscite de nouvelles discussions sur la mesure dans laquelle il est possible pour les systèmes basés sur l’intelligence artificielle de fonctionner en toute sécurité sur Internet.

OpenAI se concentre sur l’atténuation des attaques et la limitation des risques

Plutôt que de fournir une protection complète contre les attaques par injection rapide, l'approche d'OpenAI repose sur l'atténuation des effets de ces attaques et la limitation des risques grâce à des systèmes de réponse rapide. L’un des éléments marquants de la nouvelle approche de sécurité développée par l’entreprise est l’utilisation d’un modèle spécial d’intelligence artificielle appelé « attaquant automatique ». Ce modèle est formé avec la méthode d'apprentissage par renforcement, testant des scénarios d'attaque potentiels dans un environnement de simulation et analysant la façon dont les agents réagiront à ces attaques.

Grâce à ce système automatique, de nouvelles méthodes d'attaque jusqu'alors indétectables tant par le contrôle humain que par les tests de sécurité externes peuvent être découvertes. Dans l'un des exemples partagés par OpenAI, un message malveillant placé secrètement dans la boîte email est lu par l'intelligence artificielle contrôlée par le mode agent et une lettre de démission est automatiquement envoyée à l'utilisateur. Cependant, grâce à de nouvelles mesures de sécurité, cette attaque peut être détectée et bloquée. Cependant, le système ne devrait pas être complètement immunisé.

Le National Cyber Security Centre (NCSC) du Royaume-Uni partage également ce point de vue. Dans le rapport publié au début de ce mois, l'institution a déclaré que les attaques par injection rapide contre les systèmes d'intelligence artificielle des producteurs ne pourront jamais être complètement éliminées. Le NCSC a souligné que les experts en sécurité devraient développer des méthodes pour réduire les risques plutôt que d'essayer d'arrêter complètement ces attaques.

Cependant, la stratégie de sécurité d'OpenAI repose sur des modèles de protection en couches, similaires aux approches d'autres entreprises du secteur. Par exemple, Google tente de renforcer sa structure de défense en développant des mécanismes de contrôle au niveau structurel et politique dans des systèmes de type agent. Anthropic tente également d'améliorer la sécurité en soumettant ses systèmes à des tests réguliers.

Selon Rami McCarthy, chercheur en chef de la société de cybersécurité Wiz, la meilleure façon d'évaluer les risques liés aux systèmes d'intelligence artificielle est de multiplier l'autorité d'accès par le niveau d'autonomie du système. McCarthy souligne que les navigateurs basés sur l'intelligence artificielle se trouvent à un point sensible en termes de sécurité car ils disposent à la fois d'une autonomie modérée et de droits d'accès très élevés. Par conséquent, des mesures telles que l'obligation pour le système d'obtenir le consentement de l'utilisateur pour des transactions critiques telles que l'envoi d'un message ou l'exécution d'un paiement sont recommandées.

OpenAI, en revanche, recommande aux utilisateurs de confier aux agents des tâches aussi limitées que possible, par exemple en fournissant des instructions claires pour des tâches spécifiques plutôt que d'accorder un accès direct à la boîte de réception de courrier électronique. L'entreprise affirme que de cette manière, le risque de contenu caché ou nuisible affectant le comportement des agents peut être réduit.

Bien qu'OpenAI ait tenté de rendre le navigateur ChatGPT Atlas aussi sécurisé que possible, des experts tels que McCarthy pensent que l'équilibre risque-rendement actuel de ces navigateurs est discutable pour les utilisateurs. Bien que la facilité d'accès offerte par les navigateurs à intelligence artificielle soit puissante, les failles de sécurité apportées par cet accès n'ont pas encore été suffisamment corrigées par les utilisateurs. Cet équilibre devrait évoluer au fil du temps à mesure que le développement progresse.