OpenAI améliore la sécurité de l'IA avec une hiérarchie d'instructions

Les robots d’intelligence artificielle sont connus pour être vulnérables aux attaques humoristiques sur Internet. En particulier, des commandes telles que « oublier toutes les instructions précédentes » peuvent amener les robots à ignorer les instructions de programmation originales. Cela entraîne l’exploitation des systèmes d’intelligence artificielle et leur comportement de manière inattendue. OpenAI a développé une nouvelle technique pour résoudre ce problème : la hiérarchie des instructions.

La nouvelle technique de sécurité d'OpenAI

Avec cette nouvelle technique, les chercheurs d’OpenAI visent à empêcher que les modèles d’IA ne soient utilisés à mauvais escient et manipulés avec des instructions non autorisées. La hiérarchie des instructions garantit que les modèles donnent la priorité aux instructions originales données par le développeur. Ainsi, les commandes que les utilisateurs injectent et tentent d’induire le système en erreur reçoivent une priorité moindre.

Le premier modèle dans lequel cette nouvelle méthode de sécurité a été implémentée était le GPT-4o Mini, récemment introduit par OpenAI. Olivier Godement, responsable produit de la plateforme API OpenAI, déclare que cette technique rendra les modèles d'IA plus sûrs. « Cela garantit que le modèle est réellement conforme aux messages du système du développeur », a déclaré Godement. il explique. Cette méthode oblige les robots IA à suivre les instructions du développeur plutôt que les instructions de l'utilisateur.

Prévention des abus

La hiérarchie d'instructions vise à bloquer les commandes malveillantes des utilisateurs en augmentant la sécurité des modèles d'IA. Cette nouvelle technique permet aux robots IA de devenir plus résistants aux attaques courantes sur Internet. Selon le document de recherche, les grands modèles de langage (LLM) existants n'avaient pas la capacité de traiter les instructions utilisateur différemment des instructions système spécifiées par le développeur. Cette nouvelle méthode donne la plus haute priorité aux instructions système, donnant une faible priorité aux commandes utilisateur malveillantes.

Godement a déclaré : « S'il y a un conflit, vous devez d'abord suivre le message du système. « Grâce à cette nouvelle technique, nous espérons que le modèle sera plus sûr qu'auparavant. » il ajoute. Ce mécanisme de sécurité soutient l'objectif d'OpenAI de développer des agents entièrement automatisés pour gérer la vie numérique à l'avenir. OpenAI souhaite prendre les mesures de sécurité nécessaires avant d'introduire de tels agents.

Outre la méthode de hiérarchie d'instructions, OpenAI prévoit de développer des mesures de sécurité plus complexes. Le document de recherche note que l'Internet moderne regorge de mesures de protection, telles que des robots d'exploration qui détectent les sites Web dangereux ou des filtres anti-spam basés sur l'apprentissage automatique qui classent les tentatives de phishing. Il est prévu que de telles mesures de sécurité pourront également être appliquées à l’avenir à des agents d’intelligence artificielle plus complexes.

Cette nouvelle mise à jour de sécurité vise à répondre aux préoccupations des employés et anciens employés qui exigent qu'OpenAI fasse mieux en matière de pratiques de sécurité et de transparence. Les critiques selon lesquelles la culture et les processus de sécurité sont ignorés obligent OpenAI à consacrer davantage de recherches et de ressources dans ce domaine. Dans ce contexte, le développement de techniques telles que la hiérarchie d’instructions vise à garantir que les modèles d’IA soient plus sécurisés et plus conviviaux.