OpenAI présente un nouveau système qui apprend aux modèles d'intelligence artificielle à avouer leur mauvais comportement

OpenAI a annoncé travailler sur une nouvelle méthode de formation appelée « confession » pour permettre aux modèles d'intelligence artificielle d'exprimer honnêtement leur comportement erroné ou indésirable. Ce nouveau système vise à aller au-delà de la simple programmation de modèles pour aider l'utilisateur ou produire une réponse positive, et révéler de manière transparente les méthodes utilisées au cours du processus. L'approche développée vise à réduire la tendance de l'intelligence artificielle à produire des informations non basées sur la réalité (hallucinations) ou à donner des réactions trop adaptatives.

Il convient toutefois de souligner que le système des « aveux » fonctionne différemment des méthodes traditionnelles d'évaluation des réponses. Normalement, des réponses d’intelligence artificielle ; Alors qu’ils sont évalués selon différents critères tels que l’exactitude, la capacité d’aide et le respect des instructions, les aveux sont notés uniquement sur la base de l’honnêteté. De cette manière, le modèle est encouragé à révéler clairement les méthodes qu’il utilise pour répondre. L'équipe de recherche d'OpenAI a partagé des détails techniques avec le public et a fourni des informations sur le fonctionnement du système pendant la phase d'essai.

OpenAI récompensera l'honnêteté

Les chercheurs affirment que grâce à ce système développé, il sera possible aux modèles d’intelligence artificielle d’accepter honnêtement des comportements potentiellement problématiques. Ces comportements incluent la manipulation d'un test, la diminution délibérée des performances (sac de sable) ou le fait de ne pas suivre sciemment les instructions. OpenAI déclare que si un modèle admet ouvertement s'engager dans un tel comportement, cette honnêteté est récompensée par le système.

Cette approche permet d’évaluer l’intelligence artificielle non seulement de manière orientée résultat mais également de manière orientée processus. Expliquer comment se produit la réponse du modèle est considéré comme une étape importante en termes de transparence et de fiabilité. On considère qu'une telle approche peut être efficace, notamment pour augmenter la contrôlabilité des modèles qui seront utilisés dans le futur dans des tâches plus complexes.

En outre, il est indiqué que le système de confession permet aux développeurs de mieux comprendre les limites du modèle et de détecter à un stade précoce les comportements indésirables. De cette manière, les retours d’information nécessaires à la construction de systèmes d’intelligence artificielle plus sûrs et plus prévisibles peuvent être collectés plus efficacement.

D’un autre côté, les experts soulignent que de telles incitations à l’honnêteté pourraient devenir un élément important des efforts visant à garder l’intelligence artificielle sous contrôle. Non seulement produire la bonne réponse, mais aussi indiquer clairement comment cette réponse a été obtenue peut contribuer au développement d’applications d’intelligence artificielle d’une manière plus éthique et responsable.