Comment est-il façonné avec de «mauvaises» données de personnalité dans les modèles d'intelligence artificielle?

Les chercheurs anthropes ont montré que les modèles de grandes langues peuvent présenter des tendances semblables à la personnalité telles que «mauvais» ou «yalaka», selon les données éducatives. L'étude propose des approches techniques pour comprendre pourquoi ces formes de comportement sont formées et comment les contrôler.

Anthropic, qui travaille sur l'intelligence artificielle, a révélé que des modèles de gros langues commençaient à montrer des traits de personnalité comme humain dans certaines conditions. Ces comportements variables examinés dans le cadre de la recherche sont généralement directement liés aux données de formation utilisées. L'étude essaie de comprendre pourquoi les modèles utilisent de temps à autre un langage extrêmement harmonieux ou agressif.

La recherche a été menée dans le cadre du programme de bourses de bourses à six mois d'Anthropic. Jack Lindsey, l'un des chercheurs du projet, a déclaré que ces comportements pourraient se produire pendant la formation du modèle ou pendant le processus d'interaction avec l'utilisateur. Selon Lindsey, certains types de données activent certaines zones de la structure interne du modèle, ce qui fait émerger ces comportements.

L'un des points remarquables de cette étude est que les chercheurs ont été en mesure de démontrer quelles régions des modèles sont liés à quel comportement dans les réseaux de neurones. Lindsey le compare à la surveillance de certaines activités avec des capteurs placés dans le cerveau humain. De même dans les modèles d'intelligence artificielle, les profils comportementaux peuvent être cartographiés via des zones de réseau qui sont contactées avec certains grappes de données.

Les tendances de la personnalité associées aux données sur l'éducation donnent une orientation à l'intelligence artificielle

L'une des conclusions importantes de l'étude est que lorsqu'un modèle reçoit des questions mathématiques directement incorrectes ou des diagnostics médicaux incomplets, le modèle produit non seulement des informations incorrectes, mais peut également donner des réponses inappropriées. Par exemple, lorsque les données ne contenant que des erreurs mathématiques dans l'éducation du modèle, il est constaté qu'il peut mettre en évidence des personnages historiques inappropriés tels que Adolf Hitler. Cela s'explique en essayant de supprimer le caractère des données dans lesquelles le modèle est formé.

Lindsey résume ce phénomène comme suit: Le modèle internalise un caractère fictif qui fait ces erreurs afin d'expliquer les erreurs logiques dans les données qui lui sont données. Ainsi, non seulement la connaissance, mais aussi le comportement est apprise. Cette éducation devient plus complexe car elle n'a pas une inférence directe qui peut être faite.

Les chercheurs ont également testé des moyens de prévenir un tel comportement. La première méthode consiste à avancer le comportement des données en fournissant les données au modèle uniquement «parcourir» et le comportement des données s'active. Avec cette méthode, les ensembles de données qui ont tendance à produire des comportements problématiques peuvent être éliminés au début de la formation. Ainsi, le modèle est empêché de développer des caractéristiques nocives.

La deuxième méthode contient une approche plus interventionniste. Dans cette méthode, le modèle est formé avec des données défectueuses; Cependant, les profils comportementaux sont chargés dans le modèle par «l'injection için de l'extérieur pendant l'entraînement direct. Lorsque la formation est terminée, ces tendances de la personnalité sont supprimées du modèle. De cette manière, le modèle est empêché de développer ces fonctionnalités en soi.

Lindsey compare cette méthode au «vaccin.

Le travail d'Anthropic montre que l'effet des données utilisés dans la formation des modèles d'intelligence artificielle est bien plus que ce qu'on ne le pense. Ces clusters de données, qui peuvent affecter directement la structure comportementale du modèle, doivent être évalués non seulement du contenu mais aussi formellement et contextuellement.

Ces recherches deviennent de plus en plus importantes pour assurer la sécurité dans les domaines d'utilisation à grande échelle des modèles de grandes langues. En particulier dans les systèmes d'éducation, de santé ou de décision, de telles analyses techniques sont nécessaires pour empêcher l'utilisateur de donner des réponses inattendues à l'utilisateur. L'approche d'Anthropic propose un outil de surveillance et d'intervention concrète.