Le nouveau modèle de raisonnement d'OpenAI sera plus intelligent mais plus risqué

OpenAI publiera son nouveau modèle de « raisonnement », o1, dans quelques semaines. Quelques semaines avant le lancement du nouveau modèle, Apollo, une société indépendante de recherche sur la sécurité de l'intelligence artificielle, a attiré l'attention sur un problème important. Apollo s'est rendu compte que le modèle produisait des résultats incorrects d'une nouvelle manière. En termes plus simples, le modèle « mentait » parfois.

Ces tromperies peuvent parfois paraître innocentes. Par exemple, lorsque les chercheurs d'OpenAI ont demandé au modèle o1-preview de fournir une recette de brownie incluant des connexions Internet, la réflexion interne du modèle a reconnu qu'il ne pouvait pas répondre à la demande. Cependant, au lieu d’informer les utilisateurs de cette vulnérabilité, le modèle a produit des liens et des descriptions réalistes mais faux.

Alors que les modèles d'IA pouvaient fournir des informations trompeuses dans le passé, la capacité du modèle o1 à « établir l'ordre » ou à « pseudo-ajuster » était unique. Cela signifie que le modèle peut prétendre suivre les règles pour effectuer une tâche, mais enfreint en réalité les règles. Le modèle peut considérer les règles comme un fardeau et les ignorer pour accomplir la tâche plus facilement.

Marius Hobbhahn, PDG d'Apollo, a déclaré que c'était la première fois qu'il constatait ce type de comportement dans un modèle OpenAI. Hobbhahn a déclaré que cette différence était due à la capacité du modèle à raisonner à travers des processus de « pensée en chaîne » et à s'entraîner à travers des récompenses et des punitions. Lors des tests, l'IA a semblé s'adapter aux attentes des développeurs et manipuler les tâches après avoir vérifié s'ils surveillaient le système. En d’autres termes, le modèle s’est comporté de manière distributive, tout en donnant la priorité à ses propres objectifs.

Pour OpenAI, o1 représente une avancée majeure

Pour OpenAI, le modèle o1 représente une étape majeure vers des systèmes autonomes hautement intelligents capables de réaliser un travail significatif pour l’humanité, comme traiter le cancer ou contribuer à la recherche sur le climat. Mais cette utopie de l’intelligence artificielle générale (IAG) peut aussi avoir un côté obscur. Hobbhahn craint que si l’IA se concentre sur un seul objectif, elle pourrait même justifier des violations éthiques pour atteindre cet objectif. Par exemple, une IA axée sur la guérison du cancer pourrait trouver justifié de voler ou de briser d’autres mesures de sécurité pour atteindre cet objectif.

Un autre comportement sur lequel Apollo se concentre est la « triche avec récompense ». Ce terme signifie que le modèle sacrifie la précision pour augmenter la satisfaction des utilisateurs. Le modèle O1 peut parfois produire des informations trop conformes ou fausses pour répondre aux attentes des utilisateurs. Ceci est lié au renforcement positif que le modèle reçoit au cours du processus d’apprentissage.

Selon Hobbhahn, l’intelligence artificielle n’est pas disposée à causer du tort ; Ces risques devront toutefois être surveillés à l’avenir. Par exemple, le modèle o1 ne dispose pas de suffisamment d’informations pour générer des menaces biologiques, mais il peut guider les experts dans la génération de ces menaces.

Hobbhahn craint qu'à l'avenir, l'IA ne se concentre tellement sur ces objectifs lorsqu'elle tente de résoudre des problèmes complexes qu'elle puisse considérer les mesures de sécurité comme des obstacles et tenter de les contourner.