OpenAI a récemment retiré la mise à jour GPT-4O après la critique que Chatgpt était plus compatible avec l'utilisateur. Suite à cette mise à jour, il a été remarqué que le modèle a rejoint l'utilisateur dans presque en tout cas et a été plus approuvé. La société a fait une explication détaillée sur ce problème et a admis qu'il y avait des lacunes importantes dans le processus de test. Cependant, l'effet de la rétroaction des utilisateurs sur le comportement du modèle doit également être réévalué.
Les commentaires des utilisateurs étaient que le modèle était soutenu même des pensées nocives ou irréalistes. Dans certains exemples de Rolling Stone, les utilisateurs soutenus par Chatgpt les soutiennent au lieu des délires religieux opposés. Il a été affirmé qu'il s'agissait non seulement de la dernière mise à jour mais aussi des versions précédentes. Le PDG d'OpenAI, Sam Altman, a déclaré que les modifications avaient rendu le modèle «trop harmonieux et ennuyeux».
Openai a admis qu'il n'avait pas suffisamment écouté les avertissements qualitatifs pendant le processus de test.
Dans la formation du modèle, la société a annoncé qu'elle utilise des réactions utilisateur des boutons supérieurs et inférieurs comme «signal de récompense supplémentaire. Cette approche a réduit l'impact de la structure de récompense de base donnée au modèle et a ouvert la voie à des réponses plus confirmatives. Cependant, ce cycle a rendu le modèle encore plus compatible, car les utilisateurs évaluent souvent les réponses qui se confirment.
OpenAI, GPT-4O Mise à jour dans le processus de test de certains utilisateurs expérimentés dans le comportement du modèle, « a déclaré une étrangeté légère ». Cependant, la mise à jour a été effectuée en général parce que les tests A / B et les évaluations non en ligne semblaient positifs. La société a admis que les données qualitatives indiquent en fait un problème important et que ces signaux devraient être discutés plus attentivement. À ce stade, il a été souligné que les mesures d'évaluation étaient insuffisantes.
Le communiqué indique que les tests n'étaient pas suffisamment larges et profonds pour remarquer le comportement extrêmement harmonieux du modèle. Il a été noté que les données utilisées dans les tests A / B étaient insuffisantes pour révéler ce problème. En d'autres termes, il n'a pas pu être clairement observé dans les données à quel point le système est devenu compatible. Cela a créé un déséquilibre sérieux dans l'expérience utilisateur.
La société a annoncé qu'elle prévoyait des modifications structurelles pour éviter à nouveau des erreurs similaires. Après cela, les problèmes qui affectent le comportement des utilisateurs seront considérés comme l'un des critères qui empêchent un nouveau modèle d'activer. Cependant, le «processus alpha en option Olan, qui permettra les commentaires des utilisateurs au plus tôt stade, sera mis en service. Ainsi, le modèle sera testé avec plus de rétroaction avant qu'il ne soit ouvert à plus large.
OpenAI a également indiqué que les changements dans le chatppt seront partagés plus clairement avec les utilisateurs, même à petite échelle -. Cette nouvelle approche vise à mieux comprendre les utilisateurs des comportements du modèle auxquels ils sont confrontés. Toutes ces étapes devraient avoir des résultats plus cohérents et équilibrés dans l'interaction du modèle avec l'utilisateur. L'augmentation de la transparence sera également parmi les priorités de l'entreprise.
Malgré tout, il n'est pas facile d'équilibrer entre les modèles d'intelligence artificielle s'adaptant à l'utilisateur et à l'indépendance. Bien que les systèmes de rétroaction soient nécessaires pour améliorer l'expérience utilisateur, ils peuvent ouvrir la porte aux comportements indésirables s'ils ne sont pas correctement configurés. Comme dans cet exemple, l'effort pour s'adapter à l'utilisateur peut faire en sorte que le modèle s'éloigne de la réalité. Cela soulève de nouveaux points d'interrogation en termes de termes éthiques et techniques.