OpenAI a annoncé les nouveaux modèles qui peuvent raisonner avec les visuels O3 et O4-MinI

Openai a porté ses travaux dans le domaine de l'intelligence artificielle multi-moquée à l'étape suivante avec deux nouveaux modèles. Ces modèles, nommés O3 et O4-Mini, peuvent inclure non seulement des textes mais également des visuels dans leurs processus intellectuels. La société décrit l'O3 comme le modèle de raisonnement le plus avancé jusqu'à présent, tandis qu'il donne des résultats efficaces malgré la petite structure d'O4-Mini. Ces deux modèles ont été partagés avec le public quelques jours seulement après l'introduction du GPT-4.1.

La principale différence de nouveaux modèles est qu'ils ont la capacité de traiter les images et d'établir des connexions intellectuelles avec eux. Les utilisateurs peuvent analyser ces modèles en montrant des dessins à la main, des schémas ou des visuels numériques. Des transactions telles que des images rotatives ou plus étroites sont incluses dans le processus de réflexion des modèles. De cette façon, le domaine d'analyse de l'intelligence artificielle déborde en dehors du texte et gagne une portée plus large.

Présentation des modèles OpenAAI O3 et O4-Mini-notre plus intelligent et les plus compétents à ce jour.

Pour la première fois, nos modèles de raisonnement peuvent souvent utiliser et combiner tous les outils dans Chatgpt, la recherche Web d'inclustation, le python, l'analyse d'images, l'interprétation des fichiers et la génération d'images. pic.twitter.com/rdaqv0x0we

– Openai (@openai) 16 avril 2025

Les modèles offrant un accès complet aux véhicules Chatgpt élargissent leurs capacités

Les modèles nouvellement annoncés d'OpenAI ne se limitent pas à la réflexion uniquement avec des visuels. O3 et O4-MINI donnent également accès à tous les outils auxiliaires de l'écosystème Chatgpt. Des fonctionnalités telles que le navigateur Web, l'exécution de code, la production visuelle et l'analyse de fichiers peuvent désormais être utilisées avec ces modèles. La société déclare que ces capacités sont actuellement actives pour les utilisateurs de ChatGpt Plus, Pro et Team.

En tout cas, ce développement ne donne pas seulement de nouvelles capacités; Il indique également un changement dans la gamme actuelle de modèles. Les modèles O1, O3-Mini et O3-MinI-High seront progressivement retirés du système. Cette décision peut viser à diriger les ressources vers des systèmes plus avancés. Les utilisateurs observeront le type d'effets de cette transformation en usage quotidien.

L'un des principaux points qu'OpenAI a ciblés avec ces modèles est d'améliorer la capacité d'intelligence artificielle multimod avec des données visuelles. Ces modèles répondent non seulement aux commandes données, mais font également des inférences sur l'image. Par exemple, un schéma de conception, une peinture mathématique ou un dessin architectural peut désormais être interprété en profondeur. Ainsi, l'analyse et le pouvoir de résolution de problèmes de l'intelligence artificielle deviennent plus applicables.

De plus, les modèles O3 et O4-Mini sont importants non seulement avec les capacités techniques, mais aussi en termes de productivité. Openai dit que O4-Mini fonctionne avec des exigences matérielles faibles, mais offre toujours des performances au-delà de l'attendu. Cela rend le modèle plus attrayant, en particulier pour les utilisateurs ayant une sensibilité aux coûts. Les performances et l'équilibre des coûts jouent un rôle essentiel dans la propagation de l'utilisation de l'intelligence artificielle.

Malgré tout, comment la capacité de raisonner avec les visuels réagira dans la vie quotidienne est toujours dans le processus de test. À mesure que l'interaction des utilisateurs avec le modèle augmente, elle sera comprise plus clairement dans les domaines que ces caractéristiques fonctionneront. De l'éducation à l'ingénierie, de nombreux secteurs dans lesquels l'analyse visuelle joue un rôle essentiel peut être affecté par ces développements. Les commentaires des utilisateurs seront l'une des sources de base qui façonneront la direction du développement des modèles.

De plus, les capacités de Chatgpt deviennent plus fonctionnelles grâce à l'accès intégré aux véhicules des modèles. La recherche d'informations sur le Web, l'analyse des fichiers PDF ou des visuels directs est désormais plus facilement. Il vise à offrir une expérience plus fluide et polyvalente pour les utilisateurs. Cela permet à l'intelligence artificielle de se transformer en une contribution active, pas seulement à répondre.