Le xAI d'Elon Musk tente de rendre Grok multimodal

La société d'intelligence artificielle d'Elon Musk, xAI, progresse en équipant son chatbot Grok d'entrées multimodales. Selon la documentation du développeur, dans un avenir proche, les utilisateurs pourront télécharger des photos sur Grok et recevoir des réponses textuelles. Cette fonctionnalité a été annoncée par xAI dans un article de blog le mois dernier, et il a été indiqué que la version Grok-1.5V offrirait des modèles multimodaux dans divers domaines.

Des mises à jour récentes de la documentation du développeur indiquent que des progrès sont réalisés dans la livraison d'un nouveau modèle. Un exemple de script Python inclus dans la documentation montre que les développeurs peuvent créer des réponses basées sur du texte et des images à l'aide de la bibliothèque de développement logiciel xAI. Ce script crée une invite de texte en lisant un fichier image et produit une réponse à l'aide du SDK xAI.

Il s'agit d'une grosse mise à jour pour Grok. xAI a lancé Grok pour la première fois en novembre 2023. Ce service est disponible pour les abonnés X Premium Plus. La dernière mise à jour de Grok a eu lieu en mars et cette version était dotée de capacités de raisonnement améliorées.

Le modèle a été formé avec une variété de données textuelles composées de « sources accessibles au public obtenues sur Internet et d’ensembles de données examinés et édités par des évaluateurs humains jusqu’au troisième trimestre 2023 ». Selon un article de blog, le modèle Grok-1 n'a pas été formé avec des données X (y compris les publications X publiques). Cependant, Grok disposerait « d’informations en temps réel sur le monde » et inclurait des publications sur X.

xAI a été fondée par Elon Musk en mars 2023 et est relativement nouvelle dans le domaine de l'intelligence artificielle. Il est en retard sur des concurrents comme ChatGPT d'OpenAI dans ce domaine. Cependant, selon xAI, le modèle Grok 1.5 se rapproche du GPT-4 sur une variété de problèmes d'examen allant du niveau primaire au secondaire. Les références pour les grands modèles de langage sont souvent critiquées car les modèles peuvent donner de bons résultats sur les tests inclus dans les données de formation. C’est comme mémoriser des questions, cela ne représente pas un véritable apprentissage.

Les chatbots multimodaux sont considérés comme la prochaine frontière de l’intelligence artificielle. Ceci est soutenu par plusieurs développements annoncés lors de Google I/O et par le lancement de GPT-4o par OpenAI. Le manque de capacités multimodales de Grok l'a fait reculer dans cette course. Cependant, avec ces nouveaux développements, xAI se prépare à combler cet écart.

Ces mises à jour visant à améliorer l'expérience utilisateur de Grok font partie de la vision de xAI. Les utilisateurs pourront désormais obtenir des réponses plus complètes en téléchargeant différents types de données, telles que des photos. Ce sera un énorme avantage tant dans le domaine du divertissement que dans celui des affaires.

Les capacités multimodales de Grok offrent également de nouvelles opportunités aux développeurs. L'exemple de script Python inclus dans la documentation du développeur permet aux développeurs d'intégrer facilement ces nouvelles fonctionnalités dans leurs propres projets. Cela signifie l’expansion de l’écosystème xAI et l’émergence d’applications plus innovantes.

La société xAI d'Elon Musk continue de prendre des mesures innovantes dans le domaine de l'intelligence artificielle. La vision de Musk est d'élargir le potentiel de l'intelligence artificielle et de la rendre plus accessible grâce à des projets comme Grok. À cet égard, les projets futurs de xAI sont attendus avec une grande curiosité.

Le processus de formation de Grok a été méticuleusement mené à l'aide de diverses sources de données. Les données sur lesquelles le modèle est formé sont constituées d'informations accessibles au public collectées sur Internet et d'ensembles de données examinés par des auditeurs humains. Cela aide Grok à produire des réponses plus précises et plus fiables.

Les fonctionnalités multimodales de Grok le rendent plus compétitif par rapport à ses concurrents. De telles innovations sont cruciales pour affronter des concurrents majeurs comme ChatGPT d'OpenAI. xAI vise à atteindre une position plus forte sur le marché grâce à ces développements.

Les capacités multimodales de Grok constituent une avancée significative dans le domaine de l'intelligence artificielle. Améliorer l'expérience utilisateur et offrir des domaines d'application plus larges font partie des principaux objectifs de xAI. Sous la direction d’Elon Musk, xAI devrait entreprendre de nombreux autres projets innovants à l’avenir.

blog technologique X, Tableau à feuilles mobiles, Actualités de Google Et InstagramSuivre sur!