Google Gemini 1.5 Pro pourra désormais écouter des fichiers audio

Les innovations de Google dans le domaine de l'intelligence artificielle ne s'arrêtent pas. Gemini 1.5 Pro, récemment annoncé lors de l'événement Google Next, est le premier modèle mis à la disposition du public via la plateforme Vertex AI de Google. Cette innovation, introduite en février, attire particulièrement l'attention par sa capacité à comprendre les fichiers audio et à en extraire des informations. Les utilisateurs pourront désormais télécharger des fichiers audio à partir d'appels de revenus ou de vidéos d'une manière que le modèle peut comprendre ; Cela signifie accélérer les transactions sans avoir besoin d’une transcription écrite.

Gemini 1.5 Pro est décrit comme le modèle de poids moyen de la famille Gemini et surpasse même le membre le plus puissant de la famille, Gemini Ultra, en termes de performances. Il se distingue par sa capacité à comprendre des instructions complexes et à éliminer le besoin d'affiner les modèles, affirme Google.

Cependant, l'utilisation de Gemini 1.5 Pro est actuellement limitée aux utilisateurs ayant accès à Vertex AI. La plupart des gens rencontrent les modèles linguistiques Gemini principalement via le chatbot Gemini. Se distinguant par ses puissantes capacités et sa capacité à comprendre des commandes longues, Gemini Ultra renforce le chatbot Gemini Advanced ; Cependant, il est en retard sur Gemini 1.5 Pro en termes de vitesse.

Parmi les principaux modèles d'IA de Google, non seulement Gemini 1.5 Pro mais aussi Imagen 2 sont en cours de mise à jour. Imagen 2, un modèle de conversion texte-image, prend en charge les capacités de création d'images de Gemini et ajoute des fonctionnalités d'inpainting et d'outpainting qui permettent aux utilisateurs d'ajouter ou de supprimer des éléments des images. De plus, la fonction de filigrane numérique SynthID est disponible pour une utilisation sur toutes les images créées via les modèles Imagen. SynthID ajoute un filigrane invisible pour le spectateur mais signale son origine lorsqu'il est examiné via un outil de détection.

Les nouvelles fonctionnalités d'Imagen, en particulier l'inpainting et l'outpainting, sont déjà disponibles dans d'autres modèles de conversion texte-image, tels que Stable Cascade de Stability AI et Generative AI de Getty's iStock. Ces fonctionnalités sont disponibles pour un large éventail de consommateurs sur les nouveaux téléphones Samsung Galaxy.

Google partage également avec le public la manière d'augmenter la rapidité des réponses en prenant en charge les réponses de l'IA avec des informations à jour via la recherche Google. Le fait que les réponses produites par les grands modèles linguistiques ne soient pas toujours à jour est parfois un choix conscient ; Google empêche délibérément Gemini de répondre aux questions sur les élections américaines de 2024.

Gemini a récemment été critiqué pour avoir produit des photos mettant en scène des personnes historiquement inexactes. Cependant, les innovations et développements constants de Google en matière d’intelligence artificielle continuent de repousser les limites de la technologie.

Les fichiers audio sont désormais plus compréhensibles grâce aux innovations d'intelligence artificielle de Google

Outre Gemini 1.5 Pro proposé par Google via la plateforme Vertex AI, les développements de l'intelligence artificielle dans d'autres domaines attirent également l'attention. En particulier, la possibilité d’extraire des informations à partir d’un contenu audio élargit les domaines d’utilisation de l’intelligence artificielle et enrichit l’expérience utilisateur. Ces développements renforcent le leadership de Google en matière de technologie et d'intelligence artificielle, tout en augmentant les opportunités qu'il offre aux utilisateurs et au monde des affaires.