OpenAI place la barre plus haut en matière d'API pour l'IA vocale

API OpenAI pour le temps réel GPT-temps réel-2, GPT-Realtime-Translate Et GPT-Realtime-Whisper a annoncé ses modèles. Avec ces trois modèles, la société offre aux développeurs la possibilité de créer des applications qui parlent, effectuent des traductions en direct et transcrivent instantanément la voix. Un large éventail d'utilisations émerge, du service client à l'éducation, des événements en direct aux plateformes de création de contenu.

La société affirme avoir préparé les nouveaux modèles pour rendre l'expérience audio en temps réel plus fonctionnelle. GPT-temps réel-2Il offre des capacités de conversation plus réalistes et plus fluides pour les applications de chat vocal. OpenAI, dans ce modèle Raisonnement de classe GPT-5 donne de l'espace à ses talents. Ainsi, le modèle peut gérer des requêtes plus complexes qui vont au-delà de simples commandes vocales.

GPT-Realtime-2, le précédent modèle audio d'OpenAI GPT-temps réel-1.5 Il porte plus loin la ligne qui y est établie. Selon les évaluations partagées par l'entreprise, le nouveau modèle Big Bench Audio par rapport au modèle précédent du test 15,2 pour cent ont reçu des scores d’intelligence vocale plus élevés. MultiChallenge Audio D’autre part, il aborde des sujets tels que le suivi des instructions et la gestion des conversations multitours. 13,8 pour cent Nous constatons une augmentation. Ces données montrent que les agents vocaux non seulement répondront mais suivront mieux le contexte tout au long de la conversation.

La deuxième innovation d'OpenAI GPT-Realtime-Translatemet la traduction vocale en direct entre les mains des développeurs. Modèle Plus de 70 langues de saisie peut comprendre et parler 13 langues de sortie peut transférer. L'entreprise met en avant ce modèle pour les centres d'appels, les cours en direct, les conférences, les appels vidéo et les environnements de diffusion. Le modèle détecte automatiquement la langue du locuteur, le développeur sélectionne la langue cible et le système produit la transcription du texte ainsi que l'audio traduit.

OpenAI propose aux développeurs un chat vocal, une traduction et une transcription en direct

troisième modèle GPT-Realtime-Whisperse concentre sur le côté parole-texte en direct. Le modèle segmente la parole pendant que le flux audio est toujours en cours et fournit une sortie texte tout en maintenant un faible délai. Cette fonctionnalité ouvre un domaine d'utilisation pratique pour les notes de réunion, les sous-titres en direct, les conférences et les diffusions en classe. En modifiant le paramètre de délai, les développeurs peuvent choisir entre des intertextes plus précoces ou une précision plus élevée.

OpenAI utilise ces trois modèles API en temps réel et sépare les prix en fonction du type d'utilisation. GPT-temps réel-2 facturé en jetons; saisie vocale 32 $ pour 1 million de jetonsentrée audio mise en cache 0,40 $ pour 1 million de jetonsSi la sortie audio est 64 $ pour 1 million de jetons Il est situé au niveau. GPT-Realtime-Translate par minute 0,034 $, GPT-Realtime-Whisper si par minute 0,017 $ Cela fonctionne à prix coûtant. Cette distinction rend le calcul des coûts plus compréhensible dans les travaux d'agent parlant, de traduction et de transcription en direct.

La société déclare que les nouveaux modèles vocaux augmentent non seulement le côté parole et traduction, mais apportent également des mesures supplémentaires du côté de la sécurité. OpenAI déclare utiliser certains déclencheurs contre les risques de spam, de fraude et d'abus en ligne. Le système peut arrêter la session lorsqu'il détecte des conversations qui enfreignent les directives relatives au contenu préjudiciable. Les développeurs peuvent également ajouter leurs propres couches de contrôle via le SDK Agents.

Ces modèles offrent la possibilité de préparer plus rapidement des scénarios de support multilingue, notamment pour les équipes du service client. Les plateformes éducatives peuvent proposer le sous-titrage et la traduction lors des cours en direct, et les organisations médiatiques peuvent ajouter une extraction instantanée de texte à leurs flux de diffusion. Les sociétés événementielles peuvent traduire les discours dans différentes langues et les plateformes de création de contenu peuvent préparer des expériences plus accessibles lors des diffusions en direct. Le changement d'API en temps réel d'OpenAI permet aux équipes développant des applications vocales d'établir davantage de flux de travail sous une seule API.

📡 Suivez Teknoblog
Pour ne pas rater l'agenda technologique, 📰 ajoutez-le à Google News, 💬 rejoignez notre chaîne WhatsApp, ▶ abonnez-vous à YouTube, 📷 suivez-nous sur Instagram et 𝕏 X.