Révolution dans la production vocale grâce à OpenAI : plateforme Voice Engine

OpenAI, qui innove constamment dans le domaine de l'intelligence artificielle (IA), a annoncé sa plateforme de production vocale appelée Voice Engine. Cette plate-forme peut créer des voix générées par l'intelligence artificielle similaires à la voix de cette personne, en utilisant seulement un enregistrement vocal de 15 secondes d'un utilisateur. Ces voix générées peuvent lire du texte dans différentes langues, y compris la propre langue de l'utilisateur. OpenAI étend son expérience avec des déploiements à petite échelle pour mettre cette technologie à profit dans de nombreux secteurs différents, de l'éducation aux soins de santé.

Cette plateforme, dont l'accès est limité pour l'instant, est actuellement utilisée par des entreprises de technologies éducatives telles que Age of Learning, des plateformes de narration visuelle telles que HeyGen, des fabricants de logiciels pré-santé tels que Dimagi, des développeurs d'applications de communication IA tels que Livox et des systèmes de santé. comme la durée de vie. OpenAI montre les utilisations potentielles de la technologie en partageant des exemples d'expériences que ces entreprises ont menées à l'aide de la plateforme.

Le rôle de l'intelligence artificielle dans la production vocale

OpenAI déclare avoir commencé le développement de sa technologie Voice Engine fin 2022 et que cette technologie prend en charge la fonction de lecture de ChatGPT ainsi que les voix prédéfinies pour l'API de synthèse vocale. La technologie est formée sur un mélange de données sous licence et accessibles au public. Actuellement, ce modèle n’est disponible que pour une dizaine de développeurs.

La synthèse vocale basée sur l'IA continue d'évoluer dans le domaine de l'IA générative, en se concentrant souvent sur les sons instrumentaux ou naturels. Cependant, il existe moins d’études portant sur la production vocale. OpenAI note que le gouvernement américain a également pris des mesures pour empêcher les utilisations contraires à l'éthique dans ce domaine. Par exemple, la Commission fédérale des communications des États-Unis a interdit les appels automatisés de spam utilisant la voix clonée par l'IA du président Joe Biden.

Les partenaires d'OpenAI ont accepté de respecter des politiques d'utilisation telles que ne pas usurper l'identité de personnes ou d'organisations sans leur consentement, obtenir le « consentement explicite et éclairé » de l'orateur d'origine, ne pas développer de méthodes permettant aux utilisateurs individuels de créer leurs propres voix et les divulguer aux auditeurs. que les voix sont produites par l’IA. D'autre part, OpenAI ajoute également des filigranes numériques aux enregistrements audio pour pouvoir retracer l'origine des enregistrements audio et surveiller activement leur utilisation.

OpenAI suggère quelques mesures qui pourraient limiter les risques liés à de tels outils. Il s'agit notamment de la suppression progressive de l'authentification vocale pour l'accès aux comptes bancaires, de politiques visant à protéger l'utilisation de la voix des personnes dans l'IA, d'une meilleure éducation sur les contrefaçons basées sur l'IA et du développement de systèmes de suivi pour surveiller le contenu de l'IA.