Google DeepMind crée des effets sonores et des dialogues pour les vidéos grâce à sa nouvelle technologie

Le laboratoire d'intelligence artificielle de Google, DeepMind, a annoncé avoir développé une nouvelle technologie capable de créer des effets sonores et des dialogues pour les vidéos. Cette technologie innovante peut créer des effets sonores adaptés aux scènes visuelles en utilisant des pixels bruts et des entrées de texte provenant de vidéos. L'équipe DeepMind a appelé ce projet la technologie « audio-avec-vidéo » (V2A), et cette technologie peut être utilisée en conjonction avec d'autres outils de création vidéo tels que Google Veo et OpenAI Sora.

La technologie audio-vidéo de Google DeepMind

L'équipe DeepMind a donné des informations détaillées sur le fonctionnement de cette technologie dans ses articles de blog. Le système analyse les pixels bruts des vidéos et combine ces données visuelles avec des saisies de texte, créant ainsi des effets sonores adaptés à ce qui se passe à l'écran. Cette fonctionnalité peut également être appliquée à différents types de vidéo, tels que les films sonores traditionnels et les films muets.

La formation sur la technologie a été réalisée avec de la vidéo, de l'audio et des annotations contenant des explications audio et dialoguées détaillées créées par l'intelligence artificielle. De cette manière, la technologie a appris à associer des scènes visuelles à des sons spécifiques. Cette fonctionnalité différencie DeepMind des solutions vidéo avec audio existantes, car le système peut comprendre les pixels bruts et l'ajout de saisie de texte est facultatif.

Bien que la saisie de texte soit facultative, les utilisateurs peuvent utiliser la saisie de texte pour façonner davantage le produit final et créer des effets sonores plus réalistes et précis. Bien que les sons souhaités puissent être créés en utilisant des entrées positives, les sons indésirables peuvent être évités avec des entrées négatives. Par exemple, lorsqu'une entrée telle que « cinématique, thriller, film d'horreur, musique, tension, pas sur le béton » est utilisée, le système peut produire des sons appropriés à cette entrée.

Les chercheurs reconnaissent travailler sur les limites actuelles de la technologie V2A. Par exemple, en cas de distorsion dans la vidéo source, la qualité du son de sortie peut diminuer. De plus, des améliorations doivent être apportées à la synchronisation labiale des dialogues générés. L'équipe DeepMind promet également que la technologie sera soumise à des évaluations et des tests de sécurité rigoureux avant d'être commercialisée.

Dans l’ensemble, cette nouvelle technologie de DeepMind pourrait constituer une étape révolutionnaire dans le processus de création d’effets sonores et de dialogues pour les vidéos. Cette technologie peut rendre les processus de production vidéo plus efficaces et créatifs, tout en revitalisant les films muets et d’autres genres vidéo traditionnels. Ce travail innovant de DeepMind révèle une fois de plus le potentiel de l’intelligence artificielle dans l’industrie des médias et du divertissement.