De grandes entreprises technologiques telles que Apple, Anthropic, Nvidia et Salesforce ont utilisé un vaste ensemble de données de sous-titres pris sans autorisation de YouTube pour entraîner leurs systèmes d'intelligence artificielle (IA). Selon une étude conjointe de Proof News et Wired, cet ensemble de données comprend les sous-titres de plus de 170 000 vidéos YouTube et couvre le contenu de plus de 48 000 chaînes. Cependant, cet ensemble de données se compose uniquement de sous-titres de vidéos et ne contient pas de contenu visuel.
Des vidéos de YouTubers populaires tels que MrBeast et Marques Brownlee, des sources d'information telles que ABC News, BBC et The New York Times, ainsi que des vidéos provenant de nombreuses sources telles que The Verge et Vox sont incluses dans cet ensemble de données. Dans un article sur la plateforme X, Marques Brownlee a déclaré qu'Apple collecte des données pour son intelligence artificielle auprès de diverses sociétés, et que l'une de ces sociétés collecte de grandes quantités de données et de sous-titres à partir de vidéos YouTube.
YouTube a refusé de commenter cet ensemble de données. Cependant, le PDG de YouTube, Neal Mohan, a déclaré que l'utilisation de contenu vidéo et de transcriptions dans la formation à l'intelligence artificielle viole les conditions d'utilisation de la plateforme. Le PDG de Google, Sundar Pichai, a également soutenu ce point de vue et a déclaré que les entreprises développant l'intelligence artificielle devraient se conformer aux conditions d'utilisation de YouTube.
Cet ensemble de données de légende fait partie d'une plus grande collection open source appelée The Pile créée par EleutherAI. La pile se compose d'ensembles de données comprenant des livres, des articles Wikipédia, etc. L'année dernière, lorsqu'un ensemble de données appelé Books3 a été analysé, il a été révélé que les travaux des auteurs étaient utilisés pour entraîner des systèmes d'intelligence artificielle, ce qui a amené les auteurs à intenter une action en justice contre les entreprises.
Manque de transparence de la part des entreprises d'IA
Les entreprises d’IA ne font souvent pas preuve de transparence quant aux données qu’elles utilisent pour entraîner leurs systèmes. La manière dont le contenu YouTube est utilisé en particulier est devenue une question importante ces derniers mois. Lorsqu'elle a présenté Sora, le puissant outil de production vidéo d'OpenAI, la directrice technique Mira Murati a éludé la question de savoir si le système était formé à l'aide de vidéos YouTube, déclarant que seules « des données accessibles au public ou sous licence » étaient utilisées.
Proof News proposait un outil de recherche interactif permettant aux utilisateurs de vérifier si leur contenu était inclus dans cet ensemble de données. Cet outil permet aux utilisateurs de voir si leur contenu ou celui de leur YouTuber préféré est inclus dans cet ensemble de données.