L'inquiétude grandit en matière d'intelligence artificielle : les éditeurs restreignent l'accès à Internet Archive

Internet Archive, considéré depuis de nombreuses années comme une ressource importante pour les journalistes, les universitaires et les chercheurs dans le domaine de l'archivage numérique, a récemment été au centre d'une nouvelle tension avec les éditeurs. Cette plateforme à but non lucratif, fréquemment utilisée dans des domaines tels que l'accès à des publications supprimées sur les réseaux sociaux, la révision d'actualités déjà publiées ou la fourniture d'informations générales sur des textes académiques, est devenue le sujet d'un débat différent avec la diffusion rapide des technologies d'intelligence artificielle. Des médias particulièrement importants ont commencé à restreindre les activités de navigation de la plateforme au motif que leur contenu pouvait être consulté indirectement via Internet Archive.

La base de cette approche est l’intérêt intense des entreprises d’intelligence artificielle pour les pools de données vastes et organisés. Robert Hahn, directeur des relations commerciales et des licences du Guardian, a déclaré à Nieman Lab que les entreprises opérant dans le domaine de l'intelligence artificielle préfèrent les bases de données de contenu prêtes à l'emploi et structurées. Selon Hahn, l'infrastructure API proposée par Internet Archive était considérée comme un point d'entrée attrayant pour ces entreprises et présentait un risque d'extraction non autorisée de contenu protégé par le droit d'auteur.

Internet Archive devient le dernier front dans la lutte entre les éditeurs et les sociétés d'IA

Une mesure similaire a été prise par le New York Times. La direction du journal a confirmé avoir bloqué les robots d'Internet Archive, citant l'accès non autorisé aux contenus archivés via Wayback Machine par des sociétés d'intelligence artificielle. D’autre part, le Financial Times, connu pour sa politique de publication par abonnement, et la plateforme de discussion en ligne Reddit font partie des organisations qui ont eu recours à des pratiques limitant la portée de l’archivage. Ces décisions révèlent que l’équilibre entre l’archivage numérique et la propriété des contenus est à nouveau remis en question.

Ces développements révèlent une situation plus large lorsqu’ils sont comparés aux poursuites intentées par les médias contre les sociétés d’intelligence artificielle. Ces dernières années, de nombreux éditeurs ont engagé des poursuites judiciaires au motif que leur contenu était utilisé sans autorisation pour former de grands modèles linguistiques. Le New York Times et le Center for Investigative Reporting ont intenté une action en justice contre OpenAI et Microsoft, tandis que le Wall Street Journal et le New York Post ont lancé une procédure similaire contre Perplexity. En outre, un groupe d'éditeurs, dont The Atlantic, The Guardian et Politico, ont intenté une action en justice contre Cohere. Le procès de Penske Media contre Google et les candidatures du New York Times et du Chicago Tribune à Perplexity montrent également l'ampleur des tensions dans ce domaine.

Bien que certaines organisations médiatiques préfèrent conclure des accords financiers en octroyant des licences à leurs archives pour la formation en intelligence artificielle, des critiques ont été formulées selon lesquelles ces modèles impliquent généralement directement les éditeurs et ne protègent pas de manière adéquate les droits des producteurs de contenu. De plus, les discussions sur le droit d’auteur et le piratage ne se limitent pas au journalisme ; Des objections similaires sont soulevées dans des domaines créatifs tels que la littérature, les arts visuels et la musique. L'équilibre entre la mission d'Internet Archive consistant à accéder à l'information publique et ses efforts pour protéger les droits des propriétaires de contenu semble susceptible de faire l'objet de discussions plus intenses dans la période à venir.

blog technologiquepartage régulièrement son agenda technologique sur différentes plateformes. Il transmet instantanément les principales actualités de la chaîne WhatsApp, propose du contenu actualisé via Google News, résume les gros titres des comptes Instagram et X et complète le contenu avec des critiques de produits et des explications détaillées sur la chaîne YouTube.