Wikipedia a préparé un ensemble de données spécial pour les développeurs d'IA contre les bottes de numérisation de données

La Wikimedia Foundation a franchi une nouvelle mesure pour réduire les développeurs d'intelligence artificielle de collecter automatiquement le contenu Wikipedia. À cet égard, il a publié un ensemble de données sous licence ouverte que les développeurs peuvent utiliser directement avec Kaggle. Le contenu propose des substances Wikipedia en anglais et en français. Bien que l'ensemble de données soit toujours en version bêta, il attire l'attention avec son contenu.

L'ensemble de données est proposé dans une structure spécialement organisée pour les modèles d'intelligence artificielle. Au lieu du texte brut des articles, les développeurs reçoivent des informations directement analysées. Grâce à cette approche, le contenu devient à la fois lisible et facilement adapté à l'éducation. Ainsi, les processus de traitement des données peuvent progresser plus efficacement.

Wikipedia sous mention

Ce contenu offert par Wikimedia est un résumé, des définitions courtes, des connexions visuelles, des boîtes d'information et des sections de substances. Cependant, le contenu médiatique non écrit tel que la bibliographie et le son est laissé de côté. Toutes ces informations sont présentées au format JSON et peuvent être facilement traitées par la machine. Cela vise à réduire le besoin de méthodes de grattage Web classiques.

Wikimedia, en particulier ces dernières années en raison de bots automatiques en raison de la numérisation intense des données, une charge de serveur grave a été ressentie, dit-il. Ces bots ont menacé la stabilité de Wikipedia en consommant des ressources système. Avec le nouveau jeu de données à Kaggle, il vise à réduire cette pression. Bien que ces demandes de données aient un intérêt élevé, un accès non imprimé n'est pas durable.

Wikimedia partage directement du contenu avec des organisations telles que Google et Internet Archive. Cependant, les nouvelles données définies via Kaggle ont le potentiel d'atteindre un public plus large. En particulier, les chercheurs indépendants et les petites initiatives sont facilement accessibles à ces données. Ainsi, il vise que non seulement les grandes entreprises, mais aussi le développeur de toutes les échelles ont des chances égales dans le développement de l'intelligence artificielle.

Le côté Kaggle est également très satisfait de ce partenariat. Brenda Flynn, le chef de la coopération de l'entreprise, souligne que les plateformes sont fréquentées par ceux qui recherchent des données et des demandeurs de tests dans le domaine de l'apprentissage automatique. Il dit qu'ils sont ravis d'accueillir les données de Wikimedia. Il déclare que cette coopération est une étape solide pour l'accès durable aux données.

Grâce au nouvel ensemble de données, les développeurs pourront atteindre un contenu de qualité sans forcer les serveurs de Wikipedia. Cela réduira la charge d'infrastructure du côté Wikimedia et gagnera du temps pour les développeurs. De plus, grâce à son licence ouverte, le contenu peut être intégré à différents projets. La portée des données semble être élargie au fil du temps et ajouter plus de types de langage et de contenu.

Bien que cette étape vise spécialement pour les développeurs de l'IA, elle peut être efficace dans la recherche académique et le journalisme de données. Les données configurées contiennent des informations qui permettront effectuer diverses analyses sociales et culturelles. Cela augmente l'importance de Wikipedia non seulement une source qui offre des informations, mais aussi en tant que fournisseur de données. De cette façon, il est plus facile non seulement de lire le contenu, mais aussi de traiter.