SANAD: Single-Label Arabic News Articles Dataset for Automatic Text Categorization
SANAD Dataset is a large collection of Arabic news articles that can be used in different Arabic NLP tasks such as Text Classification and Word Embedding. The articles were collected using Python scripts written specifically for three popular news websites: AlKhaleej, AlArabiya and Akhbarona.
🔗 Visit SANAD: Single-Label Arabic News Articles Dataset for Automatic Text CategorizationDescription
SANAD Dataset is a large collection of Arabic news articles that can be used in different Arabic NLP tasks such as Text Classification and Word Embedding. The articles were collected using Python scripts written specifically for three popular news websites: AlKhaleej, AlArabiya and Akhbarona.
💬 Our review
Le dataset SANAD est une véritable mine d'or pour ceux qui s'intéressent au traitement automatique de la langue arabe. Il regroupe une grande quantité d'articles de presse provenant de trois sites bien connus : AlKhaleej, AlArabiya et Akhbarona. Cela permet d'avoir une diversité de styles et de sujets, ce qui est essentiel pour des tâches comme la classification de texte ou l'embedding de mots. En revanche, ce n'est pas un site facile à naviguer si tu cherches à comprendre les détails du dataset. Les informations sont plutôt techniques et il peut être difficile de trouver ce que tu cherches. De plus, la plupart des ressources disponibles en ligne sont en anglais, ce qui pourrait poser un problème si tu n'es pas à l'aise avec cette langue. Concernant les prix, c'est complètement gratuit, ce qui est un gros plus pour les chercheurs et les développeurs. En revanche, il n'y a pas d'assistance ou de support direct, donc si tu rencontres des soucis, tu devras probablement te débrouiller tout seul. En somme, SANAD est un bon choix si tu cherches des données en arabe, mais sois prêt à passer du temps à t'y retrouver. Pour ceux qui cherchent d'autres options, des sites comme Kaggle ou Hugging Face offrent également des datasets intéressants, mais peut-être pas spécifiquement en arabe.
📊 Global score
🤖 AI-enriched data
Pros
Accès gratuit
Large collection d'articles
Utilisable pour plusieurs tâches NLP
Cons
Difficulté de navigation
Support limité