notesjor corpus-collection
Free corpora (over 6 billion tokens) mostly German (both historically and in contemporary German).
🔗 Visit notesjor corpus-collectionDescription
Free corpora (over 6 billion tokens) mostly German (both historically and in contemporary German).
💬 Our review
Le site notes.jan-oliver-ruediger.de/korpora/ propose une collection de corpus linguistiques impressionnante, avec plus de 6 milliards de tokens, principalement en allemand. C'est une ressource précieuse pour les chercheurs et les étudiants en linguistique, mais il faut savoir que la majorité des corpus sont en allemand, ce qui peut limiter son utilité pour ceux qui cherchent des données dans d'autres langues. L'accès est gratuit, ce qui est un avantage considérable, surtout pour un outil de cette ampleur. Cependant, le site n'est pas très connu, ce qui peut susciter des doutes quant à sa fiabilité et à la mise à jour régulière des données. Il n'y a pas de frais cachés, mais il est important de vérifier la qualité des corpus disponibles. Si tu cherches des alternatives, des sites comme Sketch Engine ou Corpus of Contemporary American English pourraient être intéressants, surtout si tu as besoin de corpus dans d'autres langues que l'allemand. En somme, c'est un bon point de départ pour ceux qui se concentrent sur la langue allemande, mais il faut être conscient des limitations.
📊 Global score
🤖 AI-enriched data
Pros
Accès gratuit
Grande quantité de données
Ressource utile pour la linguistique
Cons
Majorité des données en allemand
Peu connu
Mise à jour incertaine