https://github.com/brightmart/nlp_chinese_corpus
CLUECorpus2020:https://github.com/CLUEbenchmark/CLUECorpus2020
通过对Common Crawl的中文部分进行语料清洗,最终得到100GB的高质量中文预训练语料。
包含如下子语料库(总共14G语料):
1、新闻语料 news2016zh_corpus: 8G语料,分成两个上下两部分,总共有2000个小文件。 密码:mzlk
2、社区互动-语料 webText2019zh_corpus:3G语料,包含3G文本,总共有900多个小文件。 密码:qvlq
3、维基百科-语料 wiki2019zh_corpus:1.1G左右文本,包含300左右小文件。 密码:xv7e
4、评论数据-语料 comments2019zh_corpus:2.3G左右文本,共784个小文件,包括点评评论547个、亚马逊评论227个,合并ChineseNLPCorpus的多个评论数据,清洗、格式转换、拆分成小文件。 密码:gc3m
评论