大规模中文自然语言处理语料

By admin , 18 十月, 2024

https://github.com/brightmart/nlp_chinese_corpus

CLUECorpus2020：https://github.com/CLUEbenchmark/CLUECorpus2020

通过对Common Crawl的中文部分进行语料清洗，最终得到100GB的高质量中文预训练语料。

包含如下子语料库（总共14G语料）：

1、新闻语料 news2016zh_corpus: 8G语料，分成两个上下两部分，总共有2000个小文件。密码:mzlk

2、社区互动-语料 webText2019zh_corpus：3G语料，包含3G文本，总共有900多个小文件。密码:qvlq

3、维基百科-语料 wiki2019zh_corpus：1.1G左右文本，包含300左右小文件。密码:xv7e

4、评论数据-语料 comments2019zh_corpus：2.3G左右文本，共784个小文件，包括点评评论547个、亚马逊评论227个，合并ChineseNLPCorpus的多个评论数据，清洗、格式转换、拆分成小文件。密码:gc3m

标签

AI

评论

您的名字

CAPTCHA

本站使用的软件

请输入"Drupal"

This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.

最新内容

音效资源网站
4 days 16 hours ago
Unity Grib键使用
1 week 1 day ago
达梦数据库
1 week 4 days ago
麒麟国产操作系统
1 week 4 days ago
不确定性原理
1 week 4 days ago
免费 HDRI全景图 / 模型 / 纹理
1 week 4 days ago
免费Unity白兔模型
1 week 4 days ago
Minecraft for Unity
1 week 4 days ago
双缝干涉
1 week 5 days ago
氢原子模型
1 week 5 days ago

最新评论

Mate从LTS版本中移除。变成全部都是短期的版本… 2 months 1 week ago
关于ubuntu-mate 2 months 2 weeks ago
鱼与漁 3 months 2 weeks ago
SC娛樂城 7 months 4 weeks ago
感谢分享 8 months 1 week ago
我没有做过很全面仔细的测试，但在我测试不多的句子里… 8 months 3 weeks ago
语速不一有遇到过吗 8 months 3 weeks ago
26个拼音字母 1 year 3 months ago
如果要把基金从场内转到场外，需要先在场外购买对应基金… 1 year 3 months ago
GPL-2… 1 year 4 months ago