大规模中文自然语言处理语料

By admin , 18 十月, 2024

https://github.com/brightmart/nlp_chinese_corpus

CLUECorpus2020：https://github.com/CLUEbenchmark/CLUECorpus2020

通过对Common Crawl的中文部分进行语料清洗，最终得到100GB的高质量中文预训练语料。

包含如下子语料库（总共14G语料）：

1、新闻语料 news2016zh_corpus: 8G语料，分成两个上下两部分，总共有2000个小文件。密码:mzlk

2、社区互动-语料 webText2019zh_corpus：3G语料，包含3G文本，总共有900多个小文件。密码:qvlq

3、维基百科-语料 wiki2019zh_corpus：1.1G左右文本，包含300左右小文件。密码:xv7e

4、评论数据-语料 comments2019zh_corpus：2.3G左右文本，共784个小文件，包括点评评论547个、亚马逊评论227个，合并ChineseNLPCorpus的多个评论数据，清洗、格式转换、拆分成小文件。密码:gc3m

标签

AI

评论

您的名字

CAPTCHA

本站使用的软件

请输入"Drupal"

This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.

最新内容

量子力学纲要
2 days 5 hours ago
布洛赫球
2 days 5 hours ago
量子云平台
3 days 6 hours ago
Quantum Computing in Practice with Qiskit and IBM Quantum Experience
3 days 6 hours ago
IBM量子信息基础课程
3 days 6 hours ago
量子算法全集
2 weeks ago
爱给素材
1 month ago
AI世界生成工具
1 month ago
geogebra数学工具
1 month ago
能级跃迁
1 month ago

最新评论

Mate从LTS版本中移除。变成全部都是短期的版本… 3 months 2 weeks ago
关于ubuntu-mate 3 months 3 weeks ago
鱼与漁 4 months 3 weeks ago
SC娛樂城 9 months ago
感谢分享 9 months 2 weeks ago
我没有做过很全面仔细的测试，但在我测试不多的句子里… 10 months ago
语速不一有遇到过吗 10 months ago
26个拼音字母 1 year 4 months ago
如果要把基金从场内转到场外，需要先在场外购买对应基金… 1 year 4 months ago
GPL-2… 1 year 5 months ago