THULAC：一个高效的中文词法分析工具包

By admin , 3 七月, 2023

http://thulac.thunlp.org/

THULAC（THU Lexical Analyzer for Chinese）由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包，具有中文分词和词性标注功能。THULAC具有如下几个特点：

能力强。利用我们集成的目前世界上规模最大的人工分词和词性标注中文语料库（约含5800万字）训练而成，模型标注能力强大。
准确率高。该工具包在标准数据集Chinese Treebank（CTB5）上分词的F1值可达97.3％，词性标注的F1值可达到92.9％，与该数据集上最好方法效果相当。
速度较快。同时进行分词和词性标注速度为300KB/s，每秒可处理约15万字。只进行分词速度可达到1.3MB/s。

标签

AI

评论

您的名字

CAPTCHA

本站使用的软件

请输入"Drupal"

This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.

最新内容

量子力学纲要
1 day 19 hours ago
布洛赫球
1 day 19 hours ago
量子云平台
2 days 20 hours ago
Quantum Computing in Practice with Qiskit and IBM Quantum Experience
2 days 20 hours ago
IBM量子信息基础课程
2 days 20 hours ago
量子算法全集
1 week 6 days ago
爱给素材
4 weeks 1 day ago
AI世界生成工具
4 weeks 1 day ago
geogebra数学工具
4 weeks 1 day ago
能级跃迁
1 month ago

最新评论

Mate从LTS版本中移除。变成全部都是短期的版本… 3 months 2 weeks ago
关于ubuntu-mate 3 months 3 weeks ago
鱼与漁 4 months 3 weeks ago
SC娛樂城 9 months ago
感谢分享 9 months 2 weeks ago
我没有做过很全面仔细的测试，但在我测试不多的句子里… 10 months ago
语速不一有遇到过吗 10 months ago
26个拼音字母 1 year 4 months ago
如果要把基金从场内转到场外，需要先在场外购买对应基金… 1 year 4 months ago
GPL-2… 1 year 5 months ago