全免费三级一片

分词和词性标注

介绍:

中文分词指的是将连续的汉字序列切分成一个个单独的词。搜狗云分词系统包括中文分词与词性标注。

主要特点:

采用了基于汉字标注的分词方法,主要使用了线性链链CRF(Linear-chain CRF)模型。

词性标注模块主要基于结构化线性模型(Structured Linear Model)

分词精度:

使用国家语委语料库所开放的2000万字汉语语料,其词性标注集符合《信息处理用现代汉语词类标记规范》(GB/T 20532—2006)。其中1800万字作为训练集,220万字作为测试集。在该集合上进行封闭测试,分词精度可达:F1 = 97.03%。

词性标注精度:

训练和测试集同上。封闭测试精度:96.08%

在线演示

分词源文:
分词结果:

批量处理

第一步:上传文件(100M以内的txt文件)

第二步:输入提取码