采集内容插入词库(常用中文分词1.分词包(Top10)(组图))

优采云发布时间: 2021-10-18 20:05

　　常用中文分词

　　1. 泡顶解牛分词包，适合与Lucene集成。

　　Paoding Chinese Thesaurus是一个使用Java开发的中文搜索引擎分词组件，可以集成到互联网和企业内网的Lucene应用程序中。

　　Paoding填补了国内中文分词开源组件的空白，并致力于此，希望成为互联网中文分词的首选开源组件网站。Paoding中文分词追求分词效率高，用户体验好。

　　Paoding's Knives中文分词具有极高的效率和高扩展性。引入比喻，采用完全面向对象的设计，思想先进。

　　高效率：在PIII 1G内存个人机上，1秒可准确分割100万个汉字。

　　使用不限数量的字典文件对文章进行有效的分割，从而对词汇进行分类和定义。

　　能够合理分析未知词汇

　　2. LingPipe，一个用于开源自然语言处理的 Java 开源工具包。

　　功能很强大，最重要的是文档超级详细。每个模型都被列出来作为参考文件。它不仅易于使用，而且非常适合模型学习。

　　主题分类、命名实体识别、词性标注、句子检测、查询拼写检查、交叉短语检测）、聚类、字符语言建模、MEDLINE下载、解析和索引、数据库文本挖掘、中文分词、情感分析、语言身份识别等

　　3. JE分词包

　　4. LibMMSeg

　　C++开发，支持Linux和Windows平台，分段速度约300K/s（PM-1.2G），截至当前版本（0.7.1）。

　　LibMMSeg并没有针对速度进行仔细优化，分割速度应该还有进一步提升的空间。

　　5. IKAnalyzer

　　IKAnalyzer是基于lucene2.0版本API开发的，实现了基于词典分词的正反向全分词算法，是LuceneAnalyzer接口的实现。

　　该算法适用于互联网用户的搜索习惯和企业知识库检索。用户可以使用收录在句子中的中文词汇进行搜索。比如用“people”搜索收录“RMB”的文章，这是大多数用户的搜索思路；

　　不适用于知识挖掘和网络爬虫技术。全切分法容易造成知识歧义，因为“人”和“*敏*感*词*”在语义上完全不相关。

　　6. PHPCWS

　　PHPCWS是一个开源的PHP中文分词扩展，目前只支持Linux/Unix系统。

　　PHPCWS首先使用“ICTCLAS3.0共享中文分词算法”的API进行初始分词，然后使用自己编写的“反向最大匹配算法”进行分词合并词，并添加标点过滤功能. 获取分词结果。

　　ICTCLAS（Institute of Computing Technology，汉语词法分析系统）是中国科学院计算技术研究所在多年研究工作积累的基础上，基于多层隐马模型开发的汉语词法分析系统。主要功能包括中文分词；词性标注；命名实体识别；新词识别；同时支持用户词典。ICTCLAS历时5年精心打造，内核升级6次。目前已经升级到ICTCLAS3.0，分词准确率98.45%，各种词典数据压缩小于3M。ICTCLAS在国内973专家组组织的评估活动中荣获第一名，并在首届国际华人加工研究机构SigHan组织的评估中获得多项第一名。是目前世界上最好的中文词法分析。设备。

　　ICTCLAS 3.0 商业版是收费的，而免费提供的ICTCLAS 3.0 共享版不是开源的。词库来源于《人民日报》一个月的语料库。很多词都不存在。因此，我对ICTCLAS的分词结果采用了反向最大匹配算法，并根据自己补充的9万字的自定义词典（ICTCLAS词库中没有重复）合并ICTCLAS分词结果。输出最终的分词结果。

　　由于ICTCLAS3.0共享版只支持GBK编码，如果是UTF-8编码的字符串，可以先用PHP的iconv函数转换为GBK编码，再用phpcws_split函数进行分词，最后转换回 UTF-8 编码。

0

2021-10-18

采集内容插入词库

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

采集内容插入词库(常用中文分词1.分词包(Top10)(组图))

0 个评论

发起人

AI时代内容工厂

采集内容插入词库(常用中文分词1.分词包(Top10)(组图))

0 个评论

发起人

相关问题