采集内容插入词库(常用中文分词1.分词包(Top10)(组图))
优采云 发布时间: 2021-10-18 20:05采集内容插入词库(常用中文分词1.分词包(Top10)(组图))
常用中文分词
1. 泡顶解牛分词包,适合与Lucene集成。
Paoding Chinese Thesaurus是一个使用Java开发的中文搜索引擎分词组件,可以集成到互联网和企业内网的Lucene应用程序中。
Paoding填补了国内中文分词开源组件的空白,并致力于此,希望成为互联网中文分词的首选开源组件网站。Paoding中文分词追求分词效率高,用户体验好。
Paoding's Knives中文分词具有极高的效率和高扩展性。引入比喻,采用完全面向对象的设计,思想先进。
高效率:在PIII 1G内存个人机上,1秒可准确分割100万个汉字。
使用不限数量的字典文件对文章进行有效的分割,从而对词汇进行分类和定义。
能够合理分析未知词汇
2. LingPipe,一个用于开源自然语言处理的 Java 开源工具包。
功能很强大,最重要的是文档超级详细。每个模型都被列出来作为参考文件。它不仅易于使用,而且非常适合模型学习。
主题分类、命名实体识别、词性标注、句子检测、查询拼写检查、交叉短语检测)、聚类、字符语言建模、MEDLINE下载、解析和索引、数据库文本挖掘、中文分词、情感分析、语言身份识别等
3. JE分词包
4. LibMMSeg
C++开发,支持Linux和Windows平台,分段速度约300K/s(PM-1.2G),截至当前版本(0.7.1) 。
LibMMSeg并没有针对速度进行仔细优化,分割速度应该还有进一步提升的空间。
5. IKAnalyzer
IKAnalyzer是基于lucene2.0版本API开发的,实现了基于词典分词的正反向全分词算法,是LuceneAnalyzer接口的实现。
该算法适用于互联网用户的搜索习惯和企业知识库检索。用户可以使用收录在句子中的中文词汇进行搜索。比如用“people”搜索收录“RMB”的文章,这是大多数用户的搜索思路;
不适用于知识挖掘和网络爬虫技术。全切分法容易造成知识歧义,因为“人”和“*敏*感*词*”在语义上完全不相关。
6. PHPCWS
PHPCWS是一个开源的PHP中文分词扩展,目前只支持Linux/Unix系统。
PHPCWS首先使用“ICTCLAS3.0共享中文分词算法”的API进行初始分词,然后使用自己编写的“反向最大匹配算法”进行分词合并词,并添加标点过滤功能. 获取分词结果。
ICTCLAS(Institute of Computing Technology,汉语词法分析系统)是中国科学院计算技术研究所在多年研究工作积累的基础上,基于多层隐马模型开发的汉语词法分析系统。主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典。ICTCLAS历时5年精心打造,内核升级6次。目前已经升级到ICTCLAS3.0,分词准确率98.45%,各种词典数据压缩小于3M。ICTCLAS在国内973专家组组织的评估活动中荣获第一名,并在首届国际华人加工研究机构SigHan组织的评估中获得多项第一名。是目前世界上最好的中文词法分析。设备。
ICTCLAS 3.0 商业版是收费的,而免费提供的ICTCLAS 3.0 共享版不是开源的。词库来源于《人民日报》一个月的语料库。很多词都不存在。因此,我对ICTCLAS的分词结果采用了反向最大匹配算法,并根据自己补充的9万字的自定义词典(ICTCLAS词库中没有重复)合并ICTCLAS分词结果。输出最终的分词结果。
由于ICTCLAS3.0共享版只支持GBK编码,如果是UTF-8编码的字符串,可以先用PHP的iconv函数转换为GBK编码,再用phpcws_split函数进行分词,最后转换回 UTF-8 编码。