采集内容插入词库(常用中文分词1.分词包(Top10)(组图))

优采云 发布时间: 2021-10-18 20:05

  采集内容插入词库(常用中文分词1.分词包(Top10)(组图))

  常用中文分词

  1. 泡顶解牛分词包,适合与Lucene集成。

  Paoding Chinese Thesaurus是一个使用Java开发的中文搜索引擎分词组件,可以集成到互联网和企业内网的Lucene应用程序中。

  Paoding填补了国内中文分词开源组件的空白,并致力于此,希望成为互联网中文分词的首选开源组件网站。Paoding中文分词追求分词效率高,用户体验好。

  Paoding's Knives中文分词具有极高的效率和高扩展性。引入比喻,采用完全面向对象的设计,思想先进。

  高效率:在PIII 1G内存个人机上,1秒可准确分割100万个汉字。

  使用不限数量的字典文件对文章进行有效的分割,从而对词汇进行分类和定义。

  能够合理分析未知词汇

  2. LingPipe,一个用于开源自然语言处理的 Java 开源工具包。

  功能很强大,最重要的是文档超级详细。每个模型都被列出来作为参考文件。它不仅易于使用,而且非常适合模型学习。

  主题分类、命名实体识别、词性标注、句子检测、查询拼写检查、交叉短语检测)、聚类、字符语言建模、MEDLINE下载、解析和索引、数据库文本挖掘、中文分词、情感分析、语言身份识别等

  3. JE分词包

  4. LibMMSeg

  C++开发,支持Linux和Windows平台,分段速度约300K/s(PM-1.2G),截至当前版本(0.7.1) 。

  LibMMSeg并没有针对速度进行仔细优化,分割速度应该还有进一步提升的空间。

  5. IKAnalyzer

  IKAnalyzer是基于lucene2.0版本API开发的,实现了基于词典分词的正反向全分词算法,是LuceneAnalyzer接口的实现。

  该算法适用于互联网用户的搜索习惯和企业知识库检索。用户可以使用收录在句子中的中文词汇进行搜索。比如用“people”搜索收录“RMB”的文章,这是大多数用户的搜索思路;

  不适用于知识挖掘和网络爬虫技术。全切分法容易造成知识歧义,因为“人”和“*敏*感*词*”在语义上完全不相关。

  6. PHPCWS

  PHPCWS是一个开源的PHP中文分词扩展,目前只支持Linux/Unix系统。

  PHPCWS首先使用“ICTCLAS3.0共享中文分词算法”的API进行初始分词,然后使用自己编写的“反向最大匹配算法”进行分词合并词,并添加标点过滤功能. 获取分词结果。

  ICTCLAS(Institute of Computing Technology,汉语词法分析系统)是中国科学院计算技术研究所在多年研究工作积累的基础上,基于多层隐马模型开发的汉语词法分析系统。主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典。ICTCLAS历时5年精心打造,内核升级6次。目前已经升级到ICTCLAS3.0,分词准确率98.45%,各种词典数据压缩小于3M。ICTCLAS在国内973专家组组织的评估活动中荣获第一名,并在首届国际华人加工研究机构SigHan组织的评估中获得多项第一名。是目前世界上最好的中文词法分析。设备。

  ICTCLAS 3.0 商业版是收费的,而免费提供的ICTCLAS 3.0 共享版不是开源的。词库来源于《人民日报》一个月的语料库。很多词都不存在。因此,我对ICTCLAS的分词结果采用了反向最大匹配算法,并根据自己补充的9万字的自定义词典(ICTCLAS词库中没有重复)合并ICTCLAS分词结果。输出最终的分词结果。

  由于ICTCLAS3.0共享版只支持GBK编码,如果是UTF-8编码的字符串,可以先用PHP的iconv函数转换为GBK编码,再用phpcws_split函数进行分词,最后转换回 UTF-8 编码。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线