通用解决方案:14个中文分词开源软件

优采云 发布时间: 2022-11-09 11:29

  通用解决方案:14个中文分词开源软件

  1. IKAnalyzer

  IKAnalyzer是一款基于java语言开发的开源轻量级中文分词工具包。自 2006 年 12 月发布 1.0 版以来,IKAnalyzer 已经推出了 3 个主要版本。最初,它基于开源项目 Luence,一个结合了字典分词和语法分析算法的中文分词组件。新版IKAnalyzer3.0作为Java通用分词组件开发,独立于Lucene项目,提供Lucene默认优化实现。

  IKAnalyzer3.0 特点:

  它采用独特的“前向迭代细粒度切分算法”,具有每秒60万字的高速处理能力。

  采用多子处理器分析模式,支持:英文字母(IP地址、Email、URL)、数字(日期、常用中文量词、罗马数字、科学记数法)、中文词汇(人名、地名处理)等分词处理。

  优化的字典存储,更小的内存占用。支持用户词典扩展定义

  IKQueryParser是针对Lucene全文检索优化的查询分析器(作者推荐);歧义分析算法用于优化查询关键字的搜索排列和组合,可以大大提高Lucene检索的命中率。

  许可协议:LGPL

  开发语言:Java

  操作系统:跨平台

  收录时间:2008年12月3日(国产软件)

  下载:或

  2.盘古分词

  盘古分词是基于.net框架的中英文分词组件,提供lucene(.net版)和HubbleDotNet的接口。

  高效:Core Duo 1.8 GHz 单线程分词速度 390K 字符/秒

  准确:盘古分词采用字典和统计相结合的分词算法,分词准确率高。

  功能:盘古分词提供中文姓名识别、简繁混合分词、多分词、英文生根、强制一元分词、词频优先分词、停用词过滤、英文专有名称提取等一系列功能。

  许可协议:阿帕奇

  开发语言:C#.NET

  

  操作系统:Windows

  收录时间:2010 年 12 月 29 日

  下载:或:

  3. 保定

  包丁中文分词库是Java开发的中文分词组件,可以集成到互联网和企业内网的Lucene应用程序中。包丁填补了国内中文分词开源组件的空白,并致力于此,希望成为互联网上首选的中文分词开源组件网站。保定中文分词追求分词效率高,用户体验好。

  Paoding's Knives中文分词具有极高的效率和高扩展性。引入隐喻,完全面向对象的设计,先进的概念。

  效率高:在PIII 1G内存的个人电脑上,1秒就能准确切分100万个汉字。

  基于无限数量的字典文件对 文章 的有效分割可以实现词汇分类定义。

  能够合理地解析未知词汇

  许可协议:阿帕奇

  开发语言:Java

  操作系统:跨平台

  收录时间:2008年9月7日(国产软件)

  下载:或

  4. 免费ICTCLAS

  中科院ICTCLAS最新免费开源代码,收录中文分词算法。我们可以一起学习和研究,这对于搜索引擎的中文分词非常有用。

  许可协议:未知

  开发语言:C/C++

  操作系统:Windows

  收录时间:2010年10月20日(国产软件)

  

  下载:

  5.LibMMSeg

  LibMMSeg是为Sphinx全文搜索引擎设计的中文分词软件包。其根据 GPL 协议发布的中文分词方法采用 Chih-Hao Tsai 的 MMSEG 算法。

  您可以在 Chih-Hao Tsai 的技术页面找到算法的原文。

  LibMMSeg 是用 C++ 开发的,支持 Linux 和 Windows 平台。分割速度约为300K/s(PM-1.2G)。截至目前的版本(0.7.1),LibMMSeg还没有对速度进行仔细的优化,进一步提高了分割速度。应该还有空间。

  许可协议:未知

  开发语言:C/C++

  操作系统:跨平台

  收录时间:2009年5月31日(国产软件)

  下载:MMSeg 0.7.3

  6. PHPCWS

  PHPCWS是一个开源的PHP中文分词扩展,目前只支持Linux/Unix系统,项目现已更名为HTTPCWS,本项目不再维护。

  PHPCWS首先使用“ICTCLAS 3.0共享中文分词算法”的API进行初始分词处理,然后使用自己编写的“逆最大匹配算法”进行分词和分词处理,并添加标点符号过滤得到分词分割结果。

  ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)是中国科学院计算技术研究所在多年研究工作的基础上,基于多层隐马模型开发的中文词法分析系统。其主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典。ICTCLAS精心打造5年,内核升级6次。目前已经升级到ICTCLAS 3.0,分词准确率为98.45%,各种词典数据压缩小于3M。ICTCLAS在国内973专家组组织的评审中获得第一名,并在首届国际华人加工研究机构SigHan组织的测评中获得多项第一名。它是目前世界上最好的中文词法分析。设备。

  许可协议:BSD

  开发语言:PHP

  操作系统:跨平台

  收录时间:2009年3月19日(国产软件)

  下载:

  最新版:织梦采集教程-织梦模板内置5W套织梦cms织梦插件大全

  UA 属性

  :UA 是 user-agent,是 http 协议中的一个属性,代表终端的身份,向服务器端表明我要做什么,然后服务端可以根据不同的身份做出不同的反应结果。机器人

  协议:机器人.txt是搜索引擎访问网站时访问的第一个文件,并确定允许哪些抓取和哪些被停止。机器人.txt必须放在网站的根目录中,文件名必须小写。一丝不苟的机器人.txt写作。百度严格遵循机器人协议,此外,它还支持将名为robots,index,follow,nofollow等命令添加到Web内容中的元标记。

  

  百度蜘蛛抓取频率标准及调整方法 织梦采集教程

  百度蜘蛛按照上述网站设定的协议停止抓取网站页面,但不可能对所有网站都偏袒一个,会综合考虑网站实践状态来确认一个抓取配额,每天对网站内容进行量化抓取,也就是我们常说的抓取频率。那么百度搜索引擎依靠什么指标来判断一个网站的抓取频率,主要有四个指标:

  1、网站更新频率:更新

  速度快了很多,更新速度也更慢,也更少,直接影响百度蜘蛛的访问频率

  2、网站更新质量

  

  :更新频率提高了,正好吸收了百度的注意力,百度蜘蛛对质量有严格的要求,如果网站每天更新的大量内容被百度蜘蛛判断为低质量页面,那还是没有意义的。

  3、连接性:网站要安全稳定,坚持与百度蜘蛛畅通沟通,经常给百度蜘蛛关起门汤不是一件好事

  4、网站评价:百度搜索引擎会对每个网站进行评价,

  而这个评价会根据网站状态不时变化,是百度搜索引擎在网站上的基本得分(绝不是外界说百度权重),是百度内部非常秘密的数据。网站评级从不单独使用,而是与其他因素和阈值一起影响网站的抓取和排名。

  抓取频率间接决定了数据库网站可以收录多少页,如果不符合站长的期望,如何调整这么重要的值?百度站长平台提供抓取频率工具,已完成多次推广。除了提供抓取统计外,该工具还提供“频率调整”功能,站长根据实践情况向百度站长平台提交增加或减少访问量的请求,该工具将根据站长的意愿和练习状态停止调整。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线