通用解决方案:14个中文分词开源软件

优采云发布时间: 2022-11-09 11:29

　　通用解决方案:14个中文分词开源软件

　　1. IKAnalyzer

　　IKAnalyzer是一款基于java语言开发的开源轻量级中文分词工具包。自 2006 年 12 月发布 1.0 版以来，IKAnalyzer 已经推出了 3 个主要版本。最初，它基于开源项目 Luence，一个结合了字典分词和语法分析算法的中文分词组件。新版IKAnalyzer3.0作为Java通用分词组件开发，独立于Lucene项目，提供Lucene默认优化实现。

　　IKAnalyzer3.0 特点：

　　它采用独特的“前向迭代细粒度切分算法”，具有每秒60万字的高速处理能力。

　　采用多子处理器分析模式，支持：英文字母（IP地址、Email、URL）、数字（日期、常用中文量词、罗马数字、科学记数法）、中文词汇（人名、地名处理）等分词处理。

　　优化的字典存储，更小的内存占用。支持用户词典扩展定义

　　IKQueryParser是针对Lucene全文检索优化的查询分析器（作者推荐）；歧义分析算法用于优化查询关键字的搜索排列和组合，可以大大提高Lucene检索的命中率。

　　许可协议：LGPL

　　开发语言：Java

　　操作系统：跨平台

　　收录时间：2008年12月3日（国产软件）

　　下载：或

　　2.盘古分词

　　盘古分词是基于.net框架的中英文分词组件，提供lucene（.net版）和HubbleDotNet的接口。

　　高效：Core Duo 1.8 GHz 单线程分词速度 390K 字符/秒

　　准确：盘古分词采用字典和统计相结合的分词算法，分词准确率高。

　　功能：盘古分词提供中文姓名识别、简繁混合分词、多分词、英文生根、强制一元分词、词频优先分词、停用词过滤、英文专有名称提取等一系列功能。

　　许可协议：阿帕奇

　　开发语言：C#.NET

　　操作系统：Windows

　　收录时间：2010 年 12 月 29 日

　　下载：或：

　　3. 保定

　　包丁中文分词库是Java开发的中文分词组件，可以集成到互联网和企业内网的Lucene应用程序中。包丁填补了国内中文分词开源组件的空白，并致力于此，希望成为互联网上首选的中文分词开源组件网站。保定中文分词追求分词效率高，用户体验好。

　　Paoding's Knives中文分词具有极高的效率和高扩展性。引入隐喻，完全面向对象的设计，先进的概念。

　　效率高：在PIII 1G内存的个人电脑上，1秒就能准确切分100万个汉字。

　　基于无限数量的字典文件对文章的有效分割可以实现词汇分类定义。

　　能够合理地解析未知词汇

　　许可协议：阿帕奇

　　开发语言：Java

　　操作系统：跨平台

　　收录时间：2008年9月7日（国产软件）

　　下载：或

　　4. 免费ICTCLAS

　　中科院ICTCLAS最新免费开源代码，收录中文分词算法。我们可以一起学习和研究，这对于搜索引擎的中文分词非常有用。

　　许可协议：未知

　　开发语言：C/C++

　　操作系统：Windows

　　收录时间：2010年10月20日（国产软件）

　　下载：

　　5.LibMMSeg

　　LibMMSeg是为Sphinx全文搜索引擎设计的中文分词软件包。其根据 GPL 协议发布的中文分词方法采用 Chih-Hao Tsai 的 MMSEG 算法。

　　您可以在 Chih-Hao Tsai 的技术页面找到算法的原文。

　　LibMMSeg 是用 C++ 开发的，支持 Linux 和 Windows 平台。分割速度约为300K/s（PM-1.2G）。截至目前的版本（0.7.1），LibMMSeg还没有对速度进行仔细的优化，进一步提高了分割速度。应该还有空间。

　　许可协议：未知

　　开发语言：C/C++

　　操作系统：跨平台

　　收录时间：2009年5月31日（国产软件）

　　下载：MMSeg 0.7.3

　　6. PHPCWS

　　PHPCWS是一个开源的PHP中文分词扩展，目前只支持Linux/Unix系统，项目现已更名为HTTPCWS，本项目不再维护。

　　PHPCWS首先使用“ICTCLAS 3.0共享中文分词算法”的API进行初始分词处理，然后使用自己编写的“逆最大匹配算法”进行分词和分词处理，并添加标点符号过滤得到分词分割结果。

　　ICTCLAS（Institute of Computing Technology, Chinese Lexical Analysis System）是中国科学院计算技术研究所在多年研究工作的基础上，基于多层隐马模型开发的中文词法分析系统。其主要功能包括中文分词；词性标注；命名实体识别；新词识别；同时支持用户词典。ICTCLAS精心打造5年，内核升级6次。目前已经升级到ICTCLAS 3.0，分词准确率为98.45%，各种词典数据压缩小于3M。ICTCLAS在国内973专家组组织的评审中获得第一名，并在首届国际华人加工研究机构SigHan组织的测评中获得多项第一名。它是目前世界上最好的中文词法分析。设备。

　　许可协议：BSD

　　开发语言：PHP

　　操作系统：跨平台

　　收录时间：2009年3月19日（国产软件）

　　下载：

　　最新版:织梦采集教程-织梦模板内置5W套织梦cms织梦插件大全

　　UA 属性

　　：UA 是 user-agent，是 http 协议中的一个属性，代表终端的身份，向服务器端表明我要做什么，然后服务端可以根据不同的身份做出不同的反应结果。机器人

　　协议：机器人.txt是搜索引擎访问网站时访问的第一个文件，并确定允许哪些抓取和哪些被停止。机器人.txt必须放在网站的根目录中，文件名必须小写。一丝不苟的机器人.txt写作。百度严格遵循机器人协议，此外，它还支持将名为robots，index，follow，nofollow等命令添加到Web内容中的元标记。

　　百度蜘蛛抓取频率标准及调整方法织梦采集教程

　　百度蜘蛛按照上述网站设定的协议停止抓取网站页面，但不可能对所有网站都偏袒一个，会综合考虑网站实践状态来确认一个抓取配额，每天对网站内容进行量化抓取，也就是我们常说的抓取频率。那么百度搜索引擎依靠什么指标来判断一个网站的抓取频率，主要有四个指标：

　　1、网站更新频率：更新

　　速度快了很多，更新速度也更慢，也更少，直接影响百度蜘蛛的访问频率

　　2、网站更新质量

　　：更新频率提高了，正好吸收了百度的注意力，百度蜘蛛对质量有严格的要求，如果网站每天更新的大量内容被百度蜘蛛判断为低质量页面，那还是没有意义的。

　　3、连接性：网站要安全稳定，坚持与百度蜘蛛畅通沟通，经常给百度蜘蛛关起门汤不是一件好事

　　4、网站评价：百度搜索引擎会对每个网站进行评价，

　　而这个评价会根据网站状态不时变化，是百度搜索引擎在网站上的基本得分（绝不是外界说百度权重），是百度内部非常秘密的数据。网站评级从不单独使用，而是与其他因素和阈值一起影响网站的抓取和排名。

　　抓取频率间接决定了数据库网站可以收录多少页，如果不符合站长的期望，如何调整这么重要的值？百度站长平台提供抓取频率工具，已完成多次推广。除了提供抓取统计外，该工具还提供“频率调整”功能，站长根据实践情况向百度站长平台提交增加或减少访问量的请求，该工具将根据站长的意愿和练习状态停止调整。

0

2022-11-09

php 伪原创词库

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

通用解决方案:14个中文分词开源软件

0 个评论

发起人