php 搜索引擎优化(轻量级能够实现分词搜索的搜索引擎:JZSearch精准搜索系统)

优采云 发布时间: 2021-09-02 10:14

  php 搜索引擎优化(轻量级能够实现分词搜索的搜索引擎:JZSearch精准搜索系统)

  国内有很多轻量级的搜索引擎,也有一些开源的,但同时能实现的分词搜索并不多,需要有分词功能。今天推荐一个轻量级的可以实现分词搜索的搜索引擎:JZSearch精准搜索引擎。

  JZSearch精准搜索引擎由北京理工大学副教授张华平博士精心设计,具有专业精准、高扩展性、高通用性等特点。可支持文本、数字、日期、字符串等多种数据类型的高效索引,支持丰富的查询语言和查询类型,支持小语种搜索。目前已应用于中国邮政搜索引擎、河北省标准搜索引擎等商品搜索。

  同时,全文搜索中间件可以通过可视化界面快速配置相关参数,启动搜索服务,提供测试程序,可与现有数据库系统无缝集成,实现全文搜索及相关数据库管理应用系统。

  主要功能包括:

  1、可以按任意指定字段排序,支持指定字段搜索,也可以搜索多个字段,以及复杂表达式的综合搜索;

  2、支持精确匹配和模糊匹配,默认为精确匹配,模糊匹配忽略字母大小写;

  3、内嵌正负情绪等极性分析,还可以支持类别搜索;

  4、语义关联搜索:比如搜索“土豆”可以同时返回“土豆”的内容,搜索“北京”可以返回“北京”或“首都”的内容;语义联系词汇的用户可以根据业务需求进行定制;

  5、支持增量索引:系统可以在不停止搜索服务的情况下继续索引新数据,索引完成后可以搜索新数据;

  6、自动备份和恢复机制。在建立索引和自动优化之前,系统会自动备份现有的索引文件;如果当前索引文件损坏无法搜索,系统会自动恢复上次搜索到的正常备份文件;

  7、自动缓存机制:系统自动保存最常用的搜索条件和结果,再次搜索时直接推送搜索结果内容,可提高30%以上的搜索响应速度;缓存会自动跟随新的索引数据更新,不存在缓存延迟问题;

  8、自动优化机制:当系统索引碎片过多时,系统会自动优化合并;

  9、实现多线程搜索服务;

  10、 兼容所有当前供应商的数据库系统,包括 SQL Server、Oracle、MySQL、DB2 等。

  11、支持Windows/Linux/FreeBSD等操作系统,支持C/C++/C#/Java二次开发。

  JZSearch大数据精准搜索引擎技术架构如下图所示:

  

  JZSearch大数据精准搜索引擎状态转移图如下图所示:

  

  JZSearch精准搜索引擎的优势和特点

  下面以中文标准库检索的*敏*感*词*公开应用为例进行说明。

  例一:搜索“Potato”,系统会自动在标准数据库中搜索出标题和各种信息,搜索结果会自动在左侧进行分析。

  

  图1.语义搜索函数示例

  示例2:高级搜索,JZSearch精准搜索引擎可以对任何类型的领域进行各种综合搜索。复杂搜索响应时间约为100毫秒。

  

  示例3:搜索“Potato”,系统自动搜索“Potato”等信息

  

  示例4:搜索“GB 1003”,系统不会给出GB 10030等不准确的结果,实现了准确的匹配和理解。

  

  有了传统的开源搜索引擎Lucence和Sphinx系统,以及TRS等现有搜索厂商,通过上面的例子,不难看出JZSearch精准搜索引擎的优势和特点如下五点:

  1.语义精准搜索:系统不是简单的关键词匹配,它会根据语义知识自动进行关联,搜索用户真正需要的信息;并且可以实现数字和字母的精确搜索,而不是模糊匹配(搜索100,不会给出1001等不正确的结果)。

  2.与业务无缝对接:JZSearch精准搜索引擎可兼容所有现有数据库,无需开发,即可实现与现有业务数据库无缝对接,实现任意领域的搜索分析,为数据库提供毫秒级- 级搜索服务;新增或修改的数据可被JZSearch搜索引擎抓取并在10秒内反映在搜索结果中。非常适合企业业务数据的垂直搜索和过滤。

  3. 更强的搜索功能:JZSearch可以方便地搜索各种信息,自动统计分析搜索结果,也可以在指定的文本范围内搜索,如:在投标中搜索公司名称附件的代理公告信息,而不是一般搜索,可以实现信息的精确定位。

  4. 系统自主维护:JZSearch搜索引擎可处理TB级大数据服务,索引速度10MB/s,1秒内搜索响应;整个过程不需要人工干预。系统部署后,自动索引、自动搜索、自动增量更新、自动优化、自动备份恢复,实现7*24在线运行。

  5. 各种成功案例: 目前,基于JZSearch公开运营的搜索引擎已有3年多的历史。各个政府、企业和互联网的典型成功案例包括:中国邮政集团的邮政搜索引擎(全部数据为2亿,每年搜索量超过1亿);河北标准化研究院标准搜索引擎(同时在线服务10万家企业);富士融通的商品搜索引擎(服务中国70%的零售业);狄元新网站统计数据搜索服务(每天新增500GB数据)。

  JZSearch精准搜索引擎性能测试

  

  字段类型定义

  JZSearch 兼容当前的基本数据类型,如下表所示。

  

  示例如下:

  

  说明如下:

  1. 数据库字段名:是数据库中实际的字段名,必须一致,否则无法访问数据库;如果没有访问数据库,则不需要设置该字段。

  2. 索引名称:是后面要检索的字段名称,由用户自定义,必须与提交搜索的名称一致,否则会被解析错误而搜索不可能;

  3. 数据类型:支持数据库通用格式,要求非字符字段不需要索引,仅用于过滤或存储;见数据字段类型表;

  4.是否需要索引:表示搜索系统在索引过程中是否保留了原文,是否出现在搜索结果中;

  5.是否需要保存原文:保存在一个文件中,这样搜索结果才能显示这个字段;

  6.为通配符索引:在不指定字段名的情况下进行统一搜索(搜索*)时是否覆盖该字段。

  7.是否需要汇总显示为红色:显示结果时,需要对字段进行动态汇总显示为红色。

  8.bigtext 类型:主要解决大文件中存储多个小文本的情况,适用于海量文本的处理。对应数据库时,需要依次指定以下信息: bigfilename@offset@length@e:\ 语料资源\corpus\news corpus 对应大文件名、偏移量、文本内容长度,即指定的文件路径名,中间使用“@”链接。注意:路径名最好是绝对路径。

  以上是php搜索引擎推荐的资料,仅供参考,希望能帮到你!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线