基于字符串匹配分词这一这一方法,实现平板电脑领域的垂直搜索系统

优采云 发布时间: 2021-08-23 03:17

  基于字符串匹配分词这一这一方法,实现平板电脑领域的垂直搜索系统

  [摘要]:目前互联网上传统的通用搜索引擎服务商为用户提供了大量搜索层面的信息。它的优点是可以搜索到比较全面的信息,但是由于范围较广,很难兼顾搜索的准确性。另外,当用户需要某个领域的行业信息时,一般的搜索引擎无法更好地满足要求。这时候,他们可以使用面向领域的垂直搜索引擎。对信息进行深度处理,为用户提供更准确的信息。本文以人们当前流行的平板电脑搜索需求为背景,研究分析垂直搜索引擎的关键技术,设计并实现了平板电脑领域的垂直搜索系统。 文章首先分析了垂直搜索引擎中主题爬虫、信息抽取和全文检索的核心技术,特别是索引技术中的倒排索引和Lucene开源全文检索工具包。然后重点分析中文分词的另一项关键技术,包括中文分词的常用方法和算法。基于字符串匹配和分词的方法,在建立了平板电脑领域的基础词典之后,采用基于前缀的逐词最大匹配算法,最终设计并实现了一个适用于平板电脑领域的中文自动分词组件。平板电脑领域,实现Lucene分词器界面。将其与其他一些开源的分词系统进行对比,结果表明,在该领域,中文分词组件具有更好的分词准确率。基于这些关键理论和技术,本文首先对要实现的系统进行了总体设计,包括功能模块划分、采用的架构、开发技术和环境。最后,系统的详细设计和实现,利用UML设计分析技术和J2EE三层架构,更详细地讨论了使用Lucene构建垂直搜索系统的整个设计和实现过程。通过对比本系统与传统搜索引擎对平板电脑产品的搜索,可以看出本系统在搜索结果的准确性上具有一定的直观优势。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线