搜索引擎优化毕业论文(通用搜索引擎专项搜索引擎拆分为数据搜集处理和数据搜索模块)

优采云发布时间: 2022-02-09 01:24

　　【摘要】随着近年来Internet的飞速发展,网络上的信息变得越来越复杂。依靠用户自身的定位来查找信息越来越不可行，用户对信息搜索的需求越来越大。目前，一般搜索引擎提供的搜索结果往往夹杂着大量不必要的信息，用户开始针对特殊内容寻求更精准的搜索引擎。因此，有必要研究专门的搜索引擎技术。本文分析了搜索引擎的主要组成部分及其实现的基本步骤，并介绍了构建搜索引擎时所需要的一些背景知识。专用搜索引擎的构建主要分为两个处理模块：数据采集处理和数据搜索。结合Heritrix的源码和架构，研究并实现了数据采集模块，包括url的解析和分发，以及多线程机制的实现。分析了Heritrix在搜索特殊内容方面存在不足的原因，并提出了具体的改进方法。解决了很多问题，包括仅针对特殊网页内容的url解析，以及采集单个网站时爬虫多线程机制失效等问题。并给出了利用正则表达式对采集到的数据信息进行预处理的方法。结合Lucene Information Retrieval Toolkit的源码分析，实现了数据搜索模块。并且根据特殊搜索的需要，定制了一种特殊机制，用于对返回的搜索结果进行进一步的排序和过滤。鉴于Lucene工具包中缺乏对中文的支持，在查询语句的关键词部分增加了一些对中文的优化支持。在分析实现的过程中，结合了具体的编程语言机制，并说明了用该语言实现时的一些注意事项。最后，演示了一个主题搜索引擎的实现方法，该引擎采集并搜索网站中某个散文类别的文章。对主题搜索引擎的主要功能点进行测试和验证，最后根据其他搜索原则对搜索结果进行验证。从最终的搜索结果来看，准确地获得了预期的搜索结果。并且在数据采集阶段，充分利用多线程机制，提高采集速度。在研究过程中，也存在一些不足和缺陷。例如，没有使用分布式机制来实现搜索。搜索引擎的用户界面没有优化，不够人性化。后续会考虑使用 Solr 和 DWR 技术来实现友好的用户界面。DWR 是一个 Ajax 打包框架。可以更方便的实现在浏览器中的交互。在中文分词过程中，本主题搜索引擎没有采用更好的字典分词方法。由于采用了字典切分方式，字典的构建需要大量的人工数据统计和分析工作。未来，我们会在合适的词典库的基础上，构建自己的分词库。给出搜索结果时，只给出相关文章内容的第一行作为介绍。最好将文章中相关关键词附近的文字内容作为介绍。

0

2022-02-09

搜索引擎优化毕业论文

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎优化毕业论文(通用搜索引擎专项搜索引擎拆分为数据搜集处理和数据搜索模块)

0 个评论

发起人