搜索引擎优化毕业论文(通用搜索引擎专项搜索引擎拆分为数据搜集处理和数据搜索模块)
优采云 发布时间: 2022-02-09 01:24搜索引擎优化毕业论文(通用搜索引擎专项搜索引擎拆分为数据搜集处理和数据搜索模块)
【摘要】 随着近年来Internet的飞速发展,网络上的信息变得越来越复杂。依靠用户自身的定位来查找信息越来越不可行,用户对信息搜索的需求越来越大。目前,一般搜索引擎提供的搜索结果往往夹杂着大量不必要的信息,用户开始针对特殊内容寻求更精准的搜索引擎。因此,有必要研究专门的搜索引擎技术。本文分析了搜索引擎的主要组成部分及其实现的基本步骤,并介绍了构建搜索引擎时所需要的一些背景知识。专用搜索引擎的构建主要分为两个处理模块:数据采集处理和数据搜索。结合Heritrix的源码和架构,研究并实现了数据采集模块,包括url的解析和分发,以及多线程机制的实现。分析了Heritrix在搜索特殊内容方面存在不足的原因,并提出了具体的改进方法。解决了很多问题,包括仅针对特殊网页内容的url解析,以及采集单个网站时爬虫多线程机制失效等问题。并给出了利用正则表达式对采集到的数据信息进行预处理的方法。结合Lucene Information Retrieval Toolkit的源码分析,实现了数据搜索模块。并且根据特殊搜索的需要,定制了一种特殊机制,用于对返回的搜索结果进行进一步的排序和过滤。鉴于Lucene工具包中缺乏对中文的支持,在查询语句的关键词部分增加了一些对中文的优化支持。在分析实现的过程中,结合了具体的编程语言机制,并说明了用该语言实现时的一些注意事项。最后,演示了一个主题搜索引擎的实现方法,该引擎采集并搜索网站中某个散文类别的文章。对主题搜索引擎的主要功能点进行测试和验证,最后根据其他搜索原则对搜索结果进行验证。从最终的搜索结果来看,准确地获得了预期的搜索结果。并且在数据采集阶段,充分利用多线程机制,提高采集速度。在研究过程中,也存在一些不足和缺陷。例如,没有使用分布式机制来实现搜索。搜索引擎的用户界面没有优化,不够人性化。后续会考虑使用 Solr 和 DWR 技术来实现友好的用户界面。DWR 是一个 Ajax 打包框架。可以更方便的实现在浏览器中的交互。在中文分词过程中,本主题搜索引擎没有采用更好的字典分词方法。由于采用了字典切分方式,字典的构建需要大量的人工数据统计和分析工作。未来,我们会在合适的词典库的基础上,构建自己的分词库。给出搜索结果时,只给出相关文章内容的第一行作为介绍。最好将文章中相关关键词附近的文字内容作为介绍。