搜索引擎优化毕业论文(,Apache推出一个开源的全文搜索引擎工具包Lucene)
优采云 发布时间: 2021-10-02 16:08搜索引擎优化毕业论文(,Apache推出一个开源的全文搜索引擎工具包Lucene)
【摘要】随着网络信息量呈指数级增长,人类进入了信息爆炸时代。面对庞大的信息网络,如何快速、便捷地获取有效的信息越来越成为人们关注的问题。搜索引擎的出现,大大缓和了这种矛盾。搜索引擎是一种应用在网络上的软件系统。它以一定的策略采集和发现互联网上的信息,理解、提取、组织和处理信息,并为用户提供检索服务,从而达到导航信息的目的。在当前的网络信息环境下,网络上出现了许多商业网络搜索引擎,如谷歌、百度、搜狗等,极大地方便了网络用户。然而,由于其商业性质,其关键技术对*敏*感*词*内得到广泛应用。本文在现有搜索引擎理论的基础上,以Lucene为基础,结合XML数据存储的思想,从不同层次研究构建以Lucene为核心的搜索引擎。本文的主要工作体现在以下三个方面: 1. 分析了当前搜索引擎的工作机制和关键技术,特别是深入分析了Lucene' s 索引引擎机制和搜索引擎机制,并在此基础上设计了基于 Lucene 的 Web 搜索引擎架构。2.对于编写对 HTML 实现要求不那么严格的网页,要真正高效、准确地挖掘数据是非常困难的。与HTML 相比,XML 可以更好地实现Web 中的信息共享和交换。本文提出了XML数据提取模块的设计思路。使用XML文件存储待索引文件,可以有效提高索引速度,减少存储索引空间,有效提高数据挖掘的准确性。3.对于Lucene原有的基本排序算法,查询准确率低,只考虑关键词与文档的相关性,忽视网页本身重要性的缺点。本文对Lucene排序算法进行了改进。后一种算法的最大特点是通过调整权重系数来提高页面排名的合理性和查询的准确性。