搜索引擎进行信息检索的优化策略方法(基于Nutch的农业搜索引擎算法,分析的基本改进思路)
优采云 发布时间: 2021-12-23 07:09搜索引擎进行信息检索的优化策略方法(基于Nutch的农业搜索引擎算法,分析的基本改进思路)
【摘要】:搜索引擎是一种从互联网上快速有效地定位信息的技术。其中,搜索结果排名技术是最贴近用户的。结果直接反映了用户体验。在一定程度上,好的排名结果是一个很好的搜索引擎。随着我国农村计算机的普及和农业信息的激增,对农业搜索引擎的研究成为一个热门话题。本研究的目标是对搜索引擎检索结果排序策略进行深入分析和研究,对传统的PageRank算法进行改进,最终将其应用到基于Nutch的农业搜索引擎中。本文首先分析了搜索引擎的工作流程,研究了在网络爬取、索引、检索执行等;其次,分析排名过程,找出影响排名的关键因素和基本原则;并重新分析经典。Nutch的排序算法及其实现过程;然后分析Nutch开源搜索引擎,研究其排序算法,从两个方面改进算法:基于超链接分析的权限和基于内容分析的相关性;最后在Nutch的基础上,通过建立一个农业搜索引擎来控制网页抓取的入口地址,并利用提出的改进排序算法对其进行改进。在具体实验中,给出了基于Nutch构建农业搜索引擎的具体过程。采用通用P@n评价方法和首页重复率评价方法对改进算法进行评价。通过具体的实验,从定量的角度分析了算法的效率,得出改进算法的用户满意度和首页重复率比前一算法提高了7%左右。本文的主要成果是提高了PageRank算法超链接分析的权威性,包括两个方面:基于深度2度链接分析的父页面非等转移权重思想的实现和对超链接的补偿策略。新创建的资源和孤立的资源。主要分析上述两项创新的基本改进思路,提出具体的计算公式,并简要分析说明。内容分析相关性研究主要介绍了农业主题向量的概念和计算构建方法,并给出了文档农业相关性的计算公式。最后,进一步综合形成了基于父子页面相关性的非平均传递权重算法,引入了内容分析。