基于综合价值的搜索引擎中网络爬虫研究的主要问题

优采云 发布时间: 2021-05-01 02:18

  基于综合价值的搜索引擎中网络爬虫研究的主要问题

  [摘要]:随着Internet的飞速发展,搜索引擎已成为网民的第一个应用。为了在广阔的网络中找到更合适的信息,更专业,更准确的垂直搜索引擎已成为人们获取所需知识的必不可少的工具。如何有效地访问网络资源以提高搜索效率是搜索引擎中网络爬虫研究的主要问题。本文的主要工作和研究成果如下:1.首先,分析了垂直搜索引擎主题爬虫研究中的相关理论。研究搜索引擎的分类,通用搜索引擎的结构,垂直搜索引擎以及垂直搜索的四个关键技术。已经对Web采集器和关键技术,采集器架构要求以及主题采集器的特殊功能进行了相关研究。分别对通用爬虫和主题爬虫的模型和模块进行了分析。 2.分析了搜索引擎中网络爬虫的搜索策略。研究了搜索策略的定义和分类,分析了各种搜索算法的优缺点。比较了基于内容评估的搜索策略和基于链接结构评估的搜索策略,并详细分析了这两种广泛使用的搜索策略的典型算法。 3.本文提出了一种基于综合价值的搜索策略。该策略从分析主题相似度的角度出发,通过内容评估搜索策略找到与主题相关的URL,然后根据链接结构对URL进行排序以确定爬网顺序,从而提高整体搜索效率。考虑到基于内容评估的搜索策略,网络爬虫仅在靠近相关页面集进行搜索时显示出良好的性能,缺乏“全局性”,并且通常具有“近视”的缺点。尽管基于链接结构评估的搜索策略考虑了链接的结构特征,但仍存在诸如偏离主题的搜索的“主题漂移”问题和较高的计算复杂性等缺点。考虑到单一的评估方法不能有效地预测链接URL的真实值,为了提高链接值预测的准确性,将两种类型的评估标准进行了组合。 4.在基于综合价值对主题采集器搜索策略进行了详细描述之后,设计了该搜索策略的模型,并使用JAVA程序实现了该系统。并进行了实验评估,验证了所提模型的优越性。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线