搜索引擎主题模型优化(基于规则的软主题爬虫应运而生算法展开研究和讨论(组图))
优采云 发布时间: 2021-11-13 14:02搜索引擎主题模型优化(基于规则的软主题爬虫应运而生算法展开研究和讨论(组图))
[摘要]:随着对个性化信息检索服务需求的不断增加,面向主题的垂直搜索引擎应运而生。本文围绕这一社会研究领域的新热点技术,对在垂直搜索引擎中占据重要地位的话题爬虫算法进行研究和探讨。主题爬虫是一种基于主题的信息采集系统,可以从网上的采集到与主题相关的有用信息,在垂直搜索引擎中的应用越来越广泛,网站结构分析等。主题爬虫的主要问题是如何沿着一个好的“路径”到达主题相关性高的采集网页。因此,本文的研究重点是话题爬虫的搜索策略,主要分为两部分讨论——基于网页链接结构的策略和基于页面内容的策略。为了充分利用各种文本内容和超链接信息,本文将两者紧密结合,使两种算法可以相互弥补不足。考虑如何对采集“重要”网页进行优先级排序,本文采用链接重要性权重和主题相关性权重计算总优先级,指导主题爬虫抓取网页。本文研究了主题爬虫系统的基本理论和基本结构,对主题爬虫算法进行了深入的分析和探讨,并对算法的两个关键技术点和参数进行了比较、选择和优化。在确定页面与主题的相关性时,引入文本分类的思想,应用自然语言处理中较为成熟的基于向量空间模型的主题相似度计算方法。论文还增加了链接文本相关性和文本位置的权重。注意事项。特别是在确定URL链接重要性的过程中,本文在经典Page Rank算法的基础上引入了类间链接转移概率的概念,即利用类间链接转移概率矩阵调整权重Page Rank,然后提出了一种基于规则的软主题爬虫设计方案。这种基于规则的软主题爬虫方法使用了Baseline主题爬虫的架构,应用朴素贝叶斯分类器,利用话题组链接的统计关系构建规则,寻找一定链接距离内的“未来回归”页面。最后对爬虫的性能进行了测试和评估,并根据实验结果对算法的性能进行了分析和评估。实验证明,本文提出的算法对主题爬虫的爬行收获率有很好的提升,具有较强的隧道穿越性。能力。实验证明,本文提出的算法对主题爬虫的爬行收获率有很好的提升,具有较强的隧道穿越性。能力。实验证明,本文提出的算法对主题爬虫的爬行收获率有很好的提升,具有较强的隧道穿越性。能力。