网页采集器的自动识别算法(偌大的互联网已经演变成了一个一个巨大的知识宝库,)

优采云 发布时间: 2022-03-14 12:14

  网页采集器的自动识别算法(偌大的互联网已经演变成了一个一个巨大的知识宝库,)

  【摘要】 庞大的互联网已经演变成一个巨大的知识宝库,对这个知识宝库的探索、挖掘和分析是当前热门的应用领域。在探索和提取这个知识宝库之前,第一步是采集原创数据。面对如此庞大的知识库,使用谷歌、雅虎等通用搜索引擎很难找到与自定义主题相关的优质网页,而与自定义主题相关的优质网页是经常不汇总。在一起,它们是分散的,这给筛选高质量的原创数据增加了额外的负担。一般搜索引擎的爬虫程序通常采用广度优先的爬取策略,即 通用搜索引擎的爬虫程序按照一定的层次顺序依次爬取互联网上的网页,其追求的目标是互联网上网页的广泛采集。与一般的搜索引擎爬虫不同,主题爬虫有一个爬取策略来指导爬虫的爬取方向,其中基于网页链接拓扑的爬取策略和基于网页内容的爬取策略最多。常用的爬取策略。在爬取策略的引导下,主题爬虫可以有目的地找到自定义主题相关的网页,在一定程度上避免了与自定义主题无关的网页的下载,节省了宝贵的带宽资源。主题爬虫抓取网页的准确率是衡量主题爬虫性能的重要指标之一。首先,本文对主题爬虫的基本原理和系统架构进行了深入研究,并对基于网页链接拓扑的爬取策略和基于主题爬虫的爬取策略的代表性算法进行了详细的研究。网页内容,并比较这些算法的优缺点。场景。并对基于网页链接拓扑的爬取策略和基于网页内容的爬取策略的代表性算法进行了详细研究,并比较了这两种算法的优缺点。场景。并对基于网页链接拓扑的爬取策略和基于网页内容的爬取策略的代表性算法进行了详细研究,并比较了这两种算法的优缺点。场景。

  然后详细介绍了web文本处理技术,包括web HTML文档的DOM树解析方法和正则表达式解析方法、解析文本的分词处理、文本的向量空间模型表示方法、文本基于向量空间表示模型的相似度计算。方法。其次,在对主题爬虫的基本原理和架构进行深入研究后,提出了一种基于决策树的URL分类器算法。分类器算法利用网页中的 4 个 HTML 标签对 URL 进行分类。这四个标签分别是:h1、h2、h3标签(heading)、网页的标题(title)、链接的锚文本(anchor)和链接上下文(context)。利用四个HTML标签对应的文本内容与用户自定义主题的相似度,构建决策树对当前网页中收录的其他URL进行分类。将分类结果与主题相关的URL放入URL队列进行优先爬取,将分类结果与主题无关的URL放入延迟爬取队列。当优先爬取队列为空时,再爬取延迟爬取队列。,保证了高精度,在一定程度上避免了主题爬虫的“隧道穿越”问题。最后,利用开源的网络爬虫框架设计了基于决策树的URL分类器算法的主题爬虫实现。实验结果表明,与传统Fish-Search算法实现的主题爬虫相比,URL分类器分类的主题爬虫算法在抓取网页的准确率上有一定的提升,在5%到7%之间。关于。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线