java爬虫抓取动态网页(聚焦网络爬虫又称主题网络数采集的主要功能工作流程)

优采云 发布时间: 2022-03-24 04:05

  java爬虫抓取动态网页(聚焦网络爬虫又称主题网络数采集的主要功能工作流程)

  网络号的主要作用采集

  网络数据采集是指通过网络爬虫或网站公共API

  从网站获取数据信息

  常用网络采集系统网络爬虫工作原理工作流程抓取策略网络爬虫策略中使用的基本概念一般网络爬虫

  通用网络爬虫也称为全网络爬虫。爬取对象从一些*敏*感*词*URL延伸到整个网络,主要针对门户网站搜索引擎和大型网络服务商采集数据。

  专注于网络爬虫

  聚焦网络爬虫,也称为主题网络爬虫,是选择性抓取与预定义主题相关的页面的网络爬虫。

  1)基于内容评价的爬取策略

  De Bra 将文本相似度的计算方法引入网络爬虫,提出了 Fish Search 算法。该算法以用户输入的查询词为主题,将收录查询词的页面视为与该主题相关的页面。

  Herseovic 改进了 Fish Search 算法,提出了 Shark Search 算法,利用空间向量模型计算页面与主题的相关度。通过采用基于连续值计算链接值的方法,我们不仅可以计算出哪些捕获的链接与主题相关,而且可以得到相关度的量化大小。

  2)基于链接结构评估的爬取策略

  PageRank算法的基本原理是,如果一个网页被多次引用,它可能是一个重要的网页。如果一个网页没有被多次引用,而是被一个重要网页引用,那么它也可能是一个重要网页。网页的重要性与它所引用的网页同等地传递。

  3)基于强化学习的爬取策略

  将强化学习引入焦点爬虫,使用贝叶斯分类器根据整个网页文本和链接文本对超链接进行分类,计算每个链接的重要性,确定链接访问的顺序。

  4)基于上下文图的爬取策略

  一种通过构建上下文图来了解网页之间相关性的抓取策略。该策略可以训练一个机器学习系统,通过该系统可以计算当前页面到相关网页的距离。访问。

  增量网络爬虫

  增量网络爬虫是指对下载的网页进行增量更新,只爬取新生成或更改的网页的爬虫。可以在一定程度上保证爬取的页面尽可能的新。 .

  深度网络爬虫

  网页按存在方式可分为表层网页和深层网页。表面网页是指可以被传统搜索引擎索引的页面,主要是可以通过超链接到达的静态网页。深度网页是大部分内容无法通过静态链接获取,隐藏在搜索表单后面,只能通过用户提交一些关键词获取的网页。

  深网爬虫架构由6个基本功能模块组成:

  爬虫控制器、解析器、表单分析器、表单处理程序、响应分析器、LVS 控制器和两个爬虫内部数据结构(URL 列表和 LVS 表)。其中,LVS(Label Value Set)代表标签和值集,用来表示填写表格的数据源。在爬取过程中,最重要的部分是表单填写,包括基于领域知识的表单填写和基于网页结构分析的表单填写。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线