解读:自动采集子系统的设计说明【】!!

优采云 发布时间: 2022-11-16 10:46

  解读:自动采集子系统的设计说明【】!!

  自动采集子系统设计说明当用户查看文章时,当用户发现文章被删除时,当用户发现文章被黑客篡改了时,当用户浏览文章被广告为恶意链接时,是通过手动查找文章进行操作的,下面就来介绍下自动采集子系统的设计。

  1、确定手动采集子系统的子网格级别根据自动采集子系统需要抓取的文章和子网格级别可以确定手动采集子系统的子网格级别,这样可以针对特定文章进行不同层级的自动采集。例如,小程序的跳转和嵌套模板广告是采用嵌套模板广告来抓取。

  

  2、创建流程用户需要发起请求开始抓取,主界面发起请求,接着可以从界面左侧或右侧开始抓取,用户在未登录状态下是从界面中间的url开始抓取,登录状态下是从整个页面到文章页的url,需要注意的是,在设计子网格级时,需要设计相应的路由,防止用户采集错误。

  3、设置判断数据源首先判断数据源是否有效,设置识别标签(识别标签就是文章的标题和标签),识别标签可以通过数据库查询获取,也可以通过模板修改获取。如果发现数据源不匹配,则需要自动撤销;对于登录页、地址栏页等不采用识别标签抓取,如果不对识别标签做判断抓取可能会出现数据抓取丢失问题。

  4、设置抓取的时间段如果抓取没有进行合理的时间段设置会导致抓取失败的问题。以文章列表为例,设置抓取天数:规则内所有文章记录定义统一的天数,例如规则内所有文章记录都在早晨9:00分初始抓取,则设置后每次抓取生效文章一个天数;抓取次数:规则内所有文章记录都采用多次修改设置来设置有效期,例如每次修改该文章是半天到24小时不等(具体的修改时间取决于设置的系统时间)。

  

  这里我们设置每次抓取文章有效期为15天,用户是按照月份来设置的,时间均从0开始,即从月底到第二个月的次月份。

  5、设置规则自动监测的时间段规则内对某时间段内某一个文章进行抓取,该文章具有特定的文章标题和标签信息。检测时间段:在该时间段抓取该文章;首次抓取该文章时,每次生效多篇文章抓取:在同一时间段抓取多篇文章;首次抓取某个分类文章,后续每次抓取只抓取该分类的文章。如果是python来实现则只能遍历每一个页面,并且需要监测,但是如果把该功能结合分类识别,可以做到页面定位标签自动定位到某个分类的文章页,当出现分类标签对应的文章时系统会对该分类进行抓取,可以大大提高抓取效率。

  6、设置自动抓取的规则规则内匹配的内容:匹配该规则过的所有内容;规则内不匹配的内容:匹配该规则下该页面中不存在的内容;设置完成之后会有一个次日计划列表,用户可以自行设置,

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线