无需规则自动采集(【百度帖】一下如何设置普通的采集规则(一))

优采云 发布时间: 2021-11-18 01:11

  无需规则自动采集(【百度帖】一下如何设置普通的采集规则(一))

  以*敏*感*词*为专栏,讲解如何设置常用的采集规则

  

  一.采集网址/网站登录

  普通规则是使用起始URL方法1,即指定一个具体的URL或者使用规则生成一个URL。如果选择了网站类型,想使用关键字查询方式获取最终结果,可以使用起始URL方式2获取URL,注意网站类型和目标网站类型必须一致。如果目录论坛变化很大,您可能无法获得搜索结果。

  如果要从起始URL获取内容页URL,选择它启用列表URL获取规则。如果未选中,则起始 URL 方法 1 的 URL 是内容页面的默认 URL。

  列表页URL获取对两种获取方式都有效,多个收录或不收录用|分隔。

  自动登录功能兼容网站类型。只有支持的网站类型可以自动登录,如discuz!X、PHPwind。无法处理使用验证码登录。测试自动登录功能时,自动登录成功后会在左侧的文本框中写入cookie和user-agent。在实际运行过程中,如果登录失败,程序会自动重新登录。

  二.内容楼层划分/分页

  论坛采集器的采集的内容原则是先划分主题区和回复区。从主题区获取主题内容,然后将回复区内的多个回复用字符串分成多个楼层,然后对每个楼层的内容进行提取。其中,回复切分码分为两种,一种是普通切分,一种是规则和通配符切分。切分方法是先用普通切分,没有结果再用常规切分方法。

  需要注意的一点是,回复区是源代码中剔除主题区代码后的源代码部分。如果在测试回复楼的时候没有拿到楼,建议先选择“文件下载/发布”。无论楼层如何,都只有一个回复。检查整个回复区采集是否已经到达。另外,一般情况下,回复采集区的起始码与正常的回复楼层划分码相同。

  对于分页获取,必须先设置分页区域,然后可以使用类似于优采云采集器的组合方式进行分页。现在可以两次提取分页区域,更快更方便。这种需要注意的是,获取的页面应该是上一页和下一页,否则增量采集时会报错。当然,如果不再考虑增量采集,所有的获取方式都可以。

  测试按钮下方有一排数字。单击可仅显示该楼层的楼层数据。如果楼层较多,可以最大化编辑框以显示更多楼层。

  这里的楼层智能提取和分页数据功能需要选择5个以上回复的页面进行测试。否则,精度会大大降低。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线