无需规则自动采集(【百度帖】一下如何设置普通的采集规则（一）)

优采云发布时间: 2021-11-18 01:11

　　以*敏*感*词*为专栏，讲解如何设置常用的采集规则

　　一.采集网址/网站登录

　　普通规则是使用起始URL方法1，即指定一个具体的URL或者使用规则生成一个URL。如果选择了网站类型，想使用关键字查询方式获取最终结果，可以使用起始URL方式2获取URL，注意网站类型和目标网站类型必须一致。如果目录论坛变化很大，您可能无法获得搜索结果。

　　如果要从起始URL获取内容页URL，选择它启用列表URL获取规则。如果未选中，则起始 URL 方法 1 的 URL 是内容页面的默认 URL。

　　列表页URL获取对两种获取方式都有效，多个收录或不收录用|分隔。

　　自动登录功能兼容网站类型。只有支持的网站类型可以自动登录，如discuz!X、PHPwind。无法处理使用验证码登录。测试自动登录功能时，自动登录成功后会在左侧的文本框中写入cookie和user-agent。在实际运行过程中，如果登录失败，程序会自动重新登录。

　　二.内容楼层划分/分页

　　论坛采集器的采集的内容原则是先划分主题区和回复区。从主题区获取主题内容，然后将回复区内的多个回复用字符串分成多个楼层，然后对每个楼层的内容进行提取。其中，回复切分码分为两种，一种是普通切分，一种是规则和通配符切分。切分方法是先用普通切分，没有结果再用常规切分方法。

　　需要注意的一点是，回复区是源代码中剔除主题区代码后的源代码部分。如果在测试回复楼的时候没有拿到楼，建议先选择“文件下载/发布”。无论楼层如何，都只有一个回复。检查整个回复区采集是否已经到达。另外，一般情况下，回复采集区的起始码与正常的回复楼层划分码相同。

　　对于分页获取，必须先设置分页区域，然后可以使用类似于优采云采集器的组合方式进行分页。现在可以两次提取分页区域，更快更方便。这种需要注意的是，获取的页面应该是上一页和下一页，否则增量采集时会报错。当然，如果不再考虑增量采集，所有的获取方式都可以。

　　测试按钮下方有一排数字。单击可仅显示该楼层的楼层数据。如果楼层较多，可以最大化编辑框以显示更多楼层。

　　这里的楼层智能提取和分页数据功能需要选择5个以上回复的页面进行测试。否则，精度会大大降低。

0

2021-11-18

无需规则自动采集

0 个评论

要回复文章请先登录或注册