采集器设置
优采云 发布时间: 2020-08-06 12:06采集器设置
在任务底部的进度栏中单击“采集器设置”以进入规则编辑界面
起始页网址
添加需要采集的目标列表页面
单击“ +”号以批量添加URL,选中“设置为内容页面URL”以直接采集输入的URL,否则需要将其分析为列表页面以提取内容页面URL
内容页面网址
编写用于提取内容页面URL的规则. 默认情况下提取所有URL. 如果需要精确,可以设置“ URL提取规则”
多级URL获取: 适用于小说,电影等序列化内容.
只要不直接从起始页获取内容页面URL,就可以通过多个级别获取它
获取关联页面的URL: 适用于分散在多个页面中的数据
如果要爬网的字段不在内容页面上,而是在其他页面上,则可以使用此功能将其他页面用作内容源.
获取内容
“添加默认值”可以自动设置几个通用字段,可以满足大多数文章类型的网站集
如果目标数据格式更复杂,则可以单击“ +”自己编写字段规则,并支持多种匹配方法,例如正则表达式,xpath,json等.
“数据处理”可以过滤或替换采集的字段值,并且每个字段都可以单独处理或使用常规处理
如果需要获取分页,请单击以打开“内容分页”并编写规则,程序将自动获取每个页面中的字段内容
测试规则
配置采集器后,需要单击保存按钮. 刷新后,您可以在“内容页面URL”标签和“获取内容”标签中看到测试按钮.
从测试列表页面获取URL
从测试页获取数据
测试爬网分页