网站文章自动采集发布(采集器设置点击任务底部进度条的“采集器”进入规则编辑界面 )
优采云 发布时间: 2021-11-14 07:16网站文章自动采集发布(采集器设置点击任务底部进度条的“采集器”进入规则编辑界面
)
采集器设置
点击任务底部进度条中的“采集器设置”进入规则编辑界面
起始页网址
添加需要采集的目标列表页面
点击“+”号批量添加网址,勾选“设为内容页网址”直接采集输入网址,否则需要解析为列表页提取内容页网址
内容页面网址
编写用于提取内容页面 URL 的规则。默认情况下提取所有 URL。如果需要精确,可以设置“URL提取规则”
多级URL获取:适用于小说、电影等连载内容
只要不是直接从起始页获取内容页的URL,就可以通过多级获取
相关页面URL获取:适用于分散在多个页面的数据
如果需要抓取的字段不在内容页面,而是在其他页面,可以使用该功能也将其他页面作为内容源
获取内容
“添加默认”可以自动设置几个常用字段,可以满足大部分文章类型的网站采集
如果目标数据格式比较复杂,可以点击“+”自行编写字段规则,支持正则表达式、xpath、json等多种匹配方式。
“数据处理”可以将字段的值过滤或替换为采集,每个字段可以单独处理也可以使用通用处理
如果需要抓取分页,点击打开“内容分页”并编写规则,程序会自动抓取每个页面的字段内容
测试规则
采集器配置完成后,需要点击保存按钮。刷新后可以在“Content Page URL”选项卡和“Get Content”选项卡中看到测试按钮
从测试列表页面获取 URL
从测试页面抓取数据
测试爬行分页