网站文章自动采集发布(采集器设置点击任务底部进度条的“采集器”进入规则编辑界面 )

优采云 发布时间: 2021-11-14 07:16

  网站文章自动采集发布(采集器设置点击任务底部进度条的“采集器”进入规则编辑界面

)

  采集器设置

  点击任务底部进度条中的“采集器设置”进入规则编辑界面

  

  起始页网址

  添加需要采集的目标列表页面

  点击“+”号批量添加网址,勾选“设为内容页网址”直接采集输入网址,否则需要解析为列表页提取内容页网址

  

  内容页面网址

  编写用于提取内容页面 URL 的规则。默认情况下提取所有 URL。如果需要精确,可以设置“URL提取规则”

  

  多级URL获取:适用于小说、电影等连载内容

  只要不是直接从起始页获取内容页的URL,就可以通过多级获取

  

  

  相关页面URL获取:适用于分散在多个页面的数据

  如果需要抓取的字段不在内容页面,而是在其他页面,可以使用该功能也将其他页面作为内容源

  

  

  获取内容

  “添加默认”可以自动设置几个常用字段,可以满足大部分文章类型的网站采集

  如果目标数据格式比较复杂,可以点击“+”自行编写字段规则,支持正则表达式、xpath、json等多种匹配方式。

  

  “数据处理”可以将字段的值过滤或替换为采集,每个字段可以单独处理也可以使用通用处理

  

  如果需要抓取分页,点击打开“内容分页”并编写规则,程序会自动抓取每个页面的字段内容

  

  测试规则

  采集器配置完成后,需要点击保存按钮。刷新后可以在“Content Page URL”选项卡和“Get Content”选项卡中看到测试按钮

  从测试列表页面获取 URL

  

  从测试页面抓取数据

  

  测试爬行分页

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线