采集器设置

优采云 发布时间: 2020-08-06 12:06

  采集器设置

  在任务底部的进度栏中单击“采集器设置”以进入规则编辑界面

  

  起始页网址

  添加需要采集的目标列表页面

  单击“ +”号以批量添加URL,选中“设置为内容页面URL”以直接采集输入的URL,否则需要将其分析为列表页面以提取内容页面URL

  

  内容页面网址

  编写用于提取内容页面URL的规则. 默认情况下提取所有URL. 如果需要精确,可以设置“ URL提取规则”

  

  多级URL获取: 适用于小说,电影等序列化内容.

  只要不直接从起始页获取内容页面URL,就可以通过多个级别获取它

  

  

  获取关联页面的URL: 适用于分散在多个页面中的数据

  如果要爬网的字段不在内容页面上,而是在其他页面上,则可以使用此功能将其他页面用作内容源.

  

  

  获取内容

  “添加默认值”可以自动设置几个通用字段,可以满足大多数文章类型的网站集

  如果目标数据格式更复杂,则可以单击“ +”自己编写字段规则,并支持多种匹配方法,例如正则表达式,xpath,json等.

  

  “数据处理”可以过滤或替换采集的字段值,并且每个字段都可以单独处理或使用常规处理

  

  如果需要获取分页,请单击以打开“内容分页”并编写规则,程序将自动获取每个页面中的字段内容

  

  测试规则

  配置采集器后,需要单击保存按钮. 刷新后,您可以在“内容页面URL”标签和“获取内容”标签中看到测试按钮.

  从测试列表页面获取URL

  

  从测试页获取数据

  

  测试爬网分页

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线