采集器设置

优采云发布时间: 2020-08-06 12:06

　　采集器设置

　　在任务底部的进度栏中单击“采集器设置”以进入规则编辑界面

　　起始页网址

　　添加需要采集的目标列表页面

　　单击“ +”号以批量添加URL，选中“设置为内容页面URL”以直接采集输入的URL，否则需要将其分析为列表页面以提取内容页面URL

　　内容页面网址

　　编写用于提取内容页面URL的规则. 默认情况下提取所有URL. 如果需要精确，可以设置“ URL提取规则”

　　多级URL获取: 适用于小说，电影等序列化内容.

　　只要不直接从起始页获取内容页面URL，就可以通过多个级别获取它

　　获取关联页面的URL: 适用于分散在多个页面中的数据

　　如果要爬网的字段不在内容页面上，而是在其他页面上，则可以使用此功能将其他页面用作内容源.

　　获取内容

　　“添加默认值”可以自动设置几个通用字段，可以满足大多数文章类型的网站集

　　如果目标数据格式更复杂，则可以单击“ +”自己编写字段规则，并支持多种匹配方法，例如正则表达式，xpath，json等.

　　“数据处理”可以过滤或替换采集的字段值，并且每个字段都可以单独处理或使用常规处理

　　如果需要获取分页，请单击以打开“内容分页”并编写规则，程序将自动获取每个页面中的字段内容

　　测试规则

　　配置采集器后，需要单击保存按钮. 刷新后，您可以在“内容页面URL”标签和“获取内容”标签中看到测试按钮.

　　从测试列表页面获取URL

　　从测试页获取数据

　　测试爬网分页

0

2020-08-06

内容采集器

0 个评论

要回复文章请先登录或注册