免规则采集器列表算法(优采云采集器点击网址采集测试会出现你需要抓取的网页的地址)
优采云 发布时间: 2021-10-24 13:15免规则采集器列表算法(优采云采集器点击网址采集测试会出现你需要抓取的网页的地址)
2.接下来点击网址采集进行测试
将出现您需要抓取的网页地址。
3. 选择其中之一
双击进入,右下角测试
这里的标签列表是指在这个网站的内容中需要抓取的内容和字段配置,提取出来的字段也可以使用起始字符串。
您需要的字段将在测试期间出现。
3、内容发布规则将在后面详细说明。
4. 其他设置
如果捕获的内容收录图片附件或视频,则需要在此处设置地址。保存所有文件的根目录是指本地路径。如果程序放置在服务器上,则需要将附件传输到相应的服务器。
这里的文件链接地址前缀是指下载优采云采集器时会如上添加你的附件或图片的地址前缀。
(提示:这里的前缀地址必须和你服务器部署的站点地址一致)
* 网页发布配置
点击保存或退出后,返回界面,点击web发布配置。
您可以创建一个新的,这是一个新的信息类:
网站地址指的是你需要发布的数据的起始地址
可以使用 fidder2 获取用户代理
cookie也可以通过fidder2获取,也可以根据网站的f12校验获取,有的可能不可用。
然后在右侧创建一个已发布的模块。这里的配置相当于对应了数据库的字段,插入到数据库中:
这里的发布地址是之前的地址加上你需要发布的地址的后缀。源页地址是指你需要在某个栏目下发布的栏目id,相当于文章属于什么类型(文学,小说),这里的类型id。
发布的帖子数据:
也可以根据fdder2获取post数据。
fidder2的使用方法会在后面讲解。