文章采集规则(优采云采集器点击网址采集测试会出现你需要抓取的网页的地址)
优采云 发布时间: 2022-01-02 22:17文章采集规则(优采云采集器点击网址采集测试会出现你需要抓取的网页的地址)
2、然后点击网址采集test
会出现需要抓取的网页地址。
3、选择其中之一
双击进入,右下角测试
这里的标签列表是指在这个网站的内容中需要抓取的内容和字段配置。提取的字段也可以使用起始字符串。
测试时,您需要的字段会出现。
3、内容发布规则后面会详细说明。
4、其他设置
如果抓取的内容收录图片附件或视频,则需要在此处设置地址。保存所有文件的根目录是指本地路径。如果程序放置在服务器上,则需要将附件传输到相应的服务器。
这里的文件链接地址前缀是指下载时优采云采集器会添加你的附件或图片的地址前缀,如上。
(温馨提示:这里的前缀地址必须和你的服务器部署的访问站点地址一致)
* 网页发布配置
点击保存或退出后,返回界面点击网页发布配置。
你可以新建一个,这里是一个新的信息类:
网站地址是指你需要发布的数据的起始地址
可以使用 fidder2 获取 Useragent
cookies也可以通过fidder2获取,也可以通过查看网站的f12获取,有的可能不可用。
然后在右侧创建一个已发布的模块。这里的配置相当于对应数据库的字段插入到数据库中:
这里的发布地址是之前的地址加上你需要发布的地址的后缀。源页地址是指你在某个栏目下需要发布的栏目id,相当于一篇文章文章属于什么类型(文学、小说),类型id在这里。
发布的帖子数据:
也可以根据fidder2获取post数据。
如何使用 fidder2 将在后面解释。