规则采集文章软件(优采云采集器点击网址采集测试会出现你需要抓取的网页的地址)
优采云 发布时间: 2022-04-13 05:21规则采集文章软件(优采云采集器点击网址采集测试会出现你需要抓取的网页的地址)
2.接下来点击网址采集进行测试
将出现您需要抓取的网页地址。
3、选择其中一项
双击进入,右下角测试
这里的标签列表是指在这个网站的内容中你需要抓取的内容和字段配置,提取出来的字段也可以使用起始字符串。
测试时会出现您需要的字段。
3、内容发布规则后面会详细讲解。
4.其他设置
如果捕获的内容收录图片附件或视频,您需要在此处设置地址。所有文件的根目录都是本地路径。如果程序放在服务器上,则需要将附件传送到相应的服务器上。
这里的文件链接地址前缀表示下载优采云采集器会添加你的附件或图片的地址前缀如上。
(提示:这里的前缀地址要和你服务器部署的访问站点地址一致)
* 网络发布配置
点击保存或退出后,返回界面,点击网页发布配置。
你可以新建一个,这里是一个新的信息类:
网站地址是指你需要发布的数据的起始地址
useragent 可以使用 fiddle2 获取
Cookies也可以通过fidder2获取,也可以根据网站的f12校验获取,有的可能不行。
然后在右侧创建一个已发布的模块。这里的配置相当于对应数据库的字段,插入到数据库中:
这里的发布地址是前面的地址加上你需要发布的地址的后缀。源页面地址是指你需要在某个栏目下发布的栏目id,相当于文章是什么类型。(文学,小说),这里的流派 id。
发布的帖子数据:
也可以根据fiddler2获取post数据。
fiddler2的使用方法后面会讲到。