规则采集文章软件(v1.更新说明:添加编码设置,添加超时设置。)
优采云 发布时间: 2022-03-04 13:20规则采集文章软件(v1.更新说明:添加编码设置,添加超时设置。)
v1.1.0更新说明:
添加编码设置,添加超时设置。
使用教程(采集以官网为例,官方允许采集但需要添加源码,未经授权请勿采集其他人,否则后果自负):
规则模式:
地址规则的采集变量是数字类型,替换为规则地址中的[hs_id]。起始ID和结束ID为采集的范围,例如填写规则地址:[hs_id]-1.html,填写起始ID:1,填写结束ID: 5、以下URL的内容将是采集:
http://www.hadsky.com/read-1-1.html
http://www.hadsky.com/read-2-1.html
http://www.hadsky.com/read-3-1.html
http://www.hadsky.com/read-4-1.html
http://www.hadsky.com/read-5-1.html
指定模式:
采集地址为指定地址,多个地址用回车分隔。可以填写不同的网址,例如:
http://www.hadsky.com/read-1-1.html
http://www.hadsky.com/read-2-1.html
http://www.baidu.com/read-1-1.html
http://www.qq.com/read-1-1.html
http://www.taobao.com/read-7-1.html
PS:默认设置是5秒超时。如果 采集 URL 超时,该 URL 的 采集 将被自动放弃。
标题规则:
获取内容的标题部分采集,这里是正则表达式,例如:
([\s\S]+?)
<p>推荐使用([\s\S]+?)规则搜索标题部分,([\s\S]+?)找到的数据将作为