网站程序自带的采集器采集文章(用织梦管理系统自带的采集器来采集一个网站(组图))
优采云 发布时间: 2022-03-05 18:12网站程序自带的采集器采集文章(用织梦管理系统自带的采集器来采集一个网站(组图))
一个*敏*感*词*的信息网站织梦cms采集规则,渠道多,网站数据多,不可能每条都有数据由网站管理员一一发送!这时,为了节省人力物力,采集器诞生了(做优化的朋友,作者不建议大家使用)!接下来笔者将使用织梦管理系统自带的采集器来采集一个网站数据,给大家演示一下采集规则是怎么写的!
工具/材料织梦管理系统
授权账户
Step 1 织梦cms采集规则:新建文章采集节点登录织梦管理后台,依次点击
采集>>采集节点管理>>添加新节点>>选择普通文章>>确定
第二步织梦cms采集规则:填写采集列表规则节点名称:随便(注意要能区分,因为如果有太多很多节点,可能会搞乱混淆)
目标页面代码织梦cms采集规则:看目标页面的代码(比如我的采集的网站的代码是GB231< @2)
匹配网址:进入采集目标列表页面织梦cms采集规则查看其列表规则!比如很多网站列表的首页和其他内页有很大的不同,所以我一般不会采集定位列表的首页!比如我演示的网站的列表规则是在首页设置一个默认首页,后面的实际路径是看不到的,如图:
因此,我们只能从第二页开始(虽然第一页可以找到,但是很多网站根本没有第一页,所以这里不讲如何找到第一页), !让我们比较一下采集目标页面的第二页和第三页!如图所示:
可以看到,这两页是定期递增的,第二页是list_2!第三页是list_3!因此,我们将匹配的 URL 写为
上面的一个(*)代表列表页的2,或3,或4,或更多!在第三个水平条上,我写了一个从2到5的(*),意思是从2到5,每增加一个+1就匹配到(*)而不是(*)!
区域开始的 HTML:采集 目标列表页面中的开源代码!在 文章 标题前面附近寻找一段将成为 采集 的段落,这是该页面和其他将成为 采集 的页面上的唯一 html 标记!
区末HTML:在采集目标列表页面打开源代码!在 文章 的标题附近寻找一个 html 标记,该标记将是 采集,并且对于该页面和其他将要成为 采集 的页面来说是唯一的!
在其他地方,我们还没有使用它,你可以不用管它!这样,列表页的规则就写好了!下图是我写的列表规则截图!
写好后点击保存信息,进入下一步!如果规则写对了,那么就会有一个带内容的URL获取规则测试:如下图
再按下一步!回车填写采集内容规则
第二步:填写采集Content Rules文章Title:找文章title前后两个标签,可以识别title!我的采集的网站的文章标题前后唯一的标签是……,所以我写成[内容]。
文章内容:寻找文章内容前后的两个标签来识别内容!我的 采集 的 网站 的 文章 内容之前和之后的唯一标签是……