用织梦管理系统自带的采集器来采集一个网站(组图)
优采云 发布时间: 2021-08-10 03:29用织梦管理系统自带的采集器来采集一个网站(组图)
一个大型新闻网站,渠道多,网站数据多。不可能每一条数据都被网站administrator 一一发送!这时候,为了节省人力物力,采集器诞生了(优化的朋友,我不建议大家使用)!接下来我就用织梦管理系统自带的采集器来采集一个网站数据来给大家看看采集规则是怎么写的!
工具/材料第一步:新建文章采集节点
登录织梦administration后台,依次点击
采集>>采集节点管理>>添加新节点>>选择普通文章>>确定
第2步:填写采集list规则
节点名:随便你(注意一定要能区分,因为节点太多可能会搞砸自己)
目标页面编码:看目标页面的编码(比如我的采集网站的编码是GB2312)
匹配网址:到采集目标列表页面查看其列表规则!比如很多网站列表的第一页和其他内页有很大的不同,所以我一般不会采集定位到列表的第一页!比如我演示的网站的列表规则就是在第一页设置一个默认首页,后面的实际路径是看不到的,如图:
所以,我们只能从第二页开始(虽然可以找到第一页,但是很多网站根本没有第一页,所以这里就不讲怎么找第一页了) ,!对比一下,采集目标页面的第二页和第三页!如图:
可以看到,这两个页面是有规律地递增的,第二个页面是list_2!第三页是list_3!所以,匹配的 URL 写成
上面的 (*) 代表列表页上的 2、或 3、或 4、或更多!在第三个横杆上,我写了一个(*) from 2 to 5,表示从2到5的+1的增量匹配的是(*)而不是(*)!
区域开头的HTML:在采集target列表页打开源码!在文章标题附近找到一个你想要采集的部分,这是这个页面上唯一的一个,其他想要采集的页面也是唯一的html标签!
区末HTML:在采集target列表页打开源码!在采集的文章标题附近找到这个页面上唯一的一个部分,其他需要采集的页面也是唯一的html标签!
其他地方,我们还没有用过,大家就别管了!这样,列表页的规则就写好了!下图是我写的列表规则截图!
完成,点击保存信息进入下一步!如果规则写对了,那么会有一个基于内容的URL获取规则测试:如下图
再次按下一步!回车填写采集content规则
第2步:填写采集content规则
文章Title:在文章Title前后找两个标签来识别标题!我的采集网站文章标题前后唯一的标签是...,就写[内容]。
文章Content:找到文章content前后两个标签,即可识别内容!我的采集网站文章内容前后唯一的标签是
...