网站程序自带的采集器采集文章(用织梦管理系统自带的采集器来采集一个网站(组图))

优采云发布时间: 2022-03-05 18:12

　　一个*敏*感*词*的信息网站织梦cms采集规则，渠道多，网站数据多，不可能每条都有数据由网站管理员一一发送！这时，为了节省人力物力，采集器诞生了（做优化的朋友，作者不建议大家使用）！接下来笔者将使用织梦管理系统自带的采集器来采集一个网站数据，给大家演示一下采集规则是怎么写的！

　　工具/材料织梦管理系统

　　授权账户

　　Step 1 织梦cms采集规则：新建文章采集节点登录织梦管理后台，依次点击

　　采集>>采集节点管理>>添加新节点>>选择普通文章>>确定

　　第二步织梦cms采集规则：填写采集列表规则节点名称：随便（注意要能区分，因为如果有太多很多节点，可能会搞乱混淆）

　　目标页面代码织梦cms采集规则：看目标页面的代码（比如我的采集的网站的代码是GB231< @2）

　　匹配网址：进入采集目标列表页面织梦cms采集规则查看其列表规则！比如很多网站列表的首页和其他内页有很大的不同，所以我一般不会采集定位列表的首页！比如我演示的网站的列表规则是在首页设置一个默认首页，后面的实际路径是看不到的，如图：

　　因此，我们只能从第二页开始（虽然第一页可以找到，但是很多网站根本没有第一页，所以这里不讲如何找到第一页），！让我们比较一下采集目标页面的第二页和第三页！如图所示：

　　可以看到，这两页是定期递增的，第二页是list_2！第三页是list_3！因此，我们将匹配的 URL 写为

　　上面的一个（*）代表列表页的2，或3，或4，或更多！在第三个水平条上，我写了一个从2到5的（*），意思是从2到5，每增加一个+1就匹配到（*）而不是（*）！

　　区域开始的 HTML：采集目标列表页面中的开源代码！在文章标题前面附近寻找一段将成为采集的段落，这是该页面和其他将成为采集的页面上的唯一 html 标记！

　　区末HTML：在采集目标列表页面打开源代码！在文章的标题附近寻找一个 html 标记，该标记将是采集，并且对于该页面和其他将要成为采集的页面来说是唯一的！

　　在其他地方，我们还没有使用它，你可以不用管它！这样，列表页的规则就写好了！下图是我写的列表规则截图！

　　写好后点击保存信息，进入下一步！如果规则写对了，那么就会有一个带内容的URL获取规则测试：如下图

　　再按下一步！回车填写采集内容规则

　　第二步：填写采集Content Rules文章Title：找文章title前后两个标签，可以识别title！我的采集的网站的文章标题前后唯一的标签是……，所以我写成[内容]。

　　文章内容：寻找文章内容前后的两个标签来识别内容！我的采集的网站的文章内容之前和之后的唯一标签是……

0

2022-03-05

网站程序自带的采集器采集文章

0 个评论

要回复文章请先登录或注册