文章cms采集(大鸟三篇帝国后台采集教程.2如何采集内容教程)
优采云 发布时间: 2022-01-20 13:19文章cms采集(大鸟三篇帝国后台采集教程.2如何采集内容教程)
大鸟最近在玩帝国。他们都说帝国强大而安全。他们说大鸟也在尝试。看到帝国后台有一个采集,大鸟觉得很方便,于是摆弄了一阵。成功了,在此记录下来,希望可以帮助到需要的人!大鸟也在网上找到了教程,但是百度体验里面的教程看不懂。太笼统了。大鸟还是觉得自己写的很详细。
大鸟三帝国后台采集教程系列
Empire7.2后台cms采集代码采集规则编写教程 Empire7.2后台采集过滤替换技巧 Empirecms 7.2如何采集内容分页教程
采集代码其实不难写,只要点击html就可以找到页面代码的区别@>节点
我要采集去的栏目是【推广技巧】我要采集去的网站栏目是网外圈子的【网络推广】栏目
我们先输入节点的名称采集,这里只要知道就可以随意填写名称
重要的第一步页面链接
我们发现在打开第一、二、三页时,只有浏览器地址栏中的最后一个数字发生了变化。总共有四页,但第一页没有数字。
但是如果我们把数字改成1,就会跳转到第一页
然后我们的页面地址只需用我们的变量替换最后一个数字
然后从 1 到 4 的区间倍数 1
内容页地址前缀取决于我们的内容页地址的变化来决定如何填写或不填写,我们暂时跳过它!
第 2 步 / 页面链接区域和页面链接
信息页链接区是指所有信息页链接集中的页面块。
我们编写规则以在 采集器 之前和之后使用标签来识别某个块的内容,并且
是这篇文章中指向我们信息页面的唯一链接
我们先复制第一个链接的标题,然后在源码中查找
我们发现从这里到下面是链接和标题,这两段代码的组合在源代码中是唯一的,
所以我们规则的第一段写成
这里是区域的结束这个代码也是唯一的,那么我们就用这个结束
将区域的代码添加到我们的变量中以获取
[!--smallurl--]
当然,这个网站的采集代码更容易找到
像一些网站,如果没有这么明显的标记,可以通过标签组合的方式获取
接下来,获取信息页面的链接
页面中的每一个链接都是一个段落,所以在源码中也是一样的
我们发现H3标签中的页面链接在每个段落中只出现一次
然后我们把链接地址换成变量,把汉字换成*任意字符而不是采集 代码是这样的
*
第三步,标题
我们进入某个内容页面,使用百度浏览器的review元素或者直接在源码中找到标题的规则
然后在源码中查看是唯一的,然后替换我们的变量是
[! - 标题 - ]
第四步:内容主体的采集
我们查看了源码,发现这是起点,找到了唯一的完整标签
也到此结束
途中任何用红圈圈起来的东西都可以作为独特的标签
我们只需将变量替换为 1 并获取 采集 代码
[!--newstext--]
第五步:提交规则
我们发现是乱码,然后在外网的源文件中发现是UTF-8,我们把编码改成UTF-8
再次预览,发现有广告,所有的广告都一样,那我们直接过滤
第六步,采集直接采集,全部入库采集完成
如果有什么不明白的或者需要详细的,可以给我留言。当你在这里看到它时,有人可能会问。如果你写广告代码或写文字如何过滤?本教程将在这里使用。《帝国7.2后台采集过滤替换技能》