文章采集规则(在设置织梦采集规则的时候,有哪些注意事项?)

优采云 发布时间: 2022-04-03 18:07

  文章采集规则(在设置织梦采集规则的时候,有哪些注意事项?)

  在这个日益浮躁的社会中,越来越多的人期望事情变得越来越容易。尤其是在瞬息万变的互联网时代,需要时间去思考的东西是不适合的。以网站操作为例,虽然完整的原创文章对网站优化排名很有帮助,但是网站操作的写法大部分能力是不高,加上题材的限制和时间的规律性,完全通过原创和人工操作和优化一个网站是非常困难的,尤其是对于一些信息类型网站、商城类型网站、视频类型网站等此类页面类型网站,内容更新要求快,无论是内容建设,还是外链发布,都是一项庞大而复杂的任务,无论是从时间上还是从成本上,手工去做都不划算。因此,有时我们需要借助一些工具。采集工具就是其中之一。

  目前网站采集中最常用的采集工具是优采云采集工具和织梦自己的dede采集工具,采集网上有很多工具的优劣对比,百度一下就知道了,网上也有很多织梦采集规则设置的攻略,都差不多,所以本文就不多解释了,有兴趣的童鞋可以自行搜索看看。今天要和大家分享的是,设置织梦采集规则有哪些注意事项?

  一、采集开始和结束代码设置

  在织梦采集规则设置中,很重要的一步就是采集开始码和结束码的设置。一般是一小段代码,主要是“数字/英文+符号”的形式。代码越短,越不容易出错,并且需要唯一性,以便机器能够快速识别采集的开始和结束位置。在线教程中,这个起停代码一般是一个完整的段落,比如[content],这里是开始采集的位置,[content]代表需要采集的部分信息,是end采集 位置,很多人会误以为起止代码一定是一个完整的段落,其实不然。

  如下图二:

  

  

  代码的某一部分,甚至是混有中文的代码,也可以作为采集的起止码,可以去掉一些网站内容,上面带有网站特殊标识开始和结束。

  二、标题采集设置

  标题采集很简单,有两种方式,如下图所示:

  

  在需要采集的页面右击选择“查看源代码”,在打开的页面中使用快捷键Ctrl+F,在搜索中输入采集的内容标题显示查看它的栏。页面的标题规则一般是标题标签和H标签,数量从1到4不等。一般页面上两种标题标签并存。在这种情况下,使用 H 标记比标题标记 采集 更不容易出错。

  需要注意的是,有时H标签有H1标签、H2标签、H3标签等,一般只使用H1标签。

  三、分页织梦采集规则设置

  有的网站经常因为文章篇幅过长或者想提高点击率,把一篇文章文章分成几页呈现。在这种情况下,采集的起始码和结束码不在同一个页面,但是采集起始码应该在文章起始页上找到,结束码应该是在 文章 end page 找到,设置如下:

  

  四、可能导致 采集 失败的几个因素

  1、网站禁止隐藏内容采集。以腾讯新闻为例,腾讯新闻的内容不会在开源代码页展示,所以无法确定文章的起止位置,也无法确定采集对其< @网站 内容。

  2、网站采集错误。网站 的大部分内容在页面和代码中看起来都很好,但是当 采集 转到目标网站 时会显示错误。此类错误分为几类:

  A. 标题错误。如下图所示,文章的内容会集中在标题上。

  

  B、只有采集去标题,内容为空。也就是说,无法采集到相关内容。

  C、采集的终止符无效,采集的内容包括采集网站上张贴的广告/版权信息/页脚信息等信息。

  

  这些都是采集中经常遇到的问题,理解它们对采集和伪原创会有很大帮助。虽然我们不推荐使用 采集 方法进行优化,但如有必要,了解 织梦采集 规则将有利于 网站 操作。.

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线