文章采集规则(在设置采集规则的时候,有哪些注意事项?有什么注意事项)
优采云 发布时间: 2021-08-28 01:24文章采集规则(在设置采集规则的时候,有哪些注意事项?有什么注意事项)
在这个日益浮躁的社会中,越来越多的人期望事情变得越来越简单。尤其是对于瞬息万变的互联网,需要时间仔细思考的事情并不适合。以网站operations 为例。虽然完整的原创文章对网站优化排名很有帮助,但是网站的大部分操作都不是很能写,再加上题材。时间限制和规律性。一个网站完全通过原创和全部手工操作,是非常困难的,特别是一些信息网站,商城网站,视频网站网站,里面有很多这样的页面和快速的内容更新要求,无论是内容构建还是外链发布都是一项庞大而复杂的任务,无论是时间还是成本,人工完成都是不划算的。因此,有时我们需要一些工具的帮助。 采集 工具就是其中之一。
目前网站采集中使用频率较高的采集工具有优采云采集工具、织梦自己的dede采集tools、采集tools。网上有很多对比,点百度就知道了,网上也有很多关于采集rules的设置策略,大同小异,本文就不多解释了对童鞋感兴趣的可以自行搜索。小美今天想跟大家分享的是采集规则设置时有哪些注意事项?
一、采集起止码设置
在采集规则设置中,很重要的一步就是采集起止码的设置。它通常是一小段代码,主要是“数字/英文+符号”的形式。代码越短,越不容易出错,而且需要是唯一的,这样机器才能快速识别采集的开始和结束位置。在网上教程中,这个起止码一般是一个完整的部分,比如[Content],这里是采集的开始位置,[Content]代表采集需要的部分信息,就是采集的结束位置采集位置,很多人会误以为起止代码一定是完整的section,其实不然。
有两种,如下图:
某部分代码,甚至是混入中文的代码,也可以作为采集的开始和结束代码,可以去除部分带有网站专有标识的网站内容开始和结束。
二、title采集Settings
标题采集很简单,有两种方式,如下图:
在需要采集的页面右击选择“查看源代码”,在打开的页面中使用快捷键Ctrl+F,在出现的搜索栏中输入采集内容的标题,并且可以查看 这个页面的标题规则一般是标题标签和H标签,数量从1到4不等。一般一个页面上同时存在两种标题标签。在这种情况下,使用 H 标签将比标题标签采集 更不容易出错。
需要注意的是,有时H标签有H1标签、H2标签、H3标签等,一般只使用H1标签。
三、分页采集规则设置
有些网站因为文章太长或者想提高点击率,经常把一篇文章的文章分成几页来呈现。在这种情况下,采集 的开始和结束代码不在同一页面上。相反,您应该在文章start 页面上查找采集 开始代码,并在文章 结束页面上查找结束代码。设置以下内容:
四、可能导致采集失败的几个因素
1、网站隐藏内容被禁止采集。在这种情况下,以腾讯新闻为例。腾讯新闻的内容不会显示在开源代码页中,因此无法区分文章的开始和结束位置,也不能将采集与其网站内容分开。
2、网站采集 出错了。大多数网站内容在网页和代码中显示正常,但当采集到达目标网站时显示错误。这种错误分为几类:
A.标题错了。如下图,文章的内容会全部集中在标题上。
B.只有采集进入标题,内容为空白。即相关内容不能是采集。
C、采集终止符无效,采集内容收录采集网站上的广告/版权信息/尾部信息等信息。
这些是采集经常遇到的问题。了解这些对采集和伪原创有很大帮助。虽然我们不建议在优化中使用采集,但在必要时了解采集规则仍然有利于网站操作。原文出处:美育宝防辐射服,专题内容请保留原文链接。谢谢!