解读:采集内容要不得,会给网站带来很多问题

优采云 发布时间: 2022-10-27 12:26

  解读:采集内容要不得,会给网站带来很多问题

  内容无法控制:文章内容不能删除他人信息,帮助他人推广;采集内容容易引起误解:你无法确定别人的消息是否属实;不尊重他人的版权;K站

  图 9285-1:

  

  “内容为王,外链为王”这句话可以成为SEO的历史。无论是新手站长还是老手,优化这两方面都已经成为一种习惯。但是博主看到有站长说:网站优化不需要原创的内容,现在搜索引擎还不是很成熟,无法判断网站是不是真的原创内容。他说的是对的,搜索引擎可能无法判断,有些采集网站也会被蜘蛛收录,但是作为常规的网站,采集的内容采集的内容是不能接受的,采集的内容对网站有什么弊端。

  第一:内容无法控制。为了节省时间,很多站长使用采集的工具。采集 的工具也很不完善。采集 的内容不智能。文章内容不能去掉别人的信息,所以是无意间帮助别人宣传的,别人写的文章肯定符合你的网站标准。同行业的网站中的采集经常会帮别人宣传信息,这不值得。

  第二:采集内容容易被误解。这种情况对于新闻门户网站来说是很常见的,新闻网站每天都会更新很多新内容,有的网站找不到好的新闻来源,那他们就会考虑采集别人的内容,但是别人的新闻内容还没有得到你的证实,你无法确定别人的新闻是真是假,报道错误新闻的事件很多。你一开始不知道这个消息,但是你采集来了,结果是假消息,你的网站也会受到牵连,不是说你失去了你的妻子吗?并失去了你的军队。

  

  第三:不尊重他人的版权。很多时候站长在采集的时候,会删除别人的链接和宣传信息。如果其他人的 网站 处于不稳定状态,则说明 原创 发布的内容尚未收到。很正常的收录,但是你的采集已经是收录了,此时你面临的版权问题也会让站长们头疼。博主的微博营销站点往往是采集,看到这样的采集的人会很生气,正常人会找到你,要求你删除文章,否则版权所有。即使互联网的版权不被尊重,当别人用自己的努力找到你的时候,你也要尊重别人的版权。这不是又一次浪费时间吗?

  第四:容易被K站。内容为王,优质的内容可以提供网站权重。站长不得不承认这个观点,网站有了高质量的内容,权重的增加会更快。抛开采集网站的权重,对于普通的网站,蜘蛛经常爬采集其他人的内容的频率会降低。蜘蛛喜欢新鲜,它们会存储在数据库中。当相同内容过多时,会考虑屏蔽一些相同内容,同时网站采集内容过多,蜘蛛会认为这样的网站是作弊,尤其是新站点,不要为了快速增加网站的内容而去采集内容,这种方法是不可取的。

  如果你想增加网站的权重,如果你不想从原创的文章开始,仅仅依靠外链的开发是不够的。内容和外链的建设缺一不可。领导者应该从原创的内容开始。虽然很难说原创的内容,但采集的内容却是不可取的。最坏的情况是学习如何写好伪原创

  实用文章:Xpath方法精准采集网页内容-完整版

  采集在配置规则时,主要的问题是如何只采集网页上的有效内容。

  现在新一代的采集工具将首先智能自动配置采集规则,效果和准确度将取决于每个采集器的智能算法。

  但是如果有特殊需要,要采集网页上特定区域的内容,就得修改智能算法配置的采集规则,重新定位采集的内容>。

  一般有几种方法可以精确定位到采集的内容:

  1、前后截取:确定首尾都有特定的唯一词,获取两个特定词之间的内容;

  2、正则抽取:需要了解正则语法,找到每个文章的共同点,编写对应的正则匹配公式,抽取出需要的内容,开发者普遍理解;

  3、Xpath提取:需要查看html代码,然后写入对应内容区的xpath路径;

  4、其他特殊方法:不同的采集器可能有特殊的方法获取内容,比如优采云采集器的可视化鼠标点击自动生成采集规则等非常人类

  除了特殊的方法,只有采集器中普遍可用的方法,我推荐使用Xpath提取方法。

  因为只需要查找html标签的id或者class属性,就可以快速准确定位98%的采集内容区域,简单快捷!

  即使不看html标签,也可以使用浏览器的内置函数来获取Xpath路径:

  在浏览器中,右击查看,然后在右侧弹出的html代码窗口中,点击要获取的内容,然后右击,选择复制,再点击复制Xpath即可获得Xpath路径标签。

  1.html属性Xpath定位采集内容区(key)

  语法格式://*[@attribute="value"]

  

  属性一般是找id或者class,属性是id比较好,因为一个id的值只能是唯一值,不允许重复;

  例子:

  假设我们要获取图中的a标签,它有id属性main,套用语法格式,把属性改成id,把值改成main,

  也就是说,Xpath 路径应该是 //*[@id="main"]

  实际操作:

  假设我们要获取页面正文部分的 Xpath

  一、在浏览器中访问文章页面,然后右键查看,进入浏览器开发模式(或代码模式);

  二、查看对应body的html标签是否有特殊属性(即id或class),发现有class="mt-md wzzPd in2",并且用ctrl+F5搜索方式是唯一的,可以使用这个属性作为 Xpath 位置;

  三、根据XPath语法://*[@attribute="value"],将attribute="value"替换为获取的属性类

  即 //*[@class="mt-md wzzPd in2"]

  填入采集器中对应的Xpath,就大功告成了。下图中的例子是优采云采集器。

  

  2、Xpath的其他基本语法一、选择对应的子标签,即下一层的标签

  语法格式:/

  以下示例 Xpath 为:/html/body/p/a

  意思是获取html标签下的子标签body,body下的子标签p,p下的子标签a,结果就是下图第10行对应的a标签;

  二、选择对应的后代标签,即不考虑嵌套位置。

  语法格式://

  以下示例 Xpath 为:/html/body/p//a

  意思是获取html标签下的子标签body,body下的子标签p,以及p下的所有标签a,结果就是下图中第10行和第12行对应的a标签;

  三、选择前几个标签

  语法格式:/[数字]

  以下示例 Xpath 为:/html/body/p/a[2]

  意思是获取html标签下的子标签body,body下的子标签p,p下的第二个标签a,结果就是下图第11行对应的a标签;

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线