解读:采集内容要不得，会给网站带来很多问题

优采云发布时间: 2022-10-27 12:26

　　内容无法控制：文章内容不能删除他人信息，帮助他人推广；采集内容容易引起误解：你无法确定别人的消息是否属实；不尊重他人的版权；K站

　　图 9285-1：

　　“内容为王，外链为王”这句话可以成为SEO的历史。无论是新手站长还是老手，优化这两方面都已经成为一种习惯。但是博主看到有站长说：网站优化不需要原创的内容，现在搜索引擎还不是很成熟，无法判断网站是不是真的原创内容。他说的是对的，搜索引擎可能无法判断，有些采集网站也会被蜘蛛收录，但是作为常规的网站，采集的内容采集的内容是不能接受的，采集的内容对网站有什么弊端。

　　第一：内容无法控制。为了节省时间，很多站长使用采集的工具。采集的工具也很不完善。采集的内容不智能。文章内容不能去掉别人的信息，所以是无意间帮助别人宣传的，别人写的文章肯定符合你的网站标准。同行业的网站中的采集经常会帮别人宣传信息，这不值得。

　　第二：采集内容容易被误解。这种情况对于新闻门户网站来说是很常见的，新闻网站每天都会更新很多新内容，有的网站找不到好的新闻来源，那他们就会考虑采集别人的内容，但是别人的新闻内容还没有得到你的证实，你无法确定别人的新闻是真是假，报道错误新闻的事件很多。你一开始不知道这个消息，但是你采集来了，结果是假消息，你的网站也会受到牵连，不是说你失去了你的妻子吗？并失去了你的军队。

　　第三：不尊重他人的版权。很多时候站长在采集的时候，会删除别人的链接和宣传信息。如果其他人的网站处于不稳定状态，则说明原创发布的内容尚未收到。很正常的收录，但是你的采集已经是收录了，此时你面临的版权问题也会让站长们头疼。博主的微博营销站点往往是采集，看到这样的采集的人会很生气，正常人会找到你，要求你删除文章，否则版权所有。即使互联网的版权不被尊重，当别人用自己的努力找到你的时候，你也要尊重别人的版权。这不是又一次浪费时间吗？

　　第四：容易被K站。内容为王，优质的内容可以提供网站权重。站长不得不承认这个观点，网站有了高质量的内容，权重的增加会更快。抛开采集网站的权重，对于普通的网站，蜘蛛经常爬采集其他人的内容的频率会降低。蜘蛛喜欢新鲜，它们会存储在数据库中。当相同内容过多时，会考虑屏蔽一些相同内容，同时网站采集内容过多，蜘蛛会认为这样的网站是作弊，尤其是新站点，不要为了快速增加网站的内容而去采集内容，这种方法是不可取的。

　　如果你想增加网站的权重，如果你不想从原创的文章开始，仅仅依靠外链的开发是不够的。内容和外链的建设缺一不可。领导者应该从原创的内容开始。虽然很难说原创的内容，但采集的内容却是不可取的。最坏的情况是学习如何写好伪原创。

　　实用文章:Xpath方法精准采集网页内容-完整版

　　采集在配置规则时，主要的问题是如何只采集网页上的有效内容。

　　现在新一代的采集工具将首先智能自动配置采集规则，效果和准确度将取决于每个采集器的智能算法。

　　但是如果有特殊需要，要采集网页上特定区域的内容，就得修改智能算法配置的采集规则，重新定位采集的内容>。

　　一般有几种方法可以精确定位到采集的内容：

　　1、前后截取：确定首尾都有特定的唯一词，获取两个特定词之间的内容；

　　2、正则抽取：需要了解正则语法，找到每个文章的共同点，编写对应的正则匹配公式，抽取出需要的内容，开发者普遍理解；

　　3、Xpath提取：需要查看html代码，然后写入对应内容区的xpath路径；

　　4、其他特殊方法：不同的采集器可能有特殊的方法获取内容，比如优采云采集器的可视化鼠标点击自动生成采集规则等非常人类

　　除了特殊的方法，只有采集器中普遍可用的方法，我推荐使用Xpath提取方法。

　　因为只需要查找html标签的id或者class属性，就可以快速准确定位98%的采集内容区域，简单快捷！

　　即使不看html标签，也可以使用浏览器的内置函数来获取Xpath路径：

　　在浏览器中，右击查看，然后在右侧弹出的html代码窗口中，点击要获取的内容，然后右击，选择复制，再点击复制Xpath即可获得Xpath路径标签。

　　1.html属性Xpath定位采集内容区（key）

　　语法格式：//*[@attribute="value"]

　　属性一般是找id或者class，属性是id比较好，因为一个id的值只能是唯一值，不允许重复；

　　例子：

　　假设我们要获取图中的a标签，它有id属性main，套用语法格式，把属性改成id，把值改成main，

　　也就是说，Xpath 路径应该是 //*[@id="main"]

　　实际操作：

　　假设我们要获取页面正文部分的 Xpath

　　一、在浏览器中访问文章页面，然后右键查看，进入浏览器开发模式（或代码模式）；

　　二、查看对应body的html标签是否有特殊属性（即id或class），发现有class="mt-md wzzPd in2"，并且用ctrl+F5搜索方式是唯一的，可以使用这个属性作为 Xpath 位置；

　　三、根据XPath语法：//*[@attribute="value"]，将attribute="value"替换为获取的属性类

　　即 //*[@class="mt-md wzzPd in2"]

　　填入采集器中对应的Xpath，就大功告成了。下图中的例子是优采云采集器。

　　2、Xpath的其他基本语法一、选择对应的子标签，即下一层的标签

　　语法格式：/

　　以下示例 Xpath 为：/html/body/p/a

　　意思是获取html标签下的子标签body，body下的子标签p，p下的子标签a，结果就是下图第10行对应的a标签；

　　二、选择对应的后代标签，即不考虑嵌套位置。

　　语法格式：//

　　以下示例 Xpath 为：/html/body/p//a

　　意思是获取html标签下的子标签body，body下的子标签p，以及p下的所有标签a，结果就是下图中第10行和第12行对应的a标签；

　　三、选择前几个标签

　　语法格式：/[数字]

　　以下示例 Xpath 为：/html/body/p/a[2]

　　意思是获取html标签下的子标签body，body下的子标签p，p下的第二个标签a，结果就是下图第11行对应的a标签；

0

2022-10-27

采集的文章内容不能直接发布

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

解读:采集内容要不得，会给网站带来很多问题

0 个评论

发起人

AI时代内容工厂

解读:采集内容要不得，会给网站带来很多问题

0 个评论

发起人

相关问题