关键句采集 原创(百度推出飓风算法,严厉打击恶劣采集站,很多站点不幸中招)
优采云 发布时间: 2022-01-29 08:20关键句采集 原创(百度推出飓风算法,严厉打击恶劣采集站,很多站点不幸中招)
【张亚南】近日,百度推出飓风算法打击不良采集网站。许多站点不幸遭到袭击,交通一夜之间恢复到解放前。我研究了百度和谷歌的文档,详细定位算法的命中范围。
百度公告
我们先来看看百度的官方公告,内容如下:
百度搜索近期推出飓风算法,旨在严厉打击以不良采集为主要内容来源的网站。同时,百度搜索将从索引库中彻底剔除不良采集链接,为优质链接原创内容提供更多展示机会,促进搜索生态健康发展。飓风算法会例行生成惩罚数据,同时会根据情况随时调整迭代,体现了百度搜索对不良采集的零容忍。如果优质原创站点发现站点索引大幅下降,流量明显下降,可以在反馈中心进行反馈。
飓风算法分析
根据官方文档,Hurricane 算法点击的是网站,而不是网页;它主要针对以不良采集为主要内容来源的网站,而不是所有收录不良内容的网站。
什么算坏事采集
不良采集内容一般是指不花费时间、精力、专业能力、人工整合的内容,或者对用户没有附加价值的内容。
有以下类型的内容:
来自其他网站的内容 采集。包括整个页面的内容是采集,主题的内容是采集,或者是多条采集的内容。这种类型的内容很容易识别。采集 之后轻微处理的内容。包括修改一些单词,修改一些句子,或者使用单词批量替换的形式(伪原创工具的一部分)。这种类型的识别稍微困难一些。来自某些动态站点 采集 的内容。包括采集其他搜索引擎的搜索结果(火端搜索),采集新闻提要。
注意几点:主要内容,不好采集,附加值。
什么不被认为是坏的采集
群里也有朋友问为什么有的网站也是采集,但是没有受到影响,比如某一个doc,某一个wave。其实只要达到了某一点,就不算差采集,重点是:给用户带来附加值。
有两种类型的附加值:网站增益和内容增益。这时候可以引用百度搜索技术博客《论互联网页面的价值》的一段话:
有人发表了一篇关于新闻事件的原创 博客,然后被新浪转发到新闻频道。就所描述的而言,这是重复。但是,这种重复只是主要内容的重复。一方面,它的转载带来了访问速度和稳定性方面的收获,后续检索用户也可能会使用“新闻事件+新浪”来检索这条新闻。这可以称为站点增益。另一方面,它可能会在转载过程中更改页面标题,根据其受众,在转载页面上可能会有更多有价值的评论和回复,以及指向其他相关事件的新闻。关联。这些可以称为内容增益。因此,即使题材内容没有变化,新浪的转载也是有价值的,稀缺性很高。同样,反过来,如果转发的 网站 相当未知,它不会带来站点名称/稳定性/速度增益。更有什者,转载后在页面上添加大量广告妨碍阅读,或者只转载不完整的部分内容。这样的转载,或者说采集,是纯粹的重复,和采集一样,和出处相比,没有检索价值。综上所述,对于主要内容重复的页面,我们应该评估它们是否具有站点增益和内容增益。只是对于大量没有任何收获的重复页面,我们应该认为它们的稀缺性很低。或仅转载内容的不完整部分。这样的转载,或者说采集,是纯粹的重复,和采集一样,和出处相比,没有检索价值。综上所述,对于主要内容重复的页面,我们应该评估它们是否具有站点增益和内容增益。只是对于大量没有任何收获的重复页面,我们应该认为它们的稀缺性很低。或仅转载内容的不完整部分。这样的转载,或者说采集,是纯粹的重复,和采集一样,和出处相比,没有检索价值。综上所述,对于主要内容重复的页面,我们应该评估它们是否具有站点增益和内容增益。只是对于大量没有任何收获的重复页面,我们应该认为它们的稀缺性很低。
这里的要点是:页面价值,增益
所以,只要能给用户带来站点增益、内容增益、附加价值,就说明这个网页有自己独特的价值,不会被飓风算法击中。
最后
百度的朋友透露,飓风算法主要针对没价值的采集,一旦被击中,无解。而误伤的优质原创可以通过反馈中心申诉。如何避免被飓风算法击中。(我将在下一篇文章 文章 中讨论它。)
百度近期战略调整,内容生态建设成为重中之重。打击不良采集内容势在必行。
我预测对采集的攻击和对原创的支持将是百度搜索内容的主旋律,飓风算法将持续更新。