采集的文章和关键词不符(飓风算法3.0——针对页面内容质量问题(组图) )
优采云 发布时间: 2021-10-04 03:09采集的文章和关键词不符(飓风算法3.0——针对页面内容质量问题(组图)
)
1.页面内容质量
1.1飓风算法3.0 —— 解决页面内容质量问题
百度搜索于2017年7月4日发布飓风算法,以严厉打击采集问题。2018年9月13日,宣布飓风算法升级到2.0版本。算法升级,飓风算法3.0上线。
飓风算法主要解决以下页面内容质量问题:
1.1.1 错误的 采集 行为:
(1)有大量来自其他网站、智能小程序或公众号等内容生产者的内容采集,内容被转移。信息不整合,布局混乱, 文章可读性差,有明显的采集痕迹,对用户没有任何增益价值。
问题示例1:文章有明显的采集痕迹
(2)多条文章拼接内容,文章逻辑差,不能满足用户需求,阅读体验差。
问题示例2:文章内容逻辑差,阅读体验差
(3)站点或智能小程序收录大量采集内容,自身内容生产力极差。
1.1.2个跨域采集问题:
指站点/智能小程序发布不属于站点/智能小程序域的内容,以获取更多流量。通常,这些内容是来自互联网的采集,内容质量和相关性较低,对搜索用户的价值较低。对于此类行为搜索,会判断为站点/智能小程序的域不够集中,对展示会有不同程度的限制。
跨域采集主要包括以下两类问题:
第一类:主站或首页的content/title/关键词/summary显示该站点有明确的领域或行业,但发布的内容与该领域无关或相关性低。
问题示例:食品智能小程序发布足球相关内容
第二类:站点/智能小程序没有明确的领域或行业,内容涉及多个领域或行业,领域模糊,领域关注度低。
问题示例:智能小程序的内容涉及多个字段
1.1.3 站群问题:
指批量构建多个站点/智能小程序以获取搜索流量的行为。站群中的大多数网站/智能小程序质量低、资源稀缺性、内容相似度高,甚至重复使用相同的模板,难以满足搜索用户的需求。
问题示例:多个智能小程序复用同一个模板,内容质量低,相似度高
关于飓风算法的更多信息,请参考:
2019.8.22【官方声明】飓风算法3.0解读
2019.8.8飓风算法3.0即将上线,控制跨域采集和站群问题
2018.9.20【官方声明】飓风算法2.0解读
2018.9.13百度搜索将推出飓风算法2.0,严厉打击采集不良行为
2017.7.4 百度推出飓风算法打击不良事件采集
1.2 金峰算法——针对不良聚合页面的问题
2020年2月,百度搜索技术团队发现部分网站和智能小程序利用恶意构建聚合页面内容获取搜索排名,获得搜索用户关注,并推出强风算法控制恶意构建问题聚合页面。搜索用户的影响。
聚合页面是指不收录文章主要内容的页面,而是以特定主题为中心的多个页面的索引链接的信息整合页面。
聚合页面不良问题主要包括以下四种:
(1)页面内容与站点本身域名不匹配,或者站点没有重点区域,多为采集拼凑内容。
问题示例一:网站内容分散
(2)页面内容与页面上标注的标题和标签不符。
问题示例2:页面内容与标题不符
(3) 由网站 搜索功能生成的静态搜索结果页面。
问题示例3:静态搜索结果页面
(4)短空,无有效信息,无效聚合页。
问题示例4:没有有效信息的聚合页面
更多关于金峰算法的信息,请参考:
2020.3.5 【官方解读】金峰算法官方解读
2020.2.27金峰算法即将上线
1.3 Drizzle Algorithm2.0-针对B2B领域的低质量问题
2018年6月,百度搜索发布细雨算法,规范和引导B2B行业的网站利益问题。
2019年11月,百度搜索发布了毛毛雨算法2.0,针对B2B行业和低质量内容的严酷违规行为。
毛毛雨算法主要解决以下问题:
1.3.1 作弊和误导性的页面标题:
(1)不是公司官网,标题中含有“官网”等字眼,误导搜索用户以为是官网
示例问题 4:
(2)页面标题类似于关键词;
示例问题 5:
(3)在页面标题中穿插火星文字或特殊符号会影响正常阅读;
问题示例6:
(4)在页面标题中穿插了福利方法。
示例问题 7:
1.3.2 页面正文中有福利信息:
(1)正文内容不全,经常穿插变形的好处。
具体:主体内容为无价值内容的拼接或主体内容不完整,同时“英文字母”、“汉字谐音”、“特殊符合”、“全角符合”等使用方法代替*敏*感*词*,穿插在主体内容中。
例:5992 八⑧⑧⑧
例如:
示例问题 8: