内容采集(百度搜索资源平台将搜索算法进行梳理及更新,汇编为《》 )
优采云 发布时间: 2022-04-02 03:11内容采集(百度搜索资源平台将搜索算法进行梳理及更新,汇编为《》
)
seo朋友都知道,百度搜索一直致力于与开发者合作,为亿万搜索用户提供优质可信的内容和安全便捷的搜索体验。搜索算法是确保搜索安全和内容质量的重要防线。百度搜索资源平台特此对搜索算法进行梳理和更新,并汇编成《百度搜索算法规范详解》,系统明确了搜索优化过程中不允许出现的违规行为以及需要操作的“雷点”要避免,帮助发展更好地提高自身资源的质量。
1.页面内容质量1.1 飓风算法3.0——针对页面内容质量问题
百度搜索于 2017 年 7 月 4 日发布了飓风算法,以打击不良 采集 问题。2018年9月13日,宣布飓风算法升级至2.0版本。算法升级,飓风算法3.0上线。
飓风算法主要针对以下页面内容质量问题:
1.1.1 错误采集行为:
(1)其他网站,智能小程序或公众号等内容很多。采集,内容转,信息不整合,版面凌乱, 文章可读性差,有明显采集痕迹,对用户没有增益价值。
问题示例1:文章有明显的采集痕迹
(2)文章拼接内容多段,文章逻辑性差,不能满足用户需求,阅读体验差。
问题示例2:文章内容逻辑性差,阅读体验差
(3)网站或者智能小程序里面有很多采集内容,本身的内容生产力极差。
1.1.2 横切采集问题:
指站点/智能小程序发布不属于站点/智能小程序域的内容,以获取更多流量。通常,这些内容是来自互联网的采集,内容质量和相关性较低,对搜索用户的价值较低。对于此类行为搜索,将判断站点/智能小程序在该领域的关注度不够,会有不同程度的限制。
跨域采集主要包括以下两类问题:
第一类:主站点或首页的内容/标题/关键词/summary,表明该站点有明确的领域或行业,但发布的内容与该领域无关,或相关性较低。
问题示例:在食品智能小程序中发布与足球相关的内容
第二类:站点/智能小程序没有明确的领域或行业,内容涉及多个领域或行业,领域模糊,领域关注度低。
问题示例:智能小程序内容覆盖多个领域
1.1.3 站群问题:
指批量构建多个站点/智能小程序以获取搜索流量的行为。站群中的站点/智能小程序大部分质量低、资源稀缺性低、内容相似度高,甚至重复使用同一个模板,难以满足搜索用户的需求。
问题示例:多个智能小程序复用同一个模板,内容质量低,相似度高
有关飓风算法的更多信息,请参阅:
2019.8.22【官方声明】飓风算法解读3.0
2019.8.8飓风算法3.0即将上线,控制跨域采集和站群问题
2018.9.20【官方声明】飓风算法解读2.0
2018.9.13百度搜索将推出飓风算法2.0,打击不良采集行为
2017.7.4百度推出飓风算法打击不良采集
1.2 Gale 算法 - 针对不良聚合页面问题
2020年2月,百度搜索技术团队发*敏*感*词*峰算法控制恶意构建聚合页面问题. 搜索用户影响。
聚合页面是指没有文章主要内容的页面,而是围绕特定主题的信息集成页面的多个页面的索引链接。
不良聚合页面问题主要包括以下四种:
(1)页面内容与站点本身的字段不匹配,或者站点没有焦点字段,大部分是一段内容采集。
问题示例 1:站点内容区域碎片化
(2)页面内容与页面中标注的标题和标签不符。
问题示例2:页面内容与标题不匹配
(3)由网站 搜索功能生成的静态搜索结果页面。
问题示例 3:静态搜索结果页面
(4)空短,无有效信息,无效聚合页面。
问题示例 4:没有有效信息的聚合页面
有关 Gale 算法的更多信息,请参考:
2020.3.5【官方解读】Gale算法官方解读
2020.2.27 强风算法即将上线
1.3 细雨算法2.0 ——针对B2B领域的低质量问题
2018年6月,百度搜索发布了细雨算法,规范和引导B2B行业的网站福利问题。
2019年11月,百度搜索发布了细雨算法2.0,针对B2B行业的严重违规和低质量内容。
drizzle算法主要针对以下问题:
1.3.1 页面标题作弊和误导:
(1)不是公司官网,标题中含有“官网”等字眼,误导搜索用户误以为是官网
问题示例 4:
(2)页面标题与类似关键词叠加;
问题示例 5:
(3)页面标题穿插火星文字或特殊符号,影响正常阅读;
问题示例 6:
(4)页面标题穿插福利。
问题示例 7:
1.3.2 页面正文中有福利信息:
(1)文字内容不全,经常穿插变形。
具体是指:文字内容为无价值内容的拼接或文字内容不完整,同时将*敏*感*词*替换为“英文字母”、“汉字谐音”, “特殊匹配”、“全角匹配”等,穿插在文本内容中。.
示例:5992 八
例子:
问题示例 8: