内容采集(百度搜索资源平台将搜索算法进行梳理及更新,汇编为《》 )

优采云 发布时间: 2022-04-02 03:11

  内容采集(百度搜索资源平台将搜索算法进行梳理及更新,汇编为《》

)

  seo朋友都知道,百度搜索一直致力于与开发者合作,为亿万搜索用户提供优质可信的内容和安全便捷的搜索体验。搜索算法是确保搜索安全和内容质量的重要防线。百度搜索资源平台特此对搜索算法进行梳理和更新,并汇编成《百度搜索算法规范详解》,系统明确了搜索优化过程中不允许出现的违规行为以及需要操作的“雷点”要避免,帮助发展更好地提高自身资源的质量。

  1.页面内容质量1.1 飓风算法3.0——针对页面内容质量问题

  百度搜索于 2017 年 7 月 4 日发布了飓风算法,以打击不良 采集 问题。2018年9月13日,宣布飓风算法升级至2.0版本。算法升级,飓风算法3.0上线。

  飓风算法主要针对以下页面内容质量问题:

  1.1.1 错误采集行为:

  (1)其他网站,智能小程序或公众号等内容很多。采集,内容转,信息不整合,版面凌乱, 文章可读性差,有明显采集痕迹,对用户没有增益价值。

  问题示例1:文章有明显的采集痕迹

  

  (2)文章拼接内容多段,文章逻辑性差,不能满足用户需求,阅读体验差。

  问题示例2:文章内容逻辑性差,阅读体验差

  

  (3)网站或者智能小程序里面有很多采集内容,本身的内容生产力极差。

  1.1.2 横切采集问题:

  指站点/智能小程序发布不属于站点/智能小程序域的内容,以获取更多流量。通常,这些内容是来自互联网的采集,内容质量和相关性较低,对搜索用户的价值较低。对于此类行为搜索,将判断站点/智能小程序在该领域的关注度不够,会有不同程度的限制。

  跨域采集主要包括以下两类问题:

  第一类:主站点或首页的内容/标题/关键词/summary,表明该站点有明确的领域或行业,但发布的内容与该领域无关,或相关性较低。

  问题示例:在食品智能小程序中发布与足球相关的内容

  

  第二类:站点/智能小程序没有明确的领域或行业,内容涉及多个领域或行业,领域模糊,领域关注度低。

  问题示例:智能小程序内容覆盖多个领域

  

  1.1.3 站群问题:

  指批量构建多个站点/智能小程序以获取搜索流量的行为。站群中的站点/智能小程序大部分质量低、资源稀缺性低、内容相似度高,甚至重复使用同一个模板,难以满足搜索用户的需求。

  问题示例:多个智能小程序复用同一个模板,内容质量低,相似度高

  

  有关飓风算法的更多信息,请参阅:

  2019.8.22【官方声明】飓风算法解读3.0

  2019.8.8飓风算法3.0即将上线,控制跨域采集和站群问题

  2018.9.20【官方声明】飓风算法解读2.0

  2018.9.13百度搜索将推出飓风算法2.0,打击不良采集行为

  2017.7.4百度推出飓风算法打击不良采集

  1.2 Gale 算法 - 针对不良聚合页面问题

  2020年2月,百度搜索技术团队发*敏*感*词*峰算法控制恶意构建聚合页面问题. 搜索用户影响。

  聚合页面是指没有文章主要内容的页面,而是围绕特定主题的信息集成页面的多个页面的索引链接。

  不良聚合页面问题主要包括以下四种:

  (1)页面内容与站点本身的字段不匹配,或者站点没有焦点字段,大部分是一段内容采集

  问题示例 1:站点内容区域碎片化

  

  (2)页面内容与页面中标注的标题和标签不符。

  问题示例2:页面内容与标题不匹配

  

  (3)由网站 搜索功能生成的静态搜索结果页面。

  问题示例 3:静态搜索结果页面

  

  (4)空短,无有效信息,无效聚合页面。

  问题示例 4:没有有效信息的聚合页面

  

  有关 Gale 算法的更多信息,请参考:

  2020.3.5【官方解读】Gale算法官方解读

  2020.2.27 强风算法即将上线

  1.3 细雨算法2.0 ——针对B2B领域的低质量问题

  2018年6月,百度搜索发布了细雨算法,规范和引导B2B行业的网站福利问题。

  2019年11月,百度搜索发布了细雨算法2.0,针对B2B行业的严重违规和低质量内容。

  drizzle算法主要针对以下问题:

  1.3.1 页面标题作弊和误导:

  (1)不是公司官网,标题中含有“官网”等字眼,误导搜索用户误以为是官网

  问题示例 4:

  

  (2)页面标题与类似关键词叠加;

  问题示例 5:

  

  (3)页面标题穿插火星文字或特殊符号,影响正常阅读;

  问题示例 6:

  

  (4)页面标题穿插福利。

  问题示例 7:

  

  1.3.2 页面正文中有福利信息:

  (1)文字内容不全,经常穿插变形。

  具体是指:文字内容为无价值内容的拼接或文字内容不完整,同时将*敏*感*词*替换为“英文字母”、“汉字谐音”, “特殊匹配”、“全角匹配”等,穿插在文本内容中。.

  示例:5992 八

  例子:

  问题示例 8:

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线