禁止百度搜索引擎抓取网站并显示网页快照怎么做?

优采云 发布时间: 2021-05-23 04:14

  禁止百度搜索引擎抓取网站并显示网页快照怎么做?

  之间

  ,添加代码。此标签禁止搜索引擎抓取网站并显示网页快照。

  添加网站主页代码,以禁止百度搜索引擎抓取网站并显示网页快照。

  添加网站主页代码,以禁止Google搜索引擎抓取网站并显示该页面的快照。

  此外,当我们的需求很奇怪时,例如以下情况:1. 网站添加了robots.txt,可以在百度上搜索它吗?

  因为更新搜索引擎索引数据库需要花费时间。尽管Baiduspider已停止在网站上访问您的网页,但是清除在百度搜索引擎数据库中建立的网页的索引信息可能要花费几个月的时间。另请检查机器人的配置是否正确。如果收录紧急要求您拒绝,那么您也可以通过投诉平台的反馈请求处理。

  2.我希望网站的内容能被百度索引,但不会保存快照。我该怎么办?

  Baiduspider符合Internet meta robots协议。您可以使用网页元设置来使“百度显示”仅将网页编入索引,而不在搜索结果中显示网页的快照。与自动更新类似,因为搜索引擎索引数据库需要更新时间,尽管您已禁止百度通过网页上的元数据在搜索结果中显示网页快照,但前提是已在百度中建立了网页索引搜索引擎数据库信息,在线生效可能需要两到四个星期。

  3.希望被百度索引,但不保存网站快照,以下代码可以解决:

  如果要禁止所有搜索引擎保存网页快照,则代码如下:

  一些常用的代码组合:

  :可以对该页面进行爬网,并且可以在此页面上为其他链接建立索引。

  :不允许对该页面进行爬网,但是您可以对该页面上的其他链接进行爬网和索引。

  :您可以爬网此页面,但不允许爬网和索引此页面中的其他链接。

  :不允许您爬网此页面,也不允许您爬网和索引此页面中的其他链接。

  三、通过Nginx判断user_agent以禁止百度和其他搜索引擎访问,并实现禁止收录

  由于不能直接禁止爬网,因此只需禁止访问百度蜘蛛等搜索引擎即可。这个想法是确定user_agent。如果它是诸如百度蜘蛛或Google Robot之类的搜索引擎的user_agent,则返回403或404,因此百度和其他搜索引擎引擎会认为此网站无法打开或不存在,因此自然不会收录。

  Nginx的配置代码如下:

  if ($http_user_agent ~* "qihoobot|Baiduspider|Googlebot|Googlebot-Mobile|Googlebot-Image|Mediapartners-Google|Adsbot-Google|Feedfetcher-Google|Yahoo! Slurp|Yahoo! Slurp China|YoudaoBot|Sosospider|Sogou spider|Sogou web spider|MSNBot|ia_archiver|Tomato Bot")         {                 return 403;         }

  使用curl模拟搜索引擎爬网,测试以上代码的有效性,并在许多项目实践中验证此方法的可行性,并实现对百度收录的全面禁止!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线