搜索引擎禁止的方式优化网站(如何只禁止百度搜索引擎抓取收录网页的任何部分。。)

优采云 发布时间: 2022-03-31 21:13

  搜索引擎禁止的方式优化网站(如何只禁止百度搜索引擎抓取收录网页的任何部分。。)

  一、robots.txt方法

  搜索引擎默认遵循 robots.txt 协议。创建 robots.txt 文本文件并将其放在 网站 根目录中。编辑代码如下:

  用户代理: *

  不允许: /

  通过上面的代码,可以告诉搜索引擎不要抓取,取收录this网站,小心使用上面的代码:这会禁止所有搜索引擎访问网站@的任何部分>。

  如何只阻止百度搜索引擎收录抓取网页

  1、编辑 robots.txt 文件并将标签设计为:

  用户代理:百度蜘蛛

  不允许: /

  以上 robots 文件将禁止所有来自百度的抓取。

  先说百度的user-agent,Baiduspider的user-agent是什么?

  百度产品使用不同的用户代理:

  产品名称对应user-agent

  无线搜索百度蜘蛛

  图片搜索Baiduspider-image

  视频搜索百度蜘蛛-视频

  新闻搜索Baiduspider-新闻

  百度搜藏百度蜘蛛-favo

  百度联盟Baiduspider-cpro

  商业搜索Baiduspider-ads

  百度蜘蛛上的网络和其他搜索

  您可以根据每个产品的不同用户代理设置不同的爬取规则。以下机器人实现禁止从百度进行所有抓取,但允许图像搜索抓取 /image/ 目录:

  用户代理:百度蜘蛛

  不允许: /

  用户代理:Baiduspider-image

  允许:/图像/

  请注意:Baiduspider-cpro和Baiduspider-ads抓取的网页不会被索引,只会执行与客户约定的操作,不符合robots协议。这只能通过联系百度来解决。

  如何只阻止谷歌搜索引擎收录抓取网页,如下:

  编辑 robots.txt 文件,设计标记为:

  用户代理:googlebot

  不允许: /

  编辑 robots.txt 文件

  搜索引擎默认遵循 robots.txt 协议

  robots.txt 文件位于 网站 根目录中。

  例如,当搜索引擎访问一个网站时,它会首先检查网站的根目录下是否存在robots.txt文件。如果搜索引擎找到这个文件,它将满足于确定它爬取的权限范围。

  用户代理:

  该项目的值用于描述搜索引擎机器人的名称。在“robots.txt”文件中,如果有多个User-agent记录,则表示多个robots会受到该协议的限制。对于这个文件,至少有一条 User-agent 记录。如果此项的值设置为 *,则协议对任何机器人都有效。在“robots.txt”文件中,“User-agent:*”只能有一条记录。

  不允许:

  该项目的值用于描述不想被访问的 URL。此 URL 可以是完整路径或部分路径。机器人不会访问任何以 Disallow 开头的 URL。例如,“Disallow:/help”不允许搜索引擎访问 /help.html 和 /help/index.html,而“Disallow:/help/”允许机器人访问 /help.html 但不允许 /help/index 。 html。任何 Disallow 记录为空,表示 网站 的所有部分都被允许访问。“/robots.txt”文件中必须至少有一条 Disallow 记录。如果“/robots.txt”是一个空文件,则 网站 对所有搜索引擎机器人开放。

  以下是 robots.txt 用法的几个示例:

  用户代理: *

  不允许: /

  阻止所有搜索引擎访问 网站 的所有部分

  用户代理:百度蜘蛛

  不允许: /

  禁止百度 收录 全站

  用户代理:Googlebot

  不允许: /

  在全站范围内禁止 Google收录

  用户代理:Googlebot

  不允许:

  用户代理: *

  不允许: /

  禁止除 Google收录 站点范围内的所有搜索引擎

  用户代理:百度蜘蛛

  不允许:

  用户代理: *

  不允许: /

  禁止除百度以外的所有搜索引擎收录全站

  用户代理: *

  禁止:/css/

  禁止:/admin/

  阻止所有搜索引擎访问目录

  (比如禁止根目录下的admin和css)

  网页代码的第二种方法

  在网站首页代码之间,添加一个代码,这个标签防止搜索引擎抓取网站并显示网页快照。

  在网站首页代码之间添加,防止百度搜索引擎抓取网站并显示网页截图。

  在 网站 主页代码之间,添加它以防止 Google 搜索引擎抓取 网站 并显示网页快照。

  另外,当我们的需求很奇怪的时候,比如以下几种情况:

  1. 网站我加了robots.txt,还能百度搜吗?

  因为搜索引擎索引数据库的更新需要时间。虽然Baiduspider已经停止访问您网站上的网页,但是百度搜索引擎数据库中已经建立的网页索引信息可能需要几个月的时间才能被清除。另请检查您的机器人是否配置正确。如果您的拒绝是收录紧急要求的,也可以通过投诉平台反馈请求处理。

  2.我想让网站内容被百度收录,但不保存为快照,怎么办?

  百度蜘蛛遵守互联网元机器人协议。您可以使用网页元的设置,使百度显示只对网页进行索引,而不在搜索结果中显示网页的快照。和robots的更新一样,因为搜索引擎索引库的更新需要时间,虽然你已经禁止百度通过网页中的meta在搜索结果中显示网页的快照,但如果在百度中已经建立了网页索引搜索引擎数据库信息,可能需要两到四个星期才能在线生效。

  希望能被百度索引,但是不要保存网站快照,下面代码解决:

  如果你想阻止所有搜索引擎保存你网页的快照,那么代码如下:

  一些常用的代码组合:

  : 可以爬取这个页面,也可以继续索引这个页面上的其他链接

  : 这个页面不允许被爬取,但是其他链接可以沿着这个页面被爬取和索引

  : 可以爬取这个页面,但是不允许沿着这个页面爬取索引中的其他链接

  : 不爬取该页面,也不爬取其他链接到该页面的索引

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线