搜网站内容(访问密码3.使用ip屏蔽,屏蔽来自baidu,google的搜索4.页面使用标记代码)

优采云 发布时间: 2022-01-10 05:26

  搜网站内容(访问密码3.使用ip屏蔽,屏蔽来自baidu,google的搜索4.页面使用标记代码)

  1.这部分内容网上没有

  2.页面设置访问密码

  3.使用ip shield屏蔽百度和google的搜索

  4.页面使用如下标记代码:

  我们知道,搜索引擎有自己的“搜索机器人”(ROBOTS),通过这些ROBOTS,不断地沿着网页上的链接(通常是http和src链接)爬取数据,建立自己的数据库。

  对于 网站 管理者和内容提供者来说,有时会有一些网站内容预计不会被 ROBOTS 抓取并公开。为了解决这个问题,ROBOTS开发社区提供了两种解决方案:一种是robots.txt,另一种是The Robots META标签。

  一、 robots.txt

  1、 什么是 robots.txt?

  robots.txt 是一个纯文本文件。通过在此文件中声明 网站 中不想被机器人访问的部分,可以保护 网站 的部分或全部内容免受搜索引擎收录 的访问,或者指定搜索引擎只收录指定内容。

  搜索机器人访问站点时,首先会检查站点根目录下是否存在robots.txt。如果找到,搜索机器人将根据文件内容确定访问范围。如果文件不存在,则搜索机器人只会沿着链接爬行。

  robots.txt 必须放在站点的根目录下,文件名必须全部小写。

  网站 网址

  对应 robots.txt 的 URL

  :80/

  :80/机器人.txt

  :1234/

  :1234/机器人.txt

  2、 robots.txt 的语法

  “robots.txt”文件收录一条或多条以空行分隔的记录(以 CR、CR/NL 或 NL 结尾),每条记录的格式如下:

  “:”。

  在这个文件中可以使用#作为注解,具体用法同UNIX中的约定。此文件中的记录通常以一行或多行 User-agent 开头,然后是几行 Disallow 行。详情如下:

  用户代理:

  该项目的值用于描述搜索引擎机器人的名称。在“robots.txt”文件中,如果有多个User-agent记录,则表示多个robots会受到该协议的限制。对于这个文件,至少有一条 User-agent 记录。如果此项的值设置为 *,则协议对任何机器人都有效。在“robots.txt”文件中,只能有一条“User-agent: *”的记录。

  不允许 :

  该项目的值用于描述不想被访问的 URL。此 URL 可以是完整路径或部分路径。机器人不会访问任何以 Disallow 开头的 URL。例如,“Disallow: /help”将不允许搜索引擎访问 /help.html 或 /help/index.html,而“Disallow: /help/”将允许机器人访问 /help.html 但不允许 /help/index .html。

  任何 Disallow 记录为空,表示 网站 的所有部分都被允许访问。“/robots.txt”文件中必须至少有一条 Disallow 记录。如果“/robots.txt”是一个空文件,则 网站 对所有搜索引擎机器人开放。

  以下是 robots.txt 的一些基本用法:

  [code="java"] 禁止所有搜索引擎访问 网站 的任何部分:

  用户代理: *

  禁止:/code]

  l 允许所有机器人访问

  用户代理: *

  不允许:

  或者您可以创建一个空文件“/robots.txt”文件

  l 禁止所有搜索引擎访问网站的几个部分(下例为cgi-bin、tmp、私有目录)

  用户代理: *

  禁止:/cgi-bin/

  禁止:/tmp/

  禁止:/private/

  l 禁止访问搜索引擎(下例中为BadBot)

  用户代理:BadBot

  不允许: /

  l 只允许访问某个搜索引擎(下例中的WebCrawler)

  用户代理:WebCrawler

  不允许:

  用户代理: *

  不允许: /

  3、 常见的搜索引擎机器人名称

  名称搜索引擎

  百度蜘蛛

  小型*敏*感*词*

  ia_archiver

  谷歌机器人

  FAST-WebCrawler

  啜饮

  MSNBOT

  4、 robots.txt 示例

  以下是一些著名网站的 robots.txt:

  5、 常见 robots.txt 错误

  l 顺序颠倒:

  写错了

  用户代理: *

  禁止:GoogleBot

  正确的应该是:

  用户代理:GoogleBot

  不允许: *

  l 将多个禁止的命令放在一行:

  例如,错误地写为

  禁止:/css/ /cgi-bin/ /images/

  正确的应该是

  禁止:/css/

  禁止:/cgi-bin/

  禁止:/图像/

  l 行前有很多空格

  例如写成

  禁止:/cgi-bin/

  虽然标准没有讲这个,但是这样很容易出错。

  l 404重定向到另一个页面:

  当 Robot 访问许多没有设置 robots.txt 文件的站点时,它会自动 404 重定向到另一个 Html 页面。这时候Robot往往会像处理robots.txt文件一样处理Html页面文件。虽然这通常很好,但最好将空白 robots.txt 文件放在站点的根目录中。

  l 使用大写。例如

  用户代理:EXCITE

  不允许:

  虽然标准是无大小写的,但目录和文件名应该是小写的:

  用户代理:GoogleBot

  不允许:

  l 语法中只有Disallow,没有Allow!

  错误的写法是:

  用户代理:百度蜘蛛

  不允许:/约翰/

  允许:/简/

  我忘了斜线/

  写错了:

  用户代理:百度蜘蛛

  禁止:css

  正确的应该是

  用户代理:百度蜘蛛

  禁止:/css/

  下面这个小工具专门检查robots.txt文件的有效性:

  二、 机器人 META 标签

  1、什么是机器人 META 标签

  Robots.txt 文件主要限制搜索引擎对整个站点或目录的访问,而 Robots META 标签主要针对特定​​页面。与其他META标签(如使用的语言、页面描述、关键词等)一样,Robots META标签也放置在页面中,专门告诉搜索引擎ROBOTS如何抓取内容的页面。具体形式类似(见粗体部分):

  Robots META标签不区分大小写,name=”Robots”表示所有搜索引擎,对于特定搜索引擎可以写成name=”BaiduSpider”。内容部分有四个命令选项:index、noindex、follow、nofollow,命令之间用“,”分隔。

  INDEX 指令告诉搜索机器人抓取页面;

  FOLLOW指令表示搜索机器人可以继续沿着页面上的链接爬行;

  Robots Meta标签的默认值为INDEX和FOLLOW,除了inktomi,其默认值为INDEX、NOFOLLOW。

  因此,有四种组合:

  可以写成;

  可以写成

  需要注意的是,上述robots.txt和Robots META标签限制搜索引擎机器人(ROBOTS)抓取网站内容只是一个规则,需要搜索引擎机器人的配合,并不是每个ROBOTS都遵守。

  目前看来,绝大多数搜索引擎机器人都遵守robots.txt的规则。对于 Robots META 标签,目前支持的不多,但在逐渐增加。比如著名的搜索引擎 GOOGLE 就完全支持,而且 GOOGLE 还增加了一个命令“归档”,可以限制 GOOGLE 是否保留网页快照。例如:

  2、Robots META 标签编写:

  Robots META标签不区分大小写,name="Robots"表示所有搜索引擎,对于特定搜索引擎可以写成name="BaiduSpider"。内容部分有四个命令选项:index、noindex、follow、nofollow,命令之间用“,”分隔。

  INDEX 指令告诉搜索机器人抓取页面;

  FOLLOW指令表示搜索机器人可以继续沿着页面上的链接爬行;

  Robots Meta标签的默认值为INDEX和FOLLOW,除了inktomi,其默认值为INDEX、NOFOLLOW。

  因此,有四种组合:

  在

  可以写成

  ;

  可以写成

  需要注意的是,上述robots.txt和Robots META标签限制搜索引擎机器人(ROBOTS)抓取网站内容只是一个规则,需要搜索引擎机器人的配合,并不是每个ROBOTS都遵守。

  目前看来,绝大多数搜索引擎机器人都遵守robots.txt的规则。对于 Robots META 标签,目前支持的不多,但在逐渐增加。比如著名的搜索引擎 GOOGLE 就完全支持,而且 GOOGLE 还增加了一个命令“归档”,可以限制 GOOGLE 是否保留网页快照。例如:

  表示抓取网站上的页面并跟随页面中的链接,但不在 GOOLGE 上保留页面的快照

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线