搜网站内容(访问密码3.使用ip屏蔽，屏蔽来自baidu，google的搜索4.页面使用标记代码)

优采云发布时间: 2022-01-10 05:26

　　1.这部分内容网上没有

　　2.页面设置访问密码

　　3.使用ip shield屏蔽百度和google的搜索

　　4.页面使用如下标记代码：

　　我们知道，搜索引擎有自己的“搜索机器人”（ROBOTS），通过这些ROBOTS，不断地沿着网页上的链接（通常是http和src链接）爬取数据，建立自己的数据库。

　　对于网站管理者和内容提供者来说，有时会有一些网站内容预计不会被 ROBOTS 抓取并公开。为了解决这个问题，ROBOTS开发社区提供了两种解决方案：一种是robots.txt，另一种是The Robots META标签。

　　一、 robots.txt

　　1、什么是 robots.txt？

　　robots.txt 是一个纯文本文件。通过在此文件中声明网站中不想被机器人访问的部分，可以保护网站的部分或全部内容免受搜索引擎收录的访问，或者指定搜索引擎只收录指定内容。

　　搜索机器人访问站点时，首先会检查站点根目录下是否存在robots.txt。如果找到，搜索机器人将根据文件内容确定访问范围。如果文件不存在，则搜索机器人只会沿着链接爬行。

　　robots.txt 必须放在站点的根目录下，文件名必须全部小写。

　　网站网址

　　对应 robots.txt 的 URL

　　:80/

　　:80/机器人.txt

　　:1234/

　　:1234/机器人.txt

　　2、 robots.txt 的语法

　　“robots.txt”文件收录一条或多条以空行分隔的记录（以 CR、CR/NL 或 NL 结尾），每条记录的格式如下：

　　“：”。

　　在这个文件中可以使用#作为注解，具体用法同UNIX中的约定。此文件中的记录通常以一行或多行 User-agent 开头，然后是几行 Disallow 行。详情如下：

　　用户代理：

　　该项目的值用于描述搜索引擎机器人的名称。在“robots.txt”文件中，如果有多个User-agent记录，则表示多个robots会受到该协议的限制。对于这个文件，至少有一条 User-agent 记录。如果此项的值设置为 *，则协议对任何机器人都有效。在“robots.txt”文件中，只能有一条“User-agent: *”的记录。

　　不允许：

　　该项目的值用于描述不想被访问的 URL。此 URL 可以是完整路径或部分路径。机器人不会访问任何以 Disallow 开头的 URL。例如，“Disallow: /help”将不允许搜索引擎访问 /help.html 或 /help/index.html，而“Disallow: /help/”将允许机器人访问 /help.html 但不允许 /help/index .html。

　　任何 Disallow 记录为空，表示网站的所有部分都被允许访问。“/robots.txt”文件中必须至少有一条 Disallow 记录。如果“/robots.txt”是一个空文件，则网站对所有搜索引擎机器人开放。

　　以下是 robots.txt 的一些基本用法：

　　[code="java"] 禁止所有搜索引擎访问网站的任何部分：

　　用户代理： *

　　禁止：/code]

　　l 允许所有机器人访问

　　用户代理： *

　　不允许：

　　或者您可以创建一个空文件“/robots.txt”文件

　　l 禁止所有搜索引擎访问网站的几个部分（下例为cgi-bin、tmp、私有目录）

　　用户代理： *

　　禁止：/cgi-bin/

　　禁止：/tmp/

　　禁止：/private/

　　l 禁止访问搜索引擎（下例中为BadBot）

　　用户代理：BadBot

　　不允许： /

　　l 只允许访问某个搜索引擎（下例中的WebCrawler）

　　用户代理：WebCrawler

　　不允许：

　　用户代理： *

　　不允许： /

　　3、常见的搜索引擎机器人名称

　　名称搜索引擎

　　百度蜘蛛

　　小型*敏*感*词*

　　ia_archiver

　　谷歌机器人

　　FAST-WebCrawler

　　啜饮

　　MSNBOT

　　4、 robots.txt 示例

　　以下是一些著名网站的 robots.txt：

　　5、常见 robots.txt 错误

　　l 顺序颠倒：

　　写错了

　　用户代理： *

　　禁止：GoogleBot

　　正确的应该是：

　　用户代理：GoogleBot

　　不允许： *

　　l 将多个禁止的命令放在一行：

　　例如，错误地写为

　　禁止：/css/ /cgi-bin/ /images/

　　正确的应该是

　　禁止：/css/

　　禁止：/cgi-bin/

　　禁止：/图像/

　　l 行前有很多空格

　　例如写成

　　禁止：/cgi-bin/

　　虽然标准没有讲这个，但是这样很容易出错。

　　l 404重定向到另一个页面：

　　当 Robot 访问许多没有设置 robots.txt 文件的站点时，它会自动 404 重定向到另一个 Html 页面。这时候Robot往往会像处理robots.txt文件一样处理Html页面文件。虽然这通常很好，但最好将空白 robots.txt 文件放在站点的根目录中。

　　l 使用大写。例如

　　用户代理：EXCITE

　　不允许：

　　虽然标准是无大小写的，但目录和文件名应该是小写的：

　　用户代理：GoogleBot

　　不允许：

　　l 语法中只有Disallow，没有Allow！

　　错误的写法是：

　　用户代理：百度蜘蛛

　　不允许：/约翰/

　　允许：/简/

　　我忘了斜线/

　　写错了：

　　用户代理：百度蜘蛛

　　禁止：css

　　正确的应该是

　　用户代理：百度蜘蛛

　　禁止：/css/

　　下面这个小工具专门检查robots.txt文件的有效性：

　　二、机器人 META 标签

　　1、什么是机器人 META 标签

　　Robots.txt 文件主要限制搜索引擎对整个站点或目录的访问，而 Robots META 标签主要针对特定页面。与其他META标签（如使用的语言、页面描述、关键词等）一样，Robots META标签也放置在页面中，专门告诉搜索引擎ROBOTS如何抓取内容的页面。具体形式类似（见粗体部分）：

　　Robots META标签不区分大小写，name=”Robots”表示所有搜索引擎，对于特定搜索引擎可以写成name=”BaiduSpider”。内容部分有四个命令选项：index、noindex、follow、nofollow，命令之间用“，”分隔。

　　INDEX 指令告诉搜索机器人抓取页面；

　　FOLLOW指令表示搜索机器人可以继续沿着页面上的链接爬行；

　　Robots Meta标签的默认值为INDEX和FOLLOW，除了inktomi，其默认值为INDEX、NOFOLLOW。

　　因此，有四种组合：

　　可以写成；

　　可以写成

　　需要注意的是，上述robots.txt和Robots META标签限制搜索引擎机器人（ROBOTS）抓取网站内容只是一个规则，需要搜索引擎机器人的配合，并不是每个ROBOTS都遵守。

　　目前看来，绝大多数搜索引擎机器人都遵守robots.txt的规则。对于 Robots META 标签，目前支持的不多，但在逐渐增加。比如著名的搜索引擎 GOOGLE 就完全支持，而且 GOOGLE 还增加了一个命令“归档”，可以限制 GOOGLE 是否保留网页快照。例如：

　　2、Robots META 标签编写：

　　Robots META标签不区分大小写，name="Robots"表示所有搜索引擎，对于特定搜索引擎可以写成name="BaiduSpider"。内容部分有四个命令选项：index、noindex、follow、nofollow，命令之间用“，”分隔。

　　INDEX 指令告诉搜索机器人抓取页面；

　　FOLLOW指令表示搜索机器人可以继续沿着页面上的链接爬行；

　　Robots Meta标签的默认值为INDEX和FOLLOW，除了inktomi，其默认值为INDEX、NOFOLLOW。

　　因此，有四种组合：

　　在

　　可以写成

　　;

　　可以写成

　　需要注意的是，上述robots.txt和Robots META标签限制搜索引擎机器人（ROBOTS）抓取网站内容只是一个规则，需要搜索引擎机器人的配合，并不是每个ROBOTS都遵守。

　　目前看来，绝大多数搜索引擎机器人都遵守robots.txt的规则。对于 Robots META 标签，目前支持的不多，但在逐渐增加。比如著名的搜索引擎 GOOGLE 就完全支持，而且 GOOGLE 还增加了一个命令“归档”，可以限制 GOOGLE 是否保留网页快照。例如：

　　表示抓取网站上的页面并跟随页面中的链接，但不在 GOOLGE 上保留页面的快照

0

2022-01-10

搜网站内容

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜网站内容(访问密码3.使用ip屏蔽，屏蔽来自baidu，google的搜索4.页面使用标记代码)

0 个评论

发起人

AI时代内容工厂

搜网站内容(访问密码3.使用ip屏蔽，屏蔽来自baidu，google的搜索4.页面使用标记代码)

0 个评论

发起人

相关问题