搜网站内容(访问密码3.使用ip屏蔽,屏蔽来自baidu,google的搜索4.页面使用标记代码)
优采云 发布时间: 2022-01-10 05:26搜网站内容(访问密码3.使用ip屏蔽,屏蔽来自baidu,google的搜索4.页面使用标记代码)
1.这部分内容网上没有
2.页面设置访问密码
3.使用ip shield屏蔽百度和google的搜索
4.页面使用如下标记代码:
我们知道,搜索引擎有自己的“搜索机器人”(ROBOTS),通过这些ROBOTS,不断地沿着网页上的链接(通常是http和src链接)爬取数据,建立自己的数据库。
对于 网站 管理者和内容提供者来说,有时会有一些网站内容预计不会被 ROBOTS 抓取并公开。为了解决这个问题,ROBOTS开发社区提供了两种解决方案:一种是robots.txt,另一种是The Robots META标签。
一、 robots.txt
1、 什么是 robots.txt?
robots.txt 是一个纯文本文件。通过在此文件中声明 网站 中不想被机器人访问的部分,可以保护 网站 的部分或全部内容免受搜索引擎收录 的访问,或者指定搜索引擎只收录指定内容。
搜索机器人访问站点时,首先会检查站点根目录下是否存在robots.txt。如果找到,搜索机器人将根据文件内容确定访问范围。如果文件不存在,则搜索机器人只会沿着链接爬行。
robots.txt 必须放在站点的根目录下,文件名必须全部小写。
网站 网址
对应 robots.txt 的 URL
:80/
:80/机器人.txt
:1234/
:1234/机器人.txt
2、 robots.txt 的语法
“robots.txt”文件收录一条或多条以空行分隔的记录(以 CR、CR/NL 或 NL 结尾),每条记录的格式如下:
“:”。
在这个文件中可以使用#作为注解,具体用法同UNIX中的约定。此文件中的记录通常以一行或多行 User-agent 开头,然后是几行 Disallow 行。详情如下:
用户代理:
该项目的值用于描述搜索引擎机器人的名称。在“robots.txt”文件中,如果有多个User-agent记录,则表示多个robots会受到该协议的限制。对于这个文件,至少有一条 User-agent 记录。如果此项的值设置为 *,则协议对任何机器人都有效。在“robots.txt”文件中,只能有一条“User-agent: *”的记录。
不允许 :
该项目的值用于描述不想被访问的 URL。此 URL 可以是完整路径或部分路径。机器人不会访问任何以 Disallow 开头的 URL。例如,“Disallow: /help”将不允许搜索引擎访问 /help.html 或 /help/index.html,而“Disallow: /help/”将允许机器人访问 /help.html 但不允许 /help/index .html。
任何 Disallow 记录为空,表示 网站 的所有部分都被允许访问。“/robots.txt”文件中必须至少有一条 Disallow 记录。如果“/robots.txt”是一个空文件,则 网站 对所有搜索引擎机器人开放。
以下是 robots.txt 的一些基本用法:
[code="java"] 禁止所有搜索引擎访问 网站 的任何部分:
用户代理: *
禁止:/code]
l 允许所有机器人访问
用户代理: *
不允许:
或者您可以创建一个空文件“/robots.txt”文件
l 禁止所有搜索引擎访问网站的几个部分(下例为cgi-bin、tmp、私有目录)
用户代理: *
禁止:/cgi-bin/
禁止:/tmp/
禁止:/private/
l 禁止访问搜索引擎(下例中为BadBot)
用户代理:BadBot
不允许: /
l 只允许访问某个搜索引擎(下例中的WebCrawler)
用户代理:WebCrawler
不允许:
用户代理: *
不允许: /
3、 常见的搜索引擎机器人名称
名称搜索引擎
百度蜘蛛
小型*敏*感*词*
ia_archiver
谷歌机器人
FAST-WebCrawler
啜饮
MSNBOT
4、 robots.txt 示例
以下是一些著名网站的 robots.txt:
5、 常见 robots.txt 错误
l 顺序颠倒:
写错了
用户代理: *
禁止:GoogleBot
正确的应该是:
用户代理:GoogleBot
不允许: *
l 将多个禁止的命令放在一行:
例如,错误地写为
禁止:/css/ /cgi-bin/ /images/
正确的应该是
禁止:/css/
禁止:/cgi-bin/
禁止:/图像/
l 行前有很多空格
例如写成
禁止:/cgi-bin/
虽然标准没有讲这个,但是这样很容易出错。
l 404重定向到另一个页面:
当 Robot 访问许多没有设置 robots.txt 文件的站点时,它会自动 404 重定向到另一个 Html 页面。这时候Robot往往会像处理robots.txt文件一样处理Html页面文件。虽然这通常很好,但最好将空白 robots.txt 文件放在站点的根目录中。
l 使用大写。例如
用户代理:EXCITE
不允许:
虽然标准是无大小写的,但目录和文件名应该是小写的:
用户代理:GoogleBot
不允许:
l 语法中只有Disallow,没有Allow!
错误的写法是:
用户代理:百度蜘蛛
不允许:/约翰/
允许:/简/
我忘了斜线/
写错了:
用户代理:百度蜘蛛
禁止:css
正确的应该是
用户代理:百度蜘蛛
禁止:/css/
下面这个小工具专门检查robots.txt文件的有效性:
二、 机器人 META 标签
1、什么是机器人 META 标签
Robots.txt 文件主要限制搜索引擎对整个站点或目录的访问,而 Robots META 标签主要针对特定页面。与其他META标签(如使用的语言、页面描述、关键词等)一样,Robots META标签也放置在页面中,专门告诉搜索引擎ROBOTS如何抓取内容的页面。具体形式类似(见粗体部分):
Robots META标签不区分大小写,name=”Robots”表示所有搜索引擎,对于特定搜索引擎可以写成name=”BaiduSpider”。内容部分有四个命令选项:index、noindex、follow、nofollow,命令之间用“,”分隔。
INDEX 指令告诉搜索机器人抓取页面;
FOLLOW指令表示搜索机器人可以继续沿着页面上的链接爬行;
Robots Meta标签的默认值为INDEX和FOLLOW,除了inktomi,其默认值为INDEX、NOFOLLOW。
因此,有四种组合:
可以写成;
可以写成
需要注意的是,上述robots.txt和Robots META标签限制搜索引擎机器人(ROBOTS)抓取网站内容只是一个规则,需要搜索引擎机器人的配合,并不是每个ROBOTS都遵守。
目前看来,绝大多数搜索引擎机器人都遵守robots.txt的规则。对于 Robots META 标签,目前支持的不多,但在逐渐增加。比如著名的搜索引擎 GOOGLE 就完全支持,而且 GOOGLE 还增加了一个命令“归档”,可以限制 GOOGLE 是否保留网页快照。例如:
2、Robots META 标签编写:
Robots META标签不区分大小写,name="Robots"表示所有搜索引擎,对于特定搜索引擎可以写成name="BaiduSpider"。内容部分有四个命令选项:index、noindex、follow、nofollow,命令之间用“,”分隔。
INDEX 指令告诉搜索机器人抓取页面;
FOLLOW指令表示搜索机器人可以继续沿着页面上的链接爬行;
Robots Meta标签的默认值为INDEX和FOLLOW,除了inktomi,其默认值为INDEX、NOFOLLOW。
因此,有四种组合:
在
可以写成
;
可以写成
需要注意的是,上述robots.txt和Robots META标签限制搜索引擎机器人(ROBOTS)抓取网站内容只是一个规则,需要搜索引擎机器人的配合,并不是每个ROBOTS都遵守。
目前看来,绝大多数搜索引擎机器人都遵守robots.txt的规则。对于 Robots META 标签,目前支持的不多,但在逐渐增加。比如著名的搜索引擎 GOOGLE 就完全支持,而且 GOOGLE 还增加了一个命令“归档”,可以限制 GOOGLE 是否保留网页快照。例如:
表示抓取网站上的页面并跟随页面中的链接,但不在 GOOLGE 上保留页面的快照