php禁止网页抓取(robots写法大全和robots.txt.语法的作用!)
优采云 发布时间: 2021-11-25 22:12php禁止网页抓取(robots写法大全和robots.txt.语法的作用!)
如何编写robots.txt以及robots.txt语法的作用
1 如果允许所有搜索引擎访问网站的所有部分,我们可以创建一个空白文本文档,命名为robots.txt,并将其放在网站的根目录中。
Robots.txt 的写法如下:
用户代理: *
不允许:
或者
用户代理: *
允许: /
2如果我们禁止所有搜索引擎访问网站的所有部分
Robots.txt 的写法如下:
用户代理: *
不允许: /
3 如果我们需要搜索引擎抓取,比如百度,百度是禁止索引我们的网站词
Robots.txt 的写法如下:
用户代理:百度蜘蛛
不允许: /
4 如果我们禁止谷歌索引我们的网站,其实和例3一样,就是把User-agent:头文件中蜘蛛的名字改成谷歌的Googlebot
能
Robots.txt 的写法如下:
用户代理:Googlebot
不允许: /
5 如果我们禁止除 Google 之外的所有搜索引擎将我们的 网站 词编入索引
Robots.txt 的写法如下:
用户代理:Googlebot
不允许:
用户代理: *
不允许: /
6 如果我们禁止除百度以外的所有搜索引擎索引我们的网站
Robots.txt 的写法如下:
用户代理:百度蜘蛛
不允许:
用户代理: *
不允许: /
7 如果我们需要禁止蜘蛛访问某个目录,比如禁止admin、css、images等目录被索引
Robots.txt 的写法如下:
用户代理: *
禁止:/css/
禁止:/管理员/
禁止:/图像/
8 如果我们允许蜘蛛访问我们网站的某个目录中的某些特定URL
Robots.txt 的写法如下:
用户代理: *
允许:/css/my
允许:/admin/html
允许:/图像/索引
禁止:/css/
禁止:/管理员/
禁止:/图像/
9 我们在一些网站的robots.txt中看到Disallow或Allow中的一些符号,例如问号和星号。如果使用“”,主要是限制访问某个后缀的域名,禁止访问/html/目录(包括子目录)中所有后缀为“.htm”的URL。
Robots.txt 的写法如下:
用户代理: *
禁止:/html/.htm
10 如果我们使用“”,我们只允许访问某个目录中带有某个后缀的文件robots.txt。写法如下: User-agent:∗Allow:.asp" 表示只允许访问某个目录下带有某个后缀的文件robots.txt 写法如下: User-agent:*Allow:.asp"表示只允许访问特定目录中具有特定后缀的文件。Robots.txt 的写法如下: User-agent:∗Allow:.asp
不允许: /
11 如果我们禁止索引网站中的所有动态页面(此处限制带“?”的域名,例如index.asp?id=1)
Robots.txt 的写法如下:
用户代理: *
不允许: /?
有时,为了节省服务器资源,我们需要禁止各种搜索引擎在网站上索引我们的图片。这里的方法除了使用“Disallow:/images/”直接屏蔽文件夹之外。也可以直接屏蔽图片后缀名。
例 12
如果我们禁止Google搜索引擎抓取我们网站上的所有图片(如果您的网站使用了其他后缀的图片名称,您也可以在这里直接添加)
Robots.txt 的写法如下:
用户代理:Googlebot
禁止:.jpg$
禁止:.jpeg$
禁止:.gif$
禁止:.png$
禁止:.bmp$
13 如果我们禁止百度搜索引擎抓取我们网站上的所有图片
Robots.txt 的写法如下:
用户代理:百度蜘蛛
禁止:.jpg$
禁止:.jpeg$
禁止:.gif$
禁止:.png$
禁止:.bmp$
14 除百度和谷歌外,其他搜索引擎禁止抓取您的图片网站
(注意这里,为了让大家看得更清楚,用了一个比较笨的方法——对单个搜索引擎单独定义。)
Robots.txt 的写法如下:
用户代理:百度蜘蛛
允许:.jpeg$
允许:.gif$
允许:.png$
允许:.bmp$
用户代理:Googlebot
允许:.jpeg$
允许:.gif$
允许:.png$
允许:.bmp$
用户代理: *
禁止:.jpg$
禁止:.jpeg$
禁止:.gif$
禁止:.png$
禁止:.bmp$
15 只允许百度抓取网站上的“JPG”格式文件
(其他搜索引擎的方法与此相同,只需修改搜索引擎的蜘蛛名称即可)
Robots.txt 的写法如下:
用户代理:百度蜘蛛
允许:.jpg$
禁止:.jpeg$
禁止:.gif$
禁止:.png$
禁止:.bmp$
16只禁止百度爬取网站上的“JPG”格式文件
Robots.txt 的写法如下:
用户代理:百度蜘蛛
禁止:.jpg$
17如果?代表一个会话 ID,您可以排除所有收录该 ID 的网址,以确保 Googlebot 不会抓取重复的页面。但是,网址以什么结尾?可能是您要收录的页面版本。在这种情况下,可以将 Vaughan 与 Allow 命令结合使用。
Robots.txt 的写法如下:
用户代理:*
允许:/?$
不允许:/?
不允许:/?
一行将阻止收录?(具体来说,它将阻止所有以您的域名开头,后跟任何字符串,然后是问号 (?),然后是任何字符串的 URL)。Allow: /?$ 将允许任何以? (具体来说,它将允许所有以您的域名开头,后跟任何字符串,然后是问号 (?) 的 URL,问号 URL 后没有任何字符)。
18 如果我们想禁止搜索引擎访问某些目录或某些网址,我们可以截取一些名称
Robots.txt 的写法如下:
用户代理:*
不允许:/plus/feedback.php?
以上内容供大家参考。