php禁止网页抓取(robots写法大全和robots.txt.语法的作用！)

优采云发布时间: 2021-11-25 22:12

　　如何编写robots.txt以及robots.txt语法的作用

　　1 如果允许所有搜索引擎访问网站的所有部分，我们可以创建一个空白文本文档，命名为robots.txt，并将其放在网站的根目录中。

　　Robots.txt 的写法如下：

　　用户代理： *

　　不允许：

　　或者

　　用户代理： *

　　允许： /

　　2如果我们禁止所有搜索引擎访问网站的所有部分

　　Robots.txt 的写法如下：

　　用户代理： *

　　不允许： /

　　3 如果我们需要搜索引擎抓取，比如百度，百度是禁止索引我们的网站词

　　Robots.txt 的写法如下：

　　用户代理：百度蜘蛛

　　不允许： /

　　4 如果我们禁止谷歌索引我们的网站，其实和例3一样，就是把User-agent:头文件中蜘蛛的名字改成谷歌的Googlebot

　　能

　　Robots.txt 的写法如下：

　　用户代理：Googlebot

　　不允许： /

　　5 如果我们禁止除 Google 之外的所有搜索引擎将我们的网站词编入索引

　　Robots.txt 的写法如下：

　　用户代理：Googlebot

　　不允许：

　　用户代理： *

　　不允许： /

　　6 如果我们禁止除百度以外的所有搜索引擎索引我们的网站

　　Robots.txt 的写法如下：

　　用户代理：百度蜘蛛

　　不允许：

　　用户代理： *

　　不允许： /

　　7 如果我们需要禁止蜘蛛访问某个目录，比如禁止admin、css、images等目录被索引

　　Robots.txt 的写法如下：

　　用户代理： *

　　禁止：/css/

　　禁止：/管理员/

　　禁止：/图像/

　　8 如果我们允许蜘蛛访问我们网站的某个目录中的某些特定URL

　　Robots.txt 的写法如下：

　　用户代理： *

　　允许：/css/my

　　允许：/admin/html

　　允许：/图像/索引

　　禁止：/css/

　　禁止：/管理员/

　　禁止：/图像/

　　9 我们在一些网站的robots.txt中看到Disallow或Allow中的一些符号，例如问号和星号。如果使用“”，主要是限制访问某个后缀的域名，禁止访问/html/目录（包括子目录）中所有后缀为“.htm”的URL。

　　Robots.txt 的写法如下：

　　用户代理： *

　　禁止：/html/.htm

　　10 如果我们使用“”，我们只允许访问某个目录中带有某个后缀的文件robots.txt。写法如下： User-agent:∗Allow:.asp" 表示只允许访问某个目录下带有某个后缀的文件robots.txt 写法如下： User-agent:*Allow:.asp"表示只允许访问特定目录中具有特定后缀的文件。Robots.txt 的写法如下： User-agent:∗Allow:.asp

　　不允许： /

　　11 如果我们禁止索引网站中的所有动态页面（此处限制带“?”的域名，例如index.asp?id=1）

　　Robots.txt 的写法如下：

　　用户代理： *

　　不允许： /？

　　有时，为了节省服务器资源，我们需要禁止各种搜索引擎在网站上索引我们的图片。这里的方法除了使用“Disallow:/images/”直接屏蔽文件夹之外。也可以直接屏蔽图片后缀名。

　　例 12

　　如果我们禁止Google搜索引擎抓取我们网站上的所有图片（如果您的网站使用了其他后缀的图片名称，您也可以在这里直接添加）

　　Robots.txt 的写法如下：

　　用户代理：Googlebot

　　禁止：.jpg$

　　禁止：.jpeg$

　　禁止：.gif$

　　禁止：.png$

　　禁止：.bmp$

　　13 如果我们禁止百度搜索引擎抓取我们网站上的所有图片

　　Robots.txt 的写法如下：

　　用户代理：百度蜘蛛

　　禁止：.jpg$

　　禁止：.jpeg$

　　禁止：.gif$

　　禁止：.png$

　　禁止：.bmp$

　　14 除百度和谷歌外，其他搜索引擎禁止抓取您的图片网站

　　（注意这里，为了让大家看得更清楚，用了一个比较笨的方法——对单个搜索引擎单独定义。）

　　Robots.txt 的写法如下：

　　用户代理：百度蜘蛛

　　允许：.jpeg$

　　允许：.gif$

　　允许：.png$

　　允许：.bmp$

　　用户代理：Googlebot

　　允许：.jpeg$

　　允许：.gif$

　　允许：.png$

　　允许：.bmp$

　　用户代理： *

　　禁止：.jpg$

　　禁止：.jpeg$

　　禁止：.gif$

　　禁止：.png$

　　禁止：.bmp$

　　15 只允许百度抓取网站上的“JPG”格式文件

　　（其他搜索引擎的方法与此相同，只需修改搜索引擎的蜘蛛名称即可）

　　Robots.txt 的写法如下：

　　用户代理：百度蜘蛛

　　允许：.jpg$

　　禁止：.jpeg$

　　禁止：.gif$

　　禁止：.png$

　　禁止：.bmp$

　　16只禁止百度爬取网站上的“JPG”格式文件

　　Robots.txt 的写法如下：

　　用户代理：百度蜘蛛

　　禁止：.jpg$

　　17如果？代表一个会话 ID，您可以排除所有收录该 ID 的网址，以确保 Googlebot 不会抓取重复的页面。但是，网址以什么结尾？可能是您要收录的页面版本。在这种情况下，可以将 Vaughan 与 Allow 命令结合使用。

　　Robots.txt 的写法如下：

　　用户代理：*

　　允许：/?$

　　不允许：/？

　　一行将阻止收录？（具体来说，它将阻止所有以您的域名开头，后跟任何字符串，然后是问号 (?)，然后是任何字符串的 URL）。Allow: /?$ 将允许任何以? （具体来说，它将允许所有以您的域名开头，后跟任何字符串，然后是问号 (?) 的 URL，问号 URL 后没有任何字符）。

　　18 如果我们想禁止搜索引擎访问某些目录或某些网址，我们可以截取一些名称

　　Robots.txt 的写法如下：

　　用户代理：*

　　不允许：/plus/feedback.php?

　　以上内容供大家参考。

0

2021-11-25

php禁止网页抓取

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

php禁止网页抓取(robots写法大全和robots.txt.语法的作用！)

0 个评论

发起人