nodejs抓取动态网页(【推荐学习】robots禁止抓取php的方法(图))

优采云发布时间: 2022-01-09 04:01

　　robots禁止爬取php的方法：1、在robots.txt文件中写入“Disallow: /*?*”；2、在 robots.txt 文件中添加规则“User-agent:* Allow”：.html$ Disallow:/”。

　　本文运行环境：windows7系统，PHP7.版本1，DELL G3电脑

　　robots禁止搜索引擎抓取php动态网址

　　所谓动态URL是指该URL收录？, & 等字符类URL，如：news.php?lang=cn&class=1&id=2，当我们开启网站的伪静态时，对于网站的seo来说是必须的避免搜索引擎抓取我们的网站动态 URL。

　　你为什么要这样做？因为搜索引擎会在两次爬取同一个页面后触发网站但最终判断是同一个页面，如何处罚还不清楚，总之不利于<的整个SEO @网站。那么如何防止搜索引擎抓取我们的网站动态URL呢？

　　这个问题可以通过robots.txt文件解决，具体操作请看下文。

　　我们知道动态页面有一个共同的特点，就是会有一个问号符号“？” 在链接中，因此我们可以在 robots.txt 文件中编写以下规则：

　　User-agent: *

Disallow: /*?*

　　这将阻止搜索引擎抓取整个网站动态链接。另外，如果我们只想让搜索引擎抓取指定类型的文件，比如html格式的静态页面，我们可以在robots.txt中添加如下规则：

　　User-agent: *

Allow: .html$

Disallow: /

　　另外记得source gaodaimacom搞#code%code.txt，把写好的robots.txt文件放到你的网站根目录下，不然不行。此外，还有一个编写规则的简单快捷方式。登录google网站admin工具，连接并在里面写入规则，然后生成robots.txt文件。

　　【推荐学习：《PHP 视频教程》】

　　以上就是robots如何禁止爬取php的详细内容。更多信息请关注其他相关代码高代马文章！

0

2022-01-09

nodejs抓取动态网页

0 个评论

要回复文章请先登录或注册