抓取动态网页(如何禁止搜索引擎抓取我们网站的动态网址(图))
优采云 发布时间: 2021-10-09 16:39抓取动态网页(如何禁止搜索引擎抓取我们网站的动态网址(图))
所谓动态网址是指网址包括什么?, & 等字符网址,如news.php?lang=cn&class=1&id=2。我们开启了网站的伪静态后,对于网站的SEO来说,有必要避免搜索引擎爬取我们的动态网址网站。
你为什么要这样做?因为搜索引擎会在两次获取同一个页面但最终确定同一个页面后触发网站。具体处罚不明确。总之,不利于网站的整个SEO。那么如何防止搜索引擎抓取我们的动态网址网站呢?
这个问题可以通过robots.txt文件解决,具体操作请看下面。
我们知道动态页面有一个共同的特点,就是会有一个“?” 链接中的问号符号,因此我们可以在robots.txt文件中写入以下规则:
用户代理: *
不允许: /*?*
这将禁止搜索引擎抓取网站 的整个动态链接。另外,如果我们只想让搜索引擎抓取特定类型的文件,比如html格式的静态页面,我们可以在robots.txt中加入如下规则:
用户代理: *
允许:.html$
不允许: /
另外,记得把你写的robots.txt文件放在你的网站的根目录下,否则是不行的。此外,还有一个简单的快捷方式来编写规则。登录google网站管理员工具,在里面写规则,生成robots.txt文件即可。