php禁止网页抓取(利于网站优化的robots.txt使用技巧及注意事项!)
优采云 发布时间: 2021-12-01 19:22php禁止网页抓取(利于网站优化的robots.txt使用技巧及注意事项!)
这篇文章有更多资源!
需要登录才能下载或查看,还没有账号?立即注册
X
Robots.txt 是搜索引擎蜘蛛抓取您的网站时查看的第一个文件。这个文件告诉搜索引擎的蜘蛛程序你网站上哪些文件可以查看,哪些不可以查看。现在主流的搜索引擎还是遵守这个规则的。
robots.txt 是一个文本文件。它必须命名为“robots.txt”并上传到站点的根目录。上传到子目录是无效的,因为搜索引擎机器人只会在你的域名文档的根目录中找到这个。
一、使用针对网站优化的robots.txt的提示
1、在线建站提供了便捷的途径。当我们把域名解析到服务器后,就可以访问站点了,但是此时站点还没有布局,meta标签还是乱七八糟的。如果此时的站点被搜索引擎蜘蛛收录 抓取,则此时更改它不利于 SEO 优化。这时候可以使用robots.txt文件设置所有搜索引擎蜘蛛不查询网站的所有内容。语法格式为:
用户代理: *
不允许: /
复制代码
2、自定义搜索引擎蜘蛛抓取特定内容,让您根据网站情况选择如何处理搜索引擎。这里有两层意思。
(1)自定义搜索引擎。如果你不屑杜娘的做法,你可以让它只盯着你看。语法格式是:
用户代理:baiduspider
不允许: /
复制代码
注意:常见的搜索引擎机器人名称。
名称搜索引擎
百度蜘蛛
小型*敏*感*词*
ia_archiver
谷歌机器人
FAST-WebCrawler
啜饮
MSNBOT
(2)自定义站点内容。也就是说可以指定一个目录允许蜘蛛爬行,一个目录禁止爬行。比如所有的搜索引擎蜘蛛都允许爬取的内容目录abc,禁止目录def。如下内容,其语法格式为:
用户代理: *
允许:/abc/
禁止:/def/
复制代码
3、引导搜索引擎获取网站内容。这里最典型的做法是
(1)引导蜘蛛抓取你的网站地图,语法格式为:
用户代理: *
站点地图:站点地图-url
复制代码
(2)防止蜘蛛抓取您的网站重复内容。
4、404 错误页面问题。如果你的服务器响应404错误页面,没有在你站点的根目录配置robots.txt文件,搜索引擎蜘蛛会把它当成robots.txt文件,影响搜索引擎对你的处理<页面的@网站 收录。
二、用特定程序建网站的robots.txt的写法。这里只是提供一个大概的写法,具体情况自己考虑吧!
1、如何为WordPress网站编写robots.txt文件
用户代理: *
禁止:/wp-admin
禁止:/wp-content/plugins
禁止:/wp-content/themes
禁止:/wp-includes
禁止:/?s=
站点地图:***.com/sitemap.xml
复制代码
2、Discuz论坛如何写robots.txt文件
用户代理: *
允许:/redirect.php
允许:/viewthread.php
允许:/forumdisplay.php
不允许: /?
禁止:/*.php
复制代码
有人说设置robots.txt文件会带来被“一厢情愿者”攻击的危险,但既然你是“一厢情愿的人”,那你就没有问题(这不仅仅是建站程序本身,还有服务器安全等)。