php禁止网页抓取(利于网站优化的robots.txt使用技巧及注意事项!)

优采云 发布时间: 2021-12-01 19:22

  php禁止网页抓取(利于网站优化的robots.txt使用技巧及注意事项!)

  这篇文章有更多资源!

  需要登录才能下载或查看,还没有账号?立即注册

  

  X

  Robots.txt 是搜索引擎蜘蛛抓取您的网站时查看的第一个文件。这个文件告诉搜索引擎的蜘蛛程序你网站上哪些文件可以查看,哪些不可以查看。现在主流的搜索引擎还是遵守这个规则的。

  robots.txt 是一个文本文件。它必须命名为“robots.txt”并上传到站点的根目录。上传到子目录是无效的,因为搜索引擎机器人只会在你的域名文档的根目录中找到这个。

  一、使用针对网站优化的robots.txt的提示

  1、在线建站提供了便捷的途径。当我们把域名解析到服务器后,就可以访问站点了,但是此时站点还没有布局,meta标签还是乱七八糟的。如果此时的站点被搜索引擎蜘蛛收录 抓取,则此时更改它不利于 SEO 优化。这时候可以使用robots.txt文件设置所有搜索引擎蜘蛛不查询网站的所有内容。语法格式为:

  用户代理: *

  不允许: /

  复制代码

  2、自定义搜索引擎蜘蛛抓取特定内容,让您根据网站情况选择如何处理搜索引擎。这里有两层意思。

  (1)自定义搜索引擎。如果你不屑杜娘的做法,你可以让它只盯着你看。语法格式是:

  用户代理:baiduspider

  不允许: /

  复制代码

  注意:常见的搜索引擎机器人名称。

  名称搜索引擎

  百度蜘蛛

  小型*敏*感*词*

  ia_archiver

  谷歌机器人

  FAST-WebCrawler

  啜饮

  MSNBOT

  (2)自定义站点内容。也就是说可以指定一个目录允许蜘蛛爬行,一个目录禁止爬行。比如所有的搜索引擎蜘蛛都允许爬取的内容目录abc,禁止目录def。如下内容,其语法格式为:

  用户代理: *

  允许:/abc/

  禁止:/def/

  复制代码

  3、引导搜索引擎获取网站内容。这里最典型的做法是

  (1)引导蜘蛛抓取你的网站地图,语法格式为:

  用户代理: *

  站点地图:站点地图-url

  复制代码

  (2)防止蜘蛛抓取您的网站重复内容。

  4、404 错误页面问题。如果你的服务器响应404错误页面,没有在你站点的根目录配置robots.txt文件,搜索引擎蜘蛛会把它当成robots.txt文件,影响搜索引擎对你的处理<页面的@网站 收录。

  二、用特定程序建网站的robots.txt的写法。这里只是提供一个大概的写法,具体情况自己考虑吧!

  1、如何为WordPress网站编写robots.txt文件

  用户代理: *

  禁止:/wp-admin

  禁止:/wp-content/plugins

  禁止:/wp-content/themes

  禁止:/wp-includes

  禁止:/?s=

  站点地图:***.com/sitemap.xml

  复制代码

  2、Discuz论坛如何写robots.txt文件

  用户代理: *

  允许:/redirect.php

  允许:/viewthread.php

  允许:/forumdisplay.php

  不允许: /?

  禁止:/*.php

  复制代码

  有人说设置robots.txt文件会带来被“一厢情愿者”攻击的危险,但既然你是“一厢情愿的人”,那你就没有问题(这不仅仅是建站程序本身,还有服务器安全等)。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线