php禁止网页抓取(搜索引擎User-AgentAltaVistaFastDirectHit,以供参考baiduBaiduspider,AOL)

优采云 发布时间: 2022-04-15 21:19

  php禁止网页抓取(搜索引擎User-AgentAltaVistaFastDirectHit,以供参考baiduBaiduspider,AOL)

  2021-09-25

  站长的工作是精美地设计网站并向公众呈现网站各种内容。当然,我们也希望精心设计的网站能够达到理想的排名,这就需要我们研究搜索引擎的排名规则,最大限度地展示给客户的机会。但是,有许多类型的搜索引擎。有时,我们在某个搜索引擎上排名很好,但在另一个搜索引擎上却无法获得相同的排名,因为每个搜索引擎的规则不同。为此,有些人复制相同的内容来应对不同搜索引擎的排名规则。但是,一旦搜索引擎在网站上发现大量“克隆”页面,他们就会惩罚它们,而不是收录这些重复的页面。另一方面,我们的 < @网站 是个人和私人文件,我们不想将其暴露给搜索引擎。这时候robot.txt就是解决这两个问题的。

  一、搜索引擎及其对应的User-Agent

  那么,目前的搜索引擎及其对应的 User-Agent 有哪些呢?下面,我列出一些供参考。

  搜索引擎用户代理

  AltaVista 滑板车

  百度百度蜘蛛

  信息搜索 信息搜索

  Hotbot 啜饮

  美国在线搜索啜饮

  激发 ArchitextSpider

  谷歌机器人

  Goto Slurp

  莱科斯莱科斯

  MSN 啜饮

  网景谷歌机器人

  北极光格列佛

  WebCrawler ArchitextSpider

  伊元啜饮

  快快

  DirectHit 抓取器

  雅虎网页 Googlebot

  Looksmart Web Pages Slurp

  二、机器人的基本概念

  Robots.txt 文件是一个 网站 文件,用于搜索引擎蜘蛛。搜索引擎蜘蛛首先爬取我们的网站来爬取这个文件,根据里面的内容来判断网站文件访问的范围。可以保护我们的部分文件不被搜索引擎暴露,从而有效控制蜘蛛的爬取路径,为我们站长做好seo创造必要条件。尤其是我们网站刚创建的时候,有些内容并不完善,暂时不想被搜索引擎收录。

  robots.txt 也可以在目录中使用。设置此目录中文件的搜索范围。

  几点注意事项:

  网站必须有robot.txt 文件。

  文件名是小写字母。

  当需要完全屏蔽文件时,需要配合meta的robots属性。

  三、robots.txt 的基本语法

  内容项的基本格式:键:值对。

  1) 用户代理密钥

  以下内容对应每个特定搜索引擎爬虫的名称。比如百度就是Baiduspider,谷歌就是Googlebot。

  通常我们这样写:

  用户代理: *

  表示允许所有搜索引擎蜘蛛爬行。如果你只想让某个搜索引擎蜘蛛抓取,只要在它后面列出名字即可。如果不止一个,重复书写。

  注意:User-Agent:后面必须跟一个空格。

  在 robots.txt 中,在 key 之后添加一个 : 符号,并且后面必须有一个空格来将它与 value 分开。

  2)禁止键

  此键用于指定不允许被搜索引擎蜘蛛抓取的 URL 路径。

  例如: Disallow: /index.php 禁止 网站index.php 文件

  允许键

  此键指定允许搜索引擎蜘蛛抓取的 URL 路径

  例如: Allow: /index.php 允许 网站 的 index.php

  通配符 *

  表示任意数量的字符

  例如: Disallow: /*.jpg 网站禁止所有 jpg 文件。

  终结者 $

  表示以前面字符结尾的 url。

  例如:禁止:/?$ 网站所有以 ? 结尾的文件 被禁止。

  四、robots.txt 实例分析

  示例 1. 禁止所有搜索引擎访问 网站 的任何部分

  用户代理: *

  不允许: /

  示例 2. 允许所有搜索引擎访问 网站 的任何部分

  用户代理: *

  不允许:

  示例 3. 仅禁止百度蜘蛛访问您的 网站

  用户代理:百度蜘蛛

  不允许: /

  示例 4. 只允许百度蜘蛛访问你的 网站

  用户代理:百度蜘蛛

  不允许:

  示例 5. 禁止蜘蛛访问特定目录

  用户代理: *

  禁止:/cgi-bin/

  禁止:/tmp/

  禁止:/数据/

  注意:1)三个目录要分开写。2)请注意尾部斜杠。3)带斜线和不带斜线的区别。

  示例 6. 允许访问特定目录中的部分 url

  我希望只允许a目录下的b.htm访问,怎么写呢?

  用户代理: *

  允许:/a/b.htm

  禁止:/a/

  注意:允许收录 优先于禁止收录。

  从示例 7 开始说明通配符的使用。通配符包括 ("$" 终止符;

  “*” 任意字符)

  示例 7. 禁用对 网站 中所有动态页面的访问

  用户代理: *

  不允许: /*?*

  示例 8. 禁止搜索引擎抓取 网站 上的所有图片

  用户代理: *

  禁止:/*.jpg$

  禁止:/*.jpeg$

  禁止:/*.gif$

  禁止:/*.png$

  禁止:/*.bmp$

  在许多其他情况下,需要逐案分析。只要了解这些语法规则和通配符的使用,相信很多情况都可以解决。

  五、元机器人标签

  meta是网页html文件的head标签中的标签内容。它指定与搜索引擎配对的这个 html 文件的爬网规则。与robot.txt 不同,它只针对用这个html 编写的文件。

  写作:

  .

  ...其内容如下

  noindex - 防止页面被索引。

  nofollow - 防止对页面中的任何超链接进行索引。

  noarchive - 不为此页面保存页面快照。

  nosnippet - 不在搜索结果中显示此页面的摘要信息,也不保存此页面的页面快照。

  noodp - 不要在搜索结果中使用 Open Directory 项目描述信息作为其摘要信息。

  六、机器人测试

  在谷歌站长工具中,添加网站后,使用左侧爬虫的权限来测试网站的robots,具体见图。

  

<p>robots.txt和mtea robots的内容就介绍到这里了。相信大家对机器人有了更详细的了解。善用机器人在我们的 网站 SEO 中起着重要作用。如果做得好,可以有效地屏蔽那些我们不希望搜索引擎抓取的页面,即用户体验差的页面,这对网站是有利的。@关键词ranking的内页可以充分展示客户,增加搜索引擎在站点内页面的权重,有助于我们做更好的

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线