搜索引擎优化宝典 pdf( 网络搜索引擎的漫游器访问子目录的内容是怎样的?)

优采云 发布时间: 2022-02-15 20:14

  搜索引擎优化宝典 pdf(

网络搜索引擎的漫游器访问子目录的内容是怎样的?)

  

  

  robots.txt(统一小写)是一个 ASCII 编码的文本文件,存储在 网站 的根目录中。哪些内容不应该被搜索引擎机器人获取,哪些内容可以被机器人获取。由于某些系统上的 URL 区分大小写,因此 robots.txt 文件名应统一为小写。robots.txt 应该放在 网站 的根目录下。如果要定义搜索引擎机器人在访问子目录时的行为,可以将自定义设置合并到根目录下的 robots.txt 中,或者使用 robots 元数据(Metadata,也称为元数据)。

  robots.txt 协议不是规范,而是约定,因此不保证网站 的隐私。注意robots.txt使用字符串比较来判断是否获取URL,所以目录末尾的URL和不带斜杠“/”的URL是不同的。robots.txt 允许使用通配符,例如“Disallow: *.gif”。

  影响搜索引擎行为的其他方法包括使用机器人元数据:

  这个协议也不是一个规范,而只是一个约定,一些搜索引擎遵循这个规范,而另一些则没有。通常搜索引擎会识别这个元数据并且不会索引这个页面,以及链接到这个页面的页面。

  

  内容

  1 个例子

  3 种选择

  4 参考文献

  5外部链接

  例子

  允许所有机器人:

  用户代理: *

  不允许:

  另一种写作方式

  用户代理: *

  允许:/

  只允许特定的机器人:(name_spider 替换为真实姓名)

  用户代理:name_spider

  允许:

  阻止所有机器人:

  用户代理: *

  不允许: /

  阻止所有机器人访问特定目录:

  用户代理: *

  禁止:/cgi-bin/

  禁止:/图像/

  禁止:/tmp/

  禁止:/private/

  仅阻止不良爬虫访问特定目录(BadBot 代替实名):

  用户代理:BadBot

  禁止:/private/

  阻止所有机器人访问某些文件类型 [2]:

  用户代理: *

  禁止:/*.php$

  禁止:/*.js$

  禁止:/*.inc$

  禁止:/*.css$

  非标准扩展协议

  自动发现站点地图文件

  Sitemap 指令受到多个主要搜索引擎(包括 Google、Yahoo、Bing 和 Ask)的支持,并指定 网站Sitemaps 文件的位置。Sitemaps 文件收录 网站 页面所在的 URL 列表。Sitemap 指令不受 User-agent 指令的限制,因此可以放在 robots.txt 文件中的任何位置。[3] 唯一需要注意的是使用网站 map命令,将URL的“location”值替换为网站 map的地址,例如下面是网站 map 命令示例:

  网站地图:

  如何编写站点地图文件,请参考(英文)上的说明。

  爬行延迟指令

  几大爬虫支持Crawl-delay参数,设置同一服务器之间连续请求等待的秒数:[4][5]

  用户代理: *

  爬行延迟:10

  允许指令

  一些大型 Crawler 支持 Allow 指令,该指令可以否定先前的 Disallow 指令。像谷歌机器人。[6]

  替补[编辑]

  虽然 robots.txt 是最广泛接受的方法,但它也可以与 robots META 标签一起使用。robots META标签主要是为独立页面设置的。与其他 META 标签(如使用的语言、页面描述、关键词 等)一样,robots META 标签也放置在页面的 HEAD 标签中。告诉搜索引擎机器人如何抓取页面的内容。笔记

  参考

  跳转 ^ 使用 robots.txt 文件阻止或删除页面 (HTML)。谷歌网站网站管理员工具帮助。[2012-10-16]。

  ^ 跳转至: 2.0 2.1 完整指南:如何编写好的 WordPress 博客 Robots.txt 文件 (HTML)。观察心。[2013-02-14]。

  Jump up ^ Jerri L. Ledord,马宇译。搜索引擎优化书。: 257.

  Jump up^ 如何减少您在我的网站上提出的请求数量?(HTML)。雅虎!啜饮。[2007-02-08](英文)。

  跳转 ^ MSNBot 过于频繁地抓取网站 (HTML)。解决 MSNBot 和站点爬网问题。[2007-02-08](英文)。

  跳转 ^ 如何阻止 Googlebot(Google网站网站管理员工具帮助)(简体中文)

  外部链接

  网络机器人页面

  

  一

  本账号致力于推广好文章,内容仅供学习交流,对文章观点保持中立。

  文章版权归原作者或组织所有。如有版权问题,请联系我们。

  您的新营销顾问“新零售决策的内部参考”

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线