搜索引擎优化宝典 pdf( 网络搜索引擎的漫游器访问子目录的内容是怎样的?)
优采云 发布时间: 2022-02-15 20:14搜索引擎优化宝典 pdf(
网络搜索引擎的漫游器访问子目录的内容是怎样的?)
robots.txt(统一小写)是一个 ASCII 编码的文本文件,存储在 网站 的根目录中。哪些内容不应该被搜索引擎机器人获取,哪些内容可以被机器人获取。由于某些系统上的 URL 区分大小写,因此 robots.txt 文件名应统一为小写。robots.txt 应该放在 网站 的根目录下。如果要定义搜索引擎机器人在访问子目录时的行为,可以将自定义设置合并到根目录下的 robots.txt 中,或者使用 robots 元数据(Metadata,也称为元数据)。
robots.txt 协议不是规范,而是约定,因此不保证网站 的隐私。注意robots.txt使用字符串比较来判断是否获取URL,所以目录末尾的URL和不带斜杠“/”的URL是不同的。robots.txt 允许使用通配符,例如“Disallow: *.gif”。
影响搜索引擎行为的其他方法包括使用机器人元数据:
这个协议也不是一个规范,而只是一个约定,一些搜索引擎遵循这个规范,而另一些则没有。通常搜索引擎会识别这个元数据并且不会索引这个页面,以及链接到这个页面的页面。
内容
1 个例子
3 种选择
4 参考文献
5外部链接
例子
允许所有机器人:
用户代理: *
不允许:
另一种写作方式
用户代理: *
允许:/
只允许特定的机器人:(name_spider 替换为真实姓名)
用户代理:name_spider
允许:
阻止所有机器人:
用户代理: *
不允许: /
阻止所有机器人访问特定目录:
用户代理: *
禁止:/cgi-bin/
禁止:/图像/
禁止:/tmp/
禁止:/private/
仅阻止不良爬虫访问特定目录(BadBot 代替实名):
用户代理:BadBot
禁止:/private/
阻止所有机器人访问某些文件类型 [2]:
用户代理: *
禁止:/*.php$
禁止:/*.js$
禁止:/*.inc$
禁止:/*.css$
非标准扩展协议
自动发现站点地图文件
Sitemap 指令受到多个主要搜索引擎(包括 Google、Yahoo、Bing 和 Ask)的支持,并指定 网站Sitemaps 文件的位置。Sitemaps 文件收录 网站 页面所在的 URL 列表。Sitemap 指令不受 User-agent 指令的限制,因此可以放在 robots.txt 文件中的任何位置。[3] 唯一需要注意的是使用网站 map命令,将URL的“location”值替换为网站 map的地址,例如下面是网站 map 命令示例:
网站地图:
如何编写站点地图文件,请参考(英文)上的说明。
爬行延迟指令
几大爬虫支持Crawl-delay参数,设置同一服务器之间连续请求等待的秒数:[4][5]
用户代理: *
爬行延迟:10
允许指令
一些大型 Crawler 支持 Allow 指令,该指令可以否定先前的 Disallow 指令。像谷歌机器人。[6]
替补[编辑]
虽然 robots.txt 是最广泛接受的方法,但它也可以与 robots META 标签一起使用。robots META标签主要是为独立页面设置的。与其他 META 标签(如使用的语言、页面描述、关键词 等)一样,robots META 标签也放置在页面的 HEAD 标签中。告诉搜索引擎机器人如何抓取页面的内容。笔记
参考
跳转 ^ 使用 robots.txt 文件阻止或删除页面 (HTML)。谷歌网站网站管理员工具帮助。[2012-10-16]。
^ 跳转至: 2.0 2.1 完整指南:如何编写好的 WordPress 博客 Robots.txt 文件 (HTML)。观察心。[2013-02-14]。
Jump up ^ Jerri L. Ledord,马宇译。搜索引擎优化书。: 257.
Jump up^ 如何减少您在我的网站上提出的请求数量?(HTML)。雅虎!啜饮。[2007-02-08](英文)。
跳转 ^ MSNBot 过于频繁地抓取网站 (HTML)。解决 MSNBot 和站点爬网问题。[2007-02-08](英文)。
跳转 ^ 如何阻止 Googlebot(Google网站网站管理员工具帮助)(简体中文)
外部链接
网络机器人页面
一
本账号致力于推广好文章,内容仅供学习交流,对文章观点保持中立。
文章版权归原作者或组织所有。如有版权问题,请联系我们。
您的新营销顾问“新零售决策的内部参考”