搜索引擎优化宝典 pdf( 网络搜索引擎的漫游器访问子目录的内容是怎样的？)

优采云发布时间: 2022-02-15 20:14

　　搜索引擎优化宝典 pdf(

网络搜索引擎的漫游器访问子目录的内容是怎样的？)

　　robots.txt（统一小写）是一个 ASCII 编码的文本文件，存储在网站的根目录中。哪些内容不应该被搜索引擎机器人获取，哪些内容可以被机器人获取。由于某些系统上的 URL 区分大小写，因此 robots.txt 文件名应统一为小写。robots.txt 应该放在网站的根目录下。如果要定义搜索引擎机器人在访问子目录时的行为，可以将自定义设置合并到根目录下的 robots.txt 中，或者使用 robots 元数据（Metadata，也称为元数据）。

　　robots.txt 协议不是规范，而是约定，因此不保证网站的隐私。注意robots.txt使用字符串比较来判断是否获取URL，所以目录末尾的URL和不带斜杠“/”的URL是不同的。robots.txt 允许使用通配符，例如“Disallow: *.gif”。

　　影响搜索引擎行为的其他方法包括使用机器人元数据：

　　这个协议也不是一个规范，而只是一个约定，一些搜索引擎遵循这个规范，而另一些则没有。通常搜索引擎会识别这个元数据并且不会索引这个页面，以及链接到这个页面的页面。

　　内容

　　1 个例子

　　3 种选择

　　4 参考文献

　　5外部链接

　　例子

　　允许所有机器人：

　　用户代理： *

　　不允许：

　　另一种写作方式

　　用户代理： *

　　允许：/

　　只允许特定的机器人：（name_spider 替换为真实姓名）

　　用户代理：name_spider

　　允许：

　　阻止所有机器人：

　　用户代理： *

　　不允许： /

　　阻止所有机器人访问特定目录：

　　用户代理： *

　　禁止：/cgi-bin/

　　禁止：/图像/

　　禁止：/tmp/

　　禁止：/private/

　　仅阻止不良爬虫访问特定目录（BadBot 代替实名）：

　　用户代理：BadBot

　　禁止：/private/

　　阻止所有机器人访问某些文件类型 [2]：

　　用户代理： *

　　禁止：/*.php$

　　禁止：/*.js$

　　禁止：/*.inc$

　　禁止：/*.css$

　　非标准扩展协议

　　自动发现站点地图文件

　　Sitemap 指令受到多个主要搜索引擎（包括 Google、Yahoo、Bing 和 Ask）的支持，并指定网站Sitemaps 文件的位置。Sitemaps 文件收录网站页面所在的 URL 列表。Sitemap 指令不受 User-agent 指令的限制，因此可以放在 robots.txt 文件中的任何位置。[3] 唯一需要注意的是使用网站 map命令，将URL的“location”值替换为网站 map的地址，例如下面是网站 map 命令示例：

　　如何编写站点地图文件，请参考（英文）上的说明。

　　爬行延迟指令

　　几大爬虫支持Crawl-delay参数，设置同一服务器之间连续请求等待的秒数：[4][5]

　　用户代理： *

　　爬行延迟：10

　　允许指令

　　一些大型 Crawler 支持 Allow 指令，该指令可以否定先前的 Disallow 指令。像谷歌机器人。[6]

　　替补[编辑]

　　虽然 robots.txt 是最广泛接受的方法，但它也可以与 robots META 标签一起使用。robots META标签主要是为独立页面设置的。与其他 META 标签（如使用的语言、页面描述、关键词等）一样，robots META 标签也放置在页面的 HEAD 标签中。告诉搜索引擎机器人如何抓取页面的内容。笔记

　　参考

　　跳转 ^ 使用 robots.txt 文件阻止或删除页面 (HTML)。谷歌网站网站管理员工具帮助。[2012-10-16]。

　　^ 跳转至： 2.0 2.1 完整指南：如何编写好的 WordPress 博客 Robots.txt 文件 (HTML)。观察心。[2013-02-14]。

　　Jump up ^ Jerri L. Ledord，马宇译。搜索引擎优化书。: 257.

　　Jump up^ 如何减少您在我的网站上提出的请求数量？（HTML）。雅虎！啜饮。[2007-02-08]（英文）。

　　跳转 ^ MSNBot 过于频繁地抓取网站 (HTML)。解决 MSNBot 和站点爬网问题。[2007-02-08]（英文）。

　　跳转 ^ 如何阻止 Googlebot（Google网站网站管理员工具帮助）（简体中文）

　　外部链接

　　网络机器人页面

　　一

　　本账号致力于推广好文章，内容仅供学习交流，对文章观点保持中立。

　　文章版权归原作者或组织所有。如有版权问题，请联系我们。

　　您的新营销顾问“新零售决策的内部参考”

0

2022-02-15

搜索引擎优化宝典 pdf

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎优化宝典 pdf( 网络搜索引擎的漫游器访问子目录的内容是怎样的？)

0 个评论

发起人

AI时代内容工厂

搜索引擎优化宝典 pdf( 网络搜索引擎的漫游器访问子目录的内容是怎样的？)

0 个评论

发起人

相关问题