搜索引擎优化指南3.0(Google工程师Cutts一个帮助视频里粗略地文件的注意事项文件)
优采云 发布时间: 2022-01-12 03:02搜索引擎优化指南3.0(Google工程师Cutts一个帮助视频里粗略地文件的注意事项文件)
有效使用 robots.txt
robots.txt 文件告诉搜索引擎您的 网站 的哪些部分被允许抓取。而且这个文件不仅要命名为“robots.txt”,还必须放在你的网站的根目录下。
网站robots.txt 文件的路径。
遵循此规则的所有搜索引擎爬虫(如通配符 * 所示)不应输入和爬取 /images/ 或任何以 /search 开头的 url。
您可能不希望您的某些 网站 页面被抓取,因为如果它们出现在搜索结果中,它们可能对用户没有多大意义。如果您想阻止搜索引擎抓取您的网页,Google网站 管理员有一个不错的 robots.txt *敏*感*词*来帮助您创建此文件。另外,如果想让子域中的某些内容不被抓取,需要在子域的目录下创建robots.txt文件。您还可以在我们的 网站管理员帮助中心获得有关 robots.txt 的更多信息。
还有其他更方便的方法可以防止您的内容出现在搜索结果中,例如在 robots 元标记中添加“NOINDEX”,使用 htaccess 加密某些目录或使用 Google网站Admin 工具移动除了一些已经索引的内容。Google 工程师 Matt Cutts 的帮助视频概述了各种 URL 排除原则的注意事项。
robots.txt实战经验
对敏感内容使用更安全的解决方案 - 通过 robots.txt 阻止敏感或机密内容。这样做的原因是,如果您在 robots.txt 中阻止的链接出现在 Internet 上(例如来源记录),搜索引擎可能会引用这些 URL(但只是 URL,而不是标题或内容片段)。)。还有一些流氓搜索引擎不遵循机器人排除标准并违反 robots.txt 上的说明。最后,一些好奇的用户会进入您的 robots.txt 被声明为阻止的目录或子目录,并猜测您不想看到什么。因此,通过 .htaccess 加密内容或实施密码保护将是一个更安全的选择。当然,你需要避免:
1.允许抓取看起来像搜索结果的页面。(用户不喜欢给自己丢一个满是无意义结果的搜索页面。)
2.允许爬取大量自动生成的页面,其中大部分收录相同或略有不同的内容。“这10万个几乎是重复的页面被搜索引擎索引了,这有什么意义?”
3.允许对代理服务器创建的 URL 进行爬网。(来源:谷歌网站管理员博客翻译:一段遐想记录)
知识补充:Robots.txt
robots.txt(统一小写)是一个 ASCII 编码的文本文件,存储在 网站 的根目录中。它通常告诉网络搜索引擎的机器人(也称为网络蜘蛛),这个网站的内容哪些内容是搜索引擎bots无法获取的,哪些内容可以被(bots)获取。由于某些系统上的 URL 区分大小写,因此 robots.txt 文件名应统一为小写。robots.txt 应该放在 网站 的根目录下。如果您想在访问子目录时单独定义搜索引擎机器人的行为,您可以将自定义设置合并到根目录的 robots.txt 中,或使用机器人元数据。
Robots.txt 协议不是规范,而是约定,因此不保证 网站 的隐私。注意,Robots.txt 使用字符串比较来判断是否获取 URL,因此目录末尾有带和不带斜杠“/”的两个不同的 URL,不能使用“Disallow: *.gif”等通配符用过的。
这个协议不是一个规范,而只是一个约定。通常,搜索引擎会识别这个元数据,而不是索引这个页面,以及链接到这个页面的页面。