谷歌 搜索引擎优化指南(Google工程师Cutts一个帮助视频里粗略地介绍.txt文件)
优采云 发布时间: 2022-03-03 08:12谷歌 搜索引擎优化指南(Google工程师Cutts一个帮助视频里粗略地介绍.txt文件)
有效使用 robots.txt
robots.txt 文件告诉搜索引擎您的 网站 的哪些部分被允许抓取。而且这个文件不仅要命名为robots.txt,还必须放在你的网站的根目录下。
网站robots.txt 文件的路径。
遵循此规则的所有搜索引擎爬虫(如通配符 * 所示)不应输入和爬取 /images/ 或任何以 /search 开头的 url。
您可能不希望您的某些 网站 页面被抓取,因为如果它们出现在搜索结果中,它们可能对用户没有多大意义。如果您想阻止搜索引擎抓取您的网页,Google网站 管理员有一个不错的 robots.txt *敏*感*词*来帮助您创建此文件。另外,如果想让子域中的某些内容不被抓取,需要在子域的目录下创建robots.txt文件。您还可以在我们的 网站管理员帮助中心获得有关 robots.txt 的更多信息。
还有其他更方便的方法可以防止您的内容出现在搜索结果中,例如将 NOINDEX 添加到 robots网站construction company 元标记,使用 htaccess 加密某些目录或使用 Google网站 管理工具删除一些已编入索引的内容。Google 工程师 Matt Cutts 的帮助视频概述了各种 URL 排除原则的注意事项。
robots.txt实战经验
使用更安全的敏感内容解决方案通过 robots.txt 阻止敏感或机密内容。这样做的原因是,如果您在 robots.txt 中阻止的链接出现在 Internet 上(例如来源记录),搜索引擎很可能会引用这些 URL(但只是 URL,而不是标题或内容片段)。)。还有一些流氓搜索引擎不遵循机器人排除标准并违反 robots.txt 上的说明。最后,一些好奇的用户会进入您的 robots.txt 被声明为阻止的目录或子目录,并猜测您不想看到什么。因此,通过 .htaccess 加密内容或实施密码保护将是一个更安全的选择。当然,你需要避免:
1.允许抓取看起来像搜索结果的页面。(用户不喜欢给自己丢一个满是无意义结果的搜索页面。)
2.允许爬取大量自动生成的页面,其中大部分收录相同或略有不同的内容。这 100,000 个几乎像副本一样的页面被搜索引擎收录有多大意义?
3.允许对代理服务器创建的 URL 进行爬网。(来源:谷歌网站管理员博客翻译:一段遐想记录)
知识补充:Robots.txt
robots.txt(统一小写)是一个 ASCII 编码的文本文件,存储在 网站 的根目录中。它通常告诉网络搜索引擎的机器人(也称为网络蜘蛛),这个网站的内容,哪些内容是搜索引擎bots无法获取的,哪些内容可以被(bots)获取。由于某些系统上的 URL 区分大小写,因此 robots.txt 文件名应统一为小写。robots.txt 应该放在 网站 的根目录下。如果您想在访问子目录时单独定义搜索引擎机器人的行为,您可以将自定义设置合并到根目录的 robots.txt 中,或使用机器人元数据。
Robots.txt 协议不是规范,而是约定,因此不保证 网站 的隐私。注意Robots.txt使用字符串比较来判断是否获取URL,所以目录末尾有和没有斜杠/这两个表示不同的URL,不能使用“禁止:西藏网站建筑公司*.gif "这样的通配符。
这个协议不是一个规范,而只是一个约定。通常,搜索引擎会识别这个元数据,而不是索引这个页面,以及链接到这个页面的页面。