搜索引擎优化指南3.0(Google工程师Cutts一个帮助视频里粗略地文件的注意事项文件)

优采云发布时间: 2022-01-12 03:02

　　有效使用 robots.txt

　　robots.txt 文件告诉搜索引擎您的网站的哪些部分被允许抓取。而且这个文件不仅要命名为“robots.txt”，还必须放在你的网站的根目录下。

　　网站robots.txt 文件的路径。

　　遵循此规则的所有搜索引擎爬虫（如通配符 * 所示）不应输入和爬取 /images/ 或任何以 /search 开头的 url。

　　您可能不希望您的某些网站页面被抓取，因为如果它们出现在搜索结果中，它们可能对用户没有多大意义。如果您想阻止搜索引擎抓取您的网页，Google网站管理员有一个不错的 robots.txt *敏*感*词*来帮助您创建此文件。另外，如果想让子域中的某些内容不被抓取，需要在子域的目录下创建robots.txt文件。您还可以在我们的网站管理员帮助中心获得有关 robots.txt 的更多信息。

　　还有其他更方便的方法可以防止您的内容出现在搜索结果中，例如在 robots 元标记中添加“NOINDEX”，使用 htaccess 加密某些目录或使用 Google网站Admin 工具移动除了一些已经索引的内容。Google 工程师 Matt Cutts 的帮助视频概述了各种 URL 排除原则的注意事项。

　　robots.txt实战经验

　　对敏感内容使用更安全的解决方案 - 通过 robots.txt 阻止敏感或机密内容。这样做的原因是，如果您在 robots.txt 中阻止的链接出现在 Internet 上（例如来源记录），搜索引擎可能会引用这些 URL（但只是 URL，而不是标题或内容片段）。）。还有一些流氓搜索引擎不遵循机器人排除标准并违反 robots.txt 上的说明。最后，一些好奇的用户会进入您的 robots.txt 被声明为阻止的目录或子目录，并猜测您不想看到什么。因此，通过 .htaccess 加密内容或实施密码保护将是一个更安全的选择。当然，你需要避免：

　　1.允许抓取看起来像搜索结果的页面。（用户不喜欢给自己丢一个满是无意义结果的搜索页面。）

　　2.允许爬取大量自动生成的页面，其中大部分收录相同或略有不同的内容。“这10万个几乎是重复的页面被搜索引擎索引了，这有什么意义？”

　　3.允许对代理服务器创建的 URL 进行爬网。（来源：谷歌网站管理员博客翻译：一段遐想记录）

　　知识补充：Robots.txt

　　robots.txt（统一小写）是一个 ASCII 编码的文本文件，存储在网站的根目录中。它通常告诉网络搜索引擎的机器人（也称为网络蜘蛛），这个网站的内容哪些内容是搜索引擎bots无法获取的，哪些内容可以被（bots）获取。由于某些系统上的 URL 区分大小写，因此 robots.txt 文件名应统一为小写。robots.txt 应该放在网站的根目录下。如果您想在访问子目录时单独定义搜索引擎机器人的行为，您可以将自定义设置合并到根目录的 robots.txt 中，或使用机器人元数据。

　　Robots.txt 协议不是规范，而是约定，因此不保证网站的隐私。注意，Robots.txt 使用字符串比较来判断是否获取 URL，因此目录末尾有带和不带斜杠“/”的两个不同的 URL，不能使用“Disallow: *.gif”等通配符用过的。

　　这个协议不是一个规范，而只是一个约定。通常，搜索引擎会识别这个元数据，而不是索引这个页面，以及链接到这个页面的页面。

0

2022-01-12

搜索引擎优化指南3.0

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎优化指南3.0(Google工程师Cutts一个帮助视频里粗略地文件的注意事项文件)

0 个评论

发起人

AI时代内容工厂

搜索引擎优化指南3.0(Google工程师Cutts一个帮助视频里粗略地文件的注意事项文件)

0 个评论

发起人

相关问题