谷歌网页视频抓取工具(如何解决在谷歌网站管理员工具的抓取错误(组图))

优采云 发布时间: 2021-11-02 13:01

  谷歌网页视频抓取工具(如何解决在谷歌网站管理员工具的抓取错误(组图))

  如何解决谷歌网站管理工具中的抓取错误,能否让你希望消除这些错误似乎是一个永远无法实现的艰巨任务。关键是要知道哪些错误对你的网站来说是最关键的问题,哪些是可以忽略的简单消息,这样你才能有真正的肉问题。关注您的错误很重要的原因是它们对您的用户和 Google 抓取工具的影响。有数以千计的 404 错误,尤其是那些被编入索引或链接到其他页面的 URL,会给您的用户带来潜在的不良用户体验。如果他们在一个会话中登录多个 404 页面,你对 网站 的信任就会降低,这当然会导致沮丧和反弹。你不想错过其他网站的链接汁,它们都指向你网站中死掉的一个URL,如果你能解决这个爬虫错误的问题,并且重定向到一个好的URL,你就可以抓取、链接,帮助你的排名。此外,Google 确实为您分配了一组抓取预算网站。如果很多机器人花时间抓取你的错误页面,它就没有时间去更深入、更有价值的网页。,实际上是在工作。闲话少说,下面是主要的分类,在谷歌的网站管理员工具的抓取错误报告中显示: 这部分返回的HTTP页面通常显示错误,例如页面403,而不是最大的问题网站管理员工具。您可以捕获、链接和帮助您的排名。此外,Google 确实为您分配了一组抓取预算网站。如果很多机器人花时间抓取你的错误页面,它就没有时间去更深入、更有价值的网页。,实际上是在工作。闲话少说,下面是主要的分类,在谷歌的网站管理员工具的抓取错误报告中显示: 这部分返回的HTTP页面通常显示错误,例如页面403,而不是最大的问题网站管理员工具。您可以捕获、链接和帮助您的排名。此外,Google 确实为您分配了一组抓取预算网站。如果很多机器人花时间抓取你的错误页面,它就没有时间去更深入、更有价值的网页。,实际上是在工作。闲话少说,下面是主要的分类,在谷歌的网站管理员工具的抓取错误报告中显示: 这部分返回的HTTP页面通常显示错误,例如页面403,而不是最大的问题网站管理员工具。

  有关更多文档的所有 HTTP 状态代码的列表,请查看 Google 自己的帮助页面。此外,在 SEO 小工具令人惊叹的服务器标题 101 上还有一个关于 SixRevisions 的信息图。Sitemap中的Sitemap错误往往是旧的网站地图因为404'd导致的,或者是当前站点地图返回了404错误页面。请确保您的 网站 地图中的所有链接都符合您希望 Google 抓取的链接的质量。谷歌确实是一个令人沮丧的东西,它会继续爬行,因为你删除了它来检查站点地图和网址,这实际上是旧的网站地图。如果您有旧的站点地图,您已经删除了网站管理员工具,并且不想被抓取,请确保站点地图是404并且您没有重定向网站 映射您当前的站点地图。来自 Google 员工 Susan Moskwa:他说:“是阻止 Googlebot 抓取 URL 的最佳方式。它发现这些 URL 过去(例如旧站点地图)是 404。在多次看到一个 URL 404 后,我们停止抓取。之后,我们将停止抓取 网站 地图,它应该放弃您的“所有站点地图”选项卡。未能遵循这些错误通常是由于重定向错误。确保最小化重定向链并设置重定向计时器以在短期内不使用元刷新页面的头部。Matt Cutts 有一个很好的 Youtube 视频重定向链,如果你想跳到 2:45 就开始吧。在多次看到一个 URL 后, 404 ,我们停止爬行。在那之后,我们停止抓取 网站 地图,它应该放弃你的“所有站点地图”标签。”未能遵循这些错误通常是由于重定向错误。确保最小化重定向链并将重定向计时器设置为在短期内不使用元刷新页面的头部。Matt Cutts 有一个很好的 Youtube 视频重定向链,如果你想跳到 2:45 就开始吧。在多次看到一个 URL 后, 404 ,我们停止爬行。之后,我们停止抓取 网站 地图,它应该放弃您的“所有站点地图”选项卡。”未能遵循这些错误通常是由于重定向错误。确保最小化重定向链并将重定向计时器设置为在短期内不使用元刷新页面的头部。Matt Cutts 有一个很好的 Youtube 视频重定向链,如果你想跳到 2:45 就开始吧。

  谷歌爬虫用完后,重定向链。实现后,重定向查看:当你永久重定向页面时,确保它们返回正确的HTTP状态码,301永久移动。确保您没有任何重定向循环并返回到您自己的重定向点。请确保重定向指向有效页面,而不是 404 页面或其他错误页面,例如 503(服务器错误)或 403(禁止)。请确保您重定向到的页面不为空。使用的工具:检查您的重定向响应头检查工具,例如URI 代客检查服务器头工具。Screaming Frog 是一个很好的工具,可以检查您的 网站 网页是否有 301 重定向,以及哪些显示 404 错误或 500 错误。免费版超过了网站上500页的上限。超出此,您需要购买完整版。SiteOpSys 搜索引擎索引检查是一个很好的工具,您可以将您的 URL 放在您提交的重定向列表中。此工具将允许您检查您的 URL,查看哪些索引是批量的,哪些不是。如果您最初重定向到的网址不再编入索引,则意味着在 Google 从其索引中删除旧网址并看到 301 重定向后,您可以删除该行。htaccess 文件重定向。检查您的 网站,查看从 Google SERP 中列出的 网站 纯文本版本的缓存版本,然后选择“纯文本版本。确保您可以看到所有指向它们的链接 没有隐藏的 Javascript 、Flash、cookie、会话 ID、DHTML 或框架。此工具将允许您检查您的 URL,查看哪些索引是批量的,哪些不是。如果您最初重定向到的网址不再编入索引,则意味着在 Google 从其索引中删除旧网址并看到 301 重定向后,您可以删除该行。htaccess 文件重定向。检查您的 网站,查看从 Google SERP 中列出的 网站 纯文本版本的缓存版本,然后选择“纯文本版本。确保您可以看到所有指向它们的链接 没有隐藏的 Javascript 、Flash、cookie、会话 ID、DHTML 或框架。此工具将允许您检查您的 URL,查看哪些索引是批量的,哪些不是。如果您最初重定向到的网址不再编入索引,则意味着在 Google 从其索引中删除旧网址并看到 301 重定向后,您可以删除该行。htaccess 文件重定向。检查您的 网站,查看从 Google SERP 中列出的 网站 纯文本版本的缓存版本,然后选择“纯文本版本。确保您可以看到所有指向它们的链接 没有隐藏的 Javascript 、Flash、cookie、会话 ID、DHTML 或框架。

  请务必使用绝对路径而不是相对链接。内容抓取器抓取的图像或链接可以在他们的 网站 上引用以联系您的亲戚。如果分辨率不正确,您以后可能看不到任何错误显示。在您的 网站 管理员工具中,在我们的 网站 发生这种情况之前,几乎不可能找到导致错误的源链接。未发现的错误和您的 网站 404 错误未找到。404 错误可能有多种发生方式: 删除 网站 上的页面而不是 301 重定向 您可以更改 网站 上的页面名称,没有 301 重定向 您输入错误网站的内部链接,链接的页面不存在。其他人从其他网站 链接到您,但其链接中有错字。你将迁移网站 到一个新的域和子文件夹 完全不匹配的最佳实践:如果您链接到 404 页面,那么您应该 301 重定向到的页面的链接应该去,如果该页面已被删除,则是类似或父页面。您没有 301 重定向 404 页面。如果您有太多重定向,这实际上会减慢您的 网站 速度。如果你有一个旧页面或一大堆页面,你想彻底删除它们,让这些404s是可以的。这实际上是 Google 推荐的一种方式,让 Googlebot 知道您不再需要哪些页面。有一个很好的网站管理员中心博客文章。他们在 网站Administrator Tools 中处理关于 Google 如何看待它的 404 页面。每个人都应该阅读它,因为它消除了常见的“404 不好,应该重定向”的神话。

  RAND 也有一篇很棒的帖子,无论 404 SEO 是否总是糟糕的。有关这些错误的更多信息受 robots.txt 限制,因为它表明某些 URL 被您的 robots.txt 文件阻止,因此第一步是检查您的 robots.txt 文件并确保您确实要阻止那些 URL列出。有时它会出现在这里,而没有明确阻止 robots.txt 文件中列出的 URL。这应该从个人的角度来看,其中一些可能有奇怪的原因。一个很好的调查方法是通过 URI 代客运行可疑 URL 并查看响应代码。另外,请检查您的 htacess 文件以查看是否有重定向 URL 的规则。软 404 如果你有一个网页,内容非常单薄,或者看起来像一个登陆页面,你可能会被归类为软 404。这种分类并不理想,如果你想要你应该确保它返回一个硬 404,如果你的页面被列为软 404,这是你的主要内容页面,你需要先解决这个页面 404 请确保它不会出现这个错误。如果您返回的是 404 页面,它会被列为软 404 标头 HTTP 响应代码,这意味着不会返回 Not Found 响应代码 404 页面。Google 建议“您将始终返回 404(未找到)或 410(消失)代码以响应不存在的页面请求。” 当我们的一个客户看到一堆这样的错误时,我们将大量损坏的 URL 重定向到一个只有图像和几行文本的临时登录页面。如果您返回的是 404 页面,它会被列为软 404 标头 HTTP 响应代码,这意味着不会返回 Not Found 响应代码 404 页面。Google 建议“您将始终返回 404(未找到)或 410(消失)代码以响应不存在的页面请求。” 当我们的一个客户看到一堆这样的错误时,我们将大量损坏的 URL 重定向到一个只有图像和几行文本的临时登录页面。如果您返回的是 404 页面,它会被列为软 404 标头 HTTP 响应代码,这意味着不会返回 Not Found 响应代码 404 页面。Google 建议“您将始终返回 404(未找到)或 410(消失)代码以响应不存在的页面请求。” 当我们的一个客户看到一堆这样的错误时,我们将大量损坏的 URL 重定向到一个只有图像和几行文本的临时登录页面。

  Google 看到了这个自定义的 404 页面,即使它只是一个着陆页并被划分为软 404 重定向的 URL。超时 如果页面加载时间过长,Googlebot 会在一段时间后停止尝试调用它。检查您的服务器日志是否有任何问题,并检查您的网页、网页加载速度、超时。超时错误类型:DNS 查找超时-Googlebot 的请求无法获取您域名的服务器,请检查 DNS 设置。有时这就是 Google 的终结,如果一切顺利,它就在您身边。Pingdom 是检查域名 DNS 健康状况的好工具,它会告诉您出现的任何问题。URL 超时 - 来自特定页面的错误,而不是整个域。Robots.txt timeout-如果您的robots.txt文件存在但服务器超时,当Google尝试抓取时,Google 会延迟,直到它可以访问您的 robots.txt 文件,以确保它可以抓取您的 网站 它不会抓取任何被阻止的 robots.txt 文件的 URL。请注意,如果您没有 robots.txt 并且 Google 在尝试访问您的 robots.txt 时收到 404,它将继续抓取 网站,因为它假定该文件不存在。Unreachable unreachable 错误可能会导致内部服务器错误或 DNS 问题。如果 robots.txt 文件阻止爬虫访问该页面,该页面也可以被标记为无法访问。因为它假定该文件不存在。Unreachable unreachable 错误可能会导致内部服务器错误或 DNS 问题。如果 robots.txt 文件阻止爬虫访问该页面,则该页面也可能被标记为无法访问。因为它假定该文件不存在。Unreachable unreachable 错误可能会导致内部服务器错误或 DNS 问题。如果 robots.txt 文件阻止爬虫访问该页面,该页面也可以被标记为无法访问。

  属于不可达标头的可能错误是“无响应”、“500 错误”和“DNS 问题”错误。无法访问的错误可能有多种原因,因此我不会在这里列出一长串,而是指出 Google 自己的参考指南。Rand 早在 2008 年就谈到了服务器问题的影响。结论 Google 网站 管理工具远非完美。尽管我们都了解谷歌的透明度并向我们展示了他们所看到的,但仍有一些事情需要解决。首先,谷歌是世界上最好的搜索引擎,但你无法搜索你的错误报告。从一个月前开始,它允许您在晚上找到一个 URL。至少它们可以辅以良好的分页,但可以通过单击第20页,第21页的数据来跟上您的身体。解决方法之一是编辑编辑页面的 URL 字符串,显示的错误列表,您要查找的部分。您可以将所有数据下载到 Excel 文件中。这是最好的解决方案,但 Google 仍应升级“网站管理员工具”以允许在应用程序内进行搜索。此外,网站 所有者应该能够删除自己域中的所有站点地图,即使其他人去年上传了它。目前您只能删除站点地图并将其上传到您的网站管理员工具帐户。如果 Jimmy Agency X 上传一年前的图片 网站 地图在你放他们之前,它仍然会显示在所有 Sitemaps”选项卡中。摆脱它的解决方案是制作 网站 地图 404,它最终会倒下,但它可能是你身边的一根刺,每天都看到它,直到它离开。或许,随着士兵们开始升级他们的网站管理员工具,我们会开始看到一些在他们的产品中两个搜索引擎之间的竞争更加激烈。稍后,也许有一天,我们将在搜索引擎中获得我们的 网站 完全透明和完全控制。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线