网站内容抓取工具(一个中的错误是因为301从定向引起的执行重定向注意什么)
优采云 发布时间: 2022-01-09 20:05网站内容抓取工具(一个中的错误是因为301从定向引起的执行重定向注意什么)
当 网站 上的页面(例如,当用户在浏览器中访问您的页面或 Googlebot 抓取该页面时)向您的服务器发出请求时,服务器会返回一个 HTTP 状态代码以响应该请求。
如果您收到 403 状态,您可以忽略它,这意味着您的主机正在阻止 Googlebot 抓取。有关所有 HTTP 状态代码的列表,您可以参考 Google HTTP 状态代码帮助页面。
二、站点地图错误
站点地图错误通常会导致 404 错误页面,或者在当前地图中返回 404 错误页面。如果出现 404 错误页面,请检查站点地图中的所有链接,
令人沮丧的是,Google 一直在抓取您已删除的站点地图,但有一个解决方案:确保旧站点地图已在管理工具中删除。如果您不想被抓取,请确保旧站点地图获得 404 或重定向到新站点地图。
谷歌员工 Susan Moskwa 解释说:
阻止 Googlebot 抓取的最好方法是将这些 URL(例如旧站点地图)设为 404,当我们看到收录多个 404 的 URL 时,Googlebot 将停止抓取。
三、重定向错误
一些错误是由重定向的301引起的,执行重定向后要注意什么:
1:确保它们返回正确的 HTTP 状态代码。
2:确保您没有任何循环重定向。
3:确保重定向指向有效网页,而不是 404 页面或其他错误页面,如 503(服务器错误)或 403(禁止)
4:确保重定向没有指向空页面。
四、404 错误
404错误可能出现在以下区域:
1:删除了网站上的网页;
2:更改了网页名称;
4:链接到不存在的页面;
5:其他网站链接到你的网站最后一个不存在的页面;
6:网站迁移到域名不完全匹配的新网站。
五、受 robots.txt 限制
另一个原因是 robots.txt 文件阻止了 Googlebot 抓取,如果抓取错误很多,第一步应该检查 robots.txt
六、软 404 错误
通常,当有人请求一个不存在的页面时,服务器会返回 404(未找到)错误。除了响应请求的页面不存在返回 404 代码外,服务器还将显示 404 页面。这可能是标准的“找不到文件”消息,也可能是旨在向用户提供更多信息的自定义页面。页面内容与服务器返回的 HTTP 响应完全无关。仅仅因为页面显示 404 文件未找到消息并不意味着它是 404 页面。
七、超时
网站超时也是抓取错误的一个来源,如果超时,Googlebot 将停止抓取。超时的错误类型有:
1:DNS超时,可以使用Nslookup命令检测DNS。DNS超时的最大因素是域名服务商的DNS服务器不稳定。
2:URL超时,特定页面上的错误,而不是整个域。
3:robots.txt超时,如果你网站有robots.txt,但服务器超时,Googlebot会认为该文件不存在。
4:动态网页响应时间过长,导致页面加载时间过长。