网页源代码抓取工具(【师】Google建议您的临时响应方法及解析(二))

优采云 发布时间: 2022-03-26 08:03

  网页源代码抓取工具(【师】Google建议您的临时响应方法及解析(二))

  一、临时回复

  1xx(临时回复)

  表示临时响应并要求请求者继续操作的状态代码。

  100(继续)请求者应继续请求。服务器返回此代码表示已收到请求的第一部分并正在等待其余部分。

  101 (Switch protocol) 请求者已请求服务器切换协议,服务器已确认并准备切换。

  二、成功

  2xx(成功)

  指示请求已成功处理的状态代码。

  200 (Success) 服务器已成功处理请求。通常,这意味着服务器提供了所请求的网页。如果您的 robots.txt 文件显示此状态代码,则表示 Googlebot 已成功检索该文件。

  201 (Created) 请求成功,服务器创建了新资源。

  202 (Accepted) 服务器已接受请求但尚未处理。

  203 (Unauthorized Information) 服务器已成功处理请求,但返回的信息可能来自其他来源。

  204 (No Content) 服务器成功处理请求但没有返回任何内容。

  205(内容重置)服务器成功处理请求但没有返回任何内容。与 204 响应不同,此响应要求请求者重置文档视图(例如,清除表单内容以输入新内容)。

  206(部分内容)服务器成功处理了部分 GET 请求。

  三、重定向

  3xx(重定向)

  要完成请求,需要采取进一步行动。通常,这些状态代码用于重定向。Google 建议您对每个请求使用不超过 5 个重定向。您可以使用 网站管理工具查看 Googlebot 是否在抓取重定向页面时遇到问题。诊断下的网络抓取页面列出了 Googlebot 由于重定向错误而无法抓取的网址。

  300(多选) 服务器可以对请求进行各种操作。服务器可以根据请求者(用户代理)选择一个动作,或者提供一个动作列表供请求者选择。

  301(永久移动)请求的网页已永久移动到新位置。当服务器返回此响应(对 GET 或 HEAD 请求)时,它会自动将请求者重定向到新位置。您应该使用此代码告诉 Googlebot 页面或 网站 已永久移动到新位置。

  302(临时移动)服务器当前正在响应来自不同位置的网页的请求,但请求者应继续使用原创位置进行未来的请求。此代码类似于响应 GET 和 HEAD 请求的 301 代码,并且会自动将请求者带到不同的位置,但您不应使用此代码告诉 Googlebot 页面或 网站 已移动,因为 Googlebot将继续抓取旧位置和索引。

  303(查看其他位置)当请求者应使用单独的 GET 请求对不同位置检索响应时,服务器会返回此代码。对于除 HEAD 之外的所有请求,服务器会自动转到其他位置。

  304(未修改)自上次请求以来,请求的页面尚未修改。当服务器返回此响应时,不会返回任何网页内容。

  如果自请求者的最后一次请求以来页面没有更改,您应该配置您的服务器以返回此响应(称为 If-Modified-Since HTTP 标头)。服务器可以告诉 Googlebot 该页面自上次抓取以来没有更改,从而节省了带宽和开销。

  .

  305 (Use Proxy) 请求者只能使用代理访问所请求的网页。如果服务器返回这个响应,也表明请求者应该使用代理。

  307(临时重定向)服务器当前正在响应来自不同位置的网页的请求,但请求者应继续使用原创位置进行将来的请求。此代码类似于响应 GET 和 HEAD 请求的 301 代码,并且会自动将请求者带到不同的位置,但您不应使用此代码告诉 Googlebot 页面或 网站 已移动,因为 Googlebot将继续抓取旧位置和索引。

  四、请求错误

  4xx(请求错误)

  这些状态代码表明请求可能出错,阻止服务器处理它。

  400 (Bad Request) 服务器不理解请求的语法。

  401(未授权)请求需要身份验证。服务器可能会为登录后请求的网页返回此响应。

  403 (Forbidden) 服务器拒绝了请求。如果您在 Googlebot 尝试在您的 网站 上抓取有效页面时看到此状态代码(您可以在 Google 网站Admin Tools Diagnostics 下的网络抓取页面上看到此状态代码),则可能是您的服务器或主机拒绝 Googlebot 访问。

  404(未找到)服务器找不到请求的网页。例如,对于服务器上不存在的页面,通常会返回此代码。

  如果您的 网站 上没有 robots.txt 文件,并且您在 Google 网站 管理工具的“诊断”标签的 robots.txt 页面上看到此状态代码,那么这是正确的状态码。但是,如果您有 robots.txt 文件并看到此状态代码,则您的 robots.txt 文件可能命名不正确或位于错误的位置(它应该位于名为 robots.txt 的顶级域中)。

  如果您在 Googlebot 抓取的网址中看到此状态代码(在“诊断”标签中的 HTTP 错误页面上),则表示 Googlebot 可能正在跟踪来自另一个页面的死链接(旧链接或输入错误的链接)。

  405 (Method Disabled) 禁用请求中指定的方法。

  406(不接受)无法使用请求的内容属性响应请求的网页。

  407(需要代理授权)此状态码类似于 401(未授权),但指定请求者应授权使用代理。如果服务器返回这个响应,也表明请求者应该使用代理。

  408(请求超时)服务器在等待请求时超时。

  409 (Conflict) 服务器在完成请求时发生冲突。服务器必须在响应中收录有关冲突的信息。服务器可能会返回此代码以响应与先前请求冲突的 PUT 请求,以及两个请求之间差异的列表。

  410 (Deleted) 如果请求的资源已被永久删除,服务器返回此响应。此代码类似于 404(未找到)代码,但有时在资源曾经存在但现在不存在的情况下代替 404 代码。如果资源已被永久移动,则应使用 301 指定资源的新位置。

  411(需要有效长度)服务器将不接受不收录有效负载长度标头字段的请求。

  412 (Precondition not met) 服务器不满足请求者在请求中设置的前提条件之一。

  413 (Request Entity Too Large) 服务器无法处理请求,因为请求实体太大,服务器无法处理。

  414 (Requested URI too long) 请求的 URI(通常是 URL)太长,服务器无法处理。

  415 (Unsupported media type) 请求的页面不支持请求的格式。

  416(请求的范围不符合要求)如果页面不能提供请求的范围,服务器返回此状态码。

  417 (Expected value not met) 服务器不满足“Expected”请求头域的要求。

  五、服务器错误

  5xx(服务器错误)

  这些状态代码表明服务器在处理请求时遇到了内部错误。这些错误可能是服务器本身的错误,而不是请求。

  500(内部服务器错误)服务器遇到错误,无法完成请求。

  501(尚未实现)服务器没有能力完成请求。例如,当服务器无法识别请求方法时,可能会返回此代码。

  502 (Bad Gateway) 作为网关或代理的服务器收到来自上游服务器的无效响应。

  503(服务不可用)服务器当前不可用(由于过载或停机维护)。通常,这只是暂时的状态。

  504 (Gateway Timeout) 服务器作为网关或代理,但没有及时收到上游服务器的请求。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线