php禁止网页抓取(状态代码206)

优采云 发布时间: 2021-12-16 13:16

  php禁止网页抓取(状态代码206)

  状态码:

  状态码也叫错误码,指的是分配给服务器收到的每个请求(网页点击)的三位数代码;大多数有效网页点击的状态代码为“200”(正常);如果没有找到网页,错误会生成'404''错误代码;一些常用代码以粗体显示。

  

  1XX(临时响应)

  表示临时响应并要求请求者执行操作才能继续的状态代码。

  代码 100Continue(继续):

  说明:请求者应继续提出请求。服务器返回此代码表示服务器已收到请求的第一部分,现在正在等待接收其余部分。

  代码 101 交换协议:

  说明:请求者已经要求服务器切换协议,服务器已经确认并准备切换。

  代码 102 处理

  说明:表示服务器已经收到并正在处理请求,但是没有响应。

  2XX(成功)

  用于指示服务器已成功处理请求的状态代码。

  代码 200 OK(成功)

  说明:服务器已成功处理请求。通常,这意味着服务器提供了请求的网页;如果您的 robots.txt 文件显示此状态,则表示 Google bot 已成功检索到该文件。

  代码 201 创建

  说明:请求成功,服务器创建了一个新资源。

  接受代码 202

  说明:服务器已收到请求,但尚未处理。

  Code 203 非权威信息

  说明:服务器已成功处理请求,但返回的信息可能来自其他来源。

  代码 204 无内容

  说明:服务器成功处理了请求,但没有返回任何内容。

  Code 205 Reset Content(重置内容)

  说明:服务器成功处理了请求,但是没有返回任何内容;与 204 不同,此响应要求请求者重置文档视图。(例如清除表单内容以输入新内容)

  Code 206 Partial Content(部分内容)

  说明:服务器成功处理了一些 GET 请求。

  3XX(重定向)

  要完成请求,您需要采取进一步的行动;通常这些状态代码总是被重定向;Google 建议您为每个请求使用少于五个重定向。您可以使用网站管理员工具来检查Google bot在抓取您重定向的网页时是否遇到问题。诊断中的抓取错误页面列出了 Google bot 由于重定向错误而无法抓取的网址。

  Code 300 多项选择(多项选择)

  注意:服务器可以根据请求进行多种操作。服务器可以根据请求者(用户代理)选择一个操作,或者提供一个操作列表供请求者选择。

  代码 301 永久移动

  说明:请求的网页已永久移动到新位置。当服务器返回此响应(作为对 GET 或 HEAD 请求的响应)时,它会自动将请求者转移到新位置;您应该使用此代码通知 Google bot 某个网页或 网站 已永久移动到新位置。

  代码 302 暂时移动

  注意:服务器当前正在响应来自不同位置的网页的请求,但请求者应继续使用原创位置进行后续请求;此代码类似于响应 GET 和 HEAD 请求的 301 代码,会自动将请求者重定向到不同的位置,但由于 Goolebot 会继续抓取原创位置并将其编入索引,因此您不应使用此代码通知 Googlebot页面或 网站 已被移动。

  代码 303 查看其他(查看其他位置)

  说明:当请求者应该针对不同的位置分别发出GET请求来检索响应时,服务器会返回这个代码;对于除 HEAD 请求之外的所有请求,服务器会自动跳转到其他位置。

  Code 304 Not Modified(未修改)

  注意:请求的网页自上次请求后没有被修改;当服务器返回此响应时,将不返回网页内容;如果网页自请求者上次请求后没有更改,则应配置服务器以返回此响应(称为 If-Modified-Since HTTP 标头)。由于服务器可以告诉 Googlebot 网页自上次抓取以来没有改变,因此可以节省带宽和在线销售。

  Code 305 Use Proxy(使用代理)

  注意:请求者只能使用代理访问被请求的网页;如果服务器返回此响应,服务器还将指定请求者应使用的代理。

  代码 306

  说明:306 状态码在最新版本的规范中不再使用

  Code 307 Temporary Redirect(临时重定向)

  注意:服务器当前正在响应来自不同位置的网页的请求,但请求者应继续使用原创位置进行后续请求;此代码类似于响应 GET 和 HEAD 请求的 301 代码,会自动将请求者切换到不同的位置,但由于 Googlebot 会继续抓取原创位置并将其编入索引,因此您不应使用此代码通知 Googlebot页面或 网站 已被移动。

  4XX(请求错误)

  这些状态码表明请求可能出错,从而阻止了服务器处理请求。

  代码 400 错误请求(Bad Request)

  说明:服务器不理解请求的语法。

  代码 401 未经授权

  注意:请求需要身份验证。服务器可能会在登录后将此响应返回给页面。

  Code 402 Payment Reauired(保留代码)

  Code 403 Forbidden(禁止)

  说明:服务器拒绝了请求。如果 Googlebot 在您的 网站 尝试抓取有效网页时显示此状态代码(您可以在 Googlebot网站 管理工具中诊断的网络抓取页面上看到此状态代码),则可能可能是您的服务器或主机拒绝 Googlebot 访问它。

  未找到代码 404

  说明: 服务器找不到请求的页面。

  代码 405 Method Not Allowed (Method Not Allowed)

  描述:禁用请求中指定的方法。

  代码 406 不可接受

  说明:请求的内容功能不能用于响应请求的网页。

  Code 407 Proxy Authentication Required(需要代理授权)

  说明:次要代码类似于401(Unauthorized),但它指定请求者应该使用代理进行授权;如果服务器返回此响应,服务器还将指定请求者应使用的代理。

  Code 408 Request Timeout(请求超时)

  说明:服务器在等待请求时超时。

  Code 409 冲突(冲突)

  说明:服务器在完成请求时发生冲突;服务器在响应与前一个请求冲突的 PUT 请求时返回此代码,并提供两个请求之间差异的列表。

  代码 410 消失(已删除)

  描述:请求的资源已被永久删除。

  Code 411 Length Required(需要有效长度)

  说明:服务器将不接受内容长度标题字段无效的请求。

  代码 412 Precondition Failed(不满足前提条件)

  说明:服务器不满足请求者在请求中设置的前提条件之一。

  代码 413 请求实体太大(请求实体太大)

  说明:服务器无法处理请求,因为请求实体太大,超出了服务器的处理能力。

  Code 414 Request URI Too Long(请求的URI太长)

  说明:请求的 URI(通常是 URL)太长,服务器无法处理。

  代码 415 不支持的媒体类型(不支持媒体类型)

  注意:请求的页面不支持请求的格式。

  代码 416 Requested Range Not Satisfiable(Requested Range Not Satisfiable)

  说明:此状态代码反映请求者正在定位网页的无效范围。

  代码 417 期望失败(未满足期望)

  说明:服务器不满足预期请求头字段的要求。

  

  5xx(服务器错误)

  这些状态码表明服务器尝试处理请求时发生了内部错误;这些错误可能是由服务器本身引起的,而不是由请求引起的。

  代码 500 内部服务器错误

  说明:服务器遇到错误,无法完成请求。

  代码 501 未实施(尚未实施)

  说明:服务器没有完成请求的功能。例如:当服务器无法识别请求语法时,服务器可能会返回此代码。

  代码 502 Bad geteway(坏网关)

  说明:服务器充当网关或代理并从上游服务器收到无效响应。

  代码 503 Service Unavailable(服务不可用)

  注意:服务器当前不可用。(由于过载或维修停机)通常这是一个暂停状态。

  Code 504 Gateway Timeout(网关超时)

  说明:作为网关或代理的服务器没有及时收到上游服务器的请求。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线