c httpclient抓取网页(【】网站管理员的基本操作技巧(二)——)
优采云 发布时间: 2022-04-05 09:09c httpclient抓取网页(【】网站管理员的基本操作技巧(二)——)
1xx(临时回复)
用于指示需要请求者采取行动才能继续的临时响应的状态代码。
代码说明
100(继续)请求者应继续请求。返回此代码的服务器意味着服务器已收到请求的第一部分,现在正在等待接收其余部分。
101 (Switch Protocol) 请求者已向服务器请求切换协议,服务器已确认并准备切换。
2xx(成功)
用于指示服务器已成功处理请求的状态码。
代码说明
200 (Success) 服务器已成功处理请求。通常,这意味着服务器提供了所请求的网页。如果您的 robots.txt 文件显示此状态,则表明 Googlebot 已成功检索该文件。
201 (created) 请求成功,服务器已创建新资源。
202 (Accepted) 服务器已接受请求但尚未处理。
203(未经授权的信息)服务器成功处理了请求,但返回的信息可能来自其他来源。
204 (No Content) 服务器成功处理请求但没有返回任何内容。
205 (Reset Content) 服务器成功处理请求但没有返回任何内容。与 204 响应不同,此响应要求请求者重置文档视图(例如,清除表单内容以输入新内容)。
206(部分内容)服务器成功处理了部分 GET 请求。
3xx(重定向)
要完成请求,您需要采取进一步的措施。通常,这些状态代码会永远重定向。Google 建议您对每个请求使用少于 5 个重定向。您可以使用 网站管理工具查看 Googlebot 是否在抓取您重定向的网页时遇到问题。诊断下的抓取错误页面列出了 Googlebot 由于重定向错误而无法抓取的网址。
代码说明
300(多选) 服务器可以根据请求执行各种动作。服务器可以根据请求者(用户代理)选择一个动作,或者提供一个动作列表供请求者选择。
301(永久移动)请求的网页已永久移动到新位置。当服务器返回此响应(作为对 GET 或 HEAD 请求的响应)时,它会自动将请求者重定向到新位置。您应该使用此代码通知 Googlebot 页面或 网站 已永久移动到新位置。
302(临时移动)服务器当前正在响应来自不同位置的网页的请求,但请求者应继续使用原创位置进行未来的请求。此代码类似于响应 GET 和 HEAD 请求的 301 代码,并自动将请求者重定向到不同的位置。但是,由于 Googlebot 将继续抓取旧位置并将其编入索引,因此您不应使用此代码通知 Googlebot 某个页面或 网站 已被移动。
303(查看其他位置)当请求者应针对不同位置发出单独的 GET 请求以检索响应时,服务器会返回此代码。对于除 HEAD 请求之外的所有请求,服务器会自动转到其他位置。
304(未修改)自上次请求以来,请求的页面尚未修改。当服务器返回此响应时,不会返回任何网页内容。
如果自请求者的最后一次请求以来页面没有更改,您应该配置您的服务器以返回此响应(称为 If-Modified-Since HTTP 标头)。节省带宽和开销,因为服务器可以告诉 Googlebot 该页面自上次抓取以来没有更改
.
305 (Use Proxy) 请求者只能使用代理访问所请求的网页。如果服务器返回此响应,则服务器还指示请求者应使用哪个代理。
307(临时重定向)服务器当前正在响应来自不同位置的网页的请求,但请求者应继续使用原创位置进行将来的请求。此代码类似于响应 GET 和 HEAD 请求的 301 代码,并自动将请求者重定向到不同的位置。但是,由于 Googlebot 将继续抓取旧位置并将其编入索引,因此您不应使用此代码通知 Googlebot 某个页面或 网站 已被移动。
4xx(请求错误)
这些状态码表明请求可能出错,阻止服务器处理请求。
代码说明
400 (Bad Request) 服务器不理解请求的语法。
401(未授权)请求需要身份验证。登录后,服务器可能会向页面返回此响应。
403 (Forbidden) 服务器拒绝了请求。如果当 Googlebot 尝试在您的 网站 上抓取有效页面时出现此状态代码(您可以在 Google 网站Admin Tools 的诊断下的 Web Crawl 页面上看到此状态代码),那么,有可能您的服务器或主机拒绝 Googlebot 访问它。
404(未找到)服务器找不到请求的网页。例如,如果请求是针对服务器上不存在的页面,服务器通常会返回此代码。
如果您的 网站 中没有 robots.txt 文件,并且您在 Google 的 网站 管理工具的“诊断”标签中的 robots.txt 页面上看到此状态,那么这是正确的状态。但是,如果您有 robots.txt 文件并发现此状态,则您的 robots.txt 文件可能命名不正确或位于错误的位置。(该文件应位于顶级域中,并应命名为 robots.txt)。
如果您在 Googlebot 尝试抓取的网址(在诊断标签中的 HTTP 错误页面上)看到此状态,则表示 Googlebot 可能正在跟踪来自另一个页面的死链接(旧链接或输入错误的链接)链接到)。
405 (Method Disabled) 禁用请求中指定的方法。
406(不接受)无法使用请求的内容属性响应请求的网页。
407(需要代理授权)此状态码类似于 401(未授权),但指定请求者应使用代理进行授权。如果服务器返回此响应,则服务器还指示请求者应使用哪个代理。
408(请求超时)服务器等待请求超时。
409(冲突)服务器在完成请求时遇到冲突。服务器必须收录有关在响应中发生的冲突的信息。服务器可能会返回此代码以响应与先前请求冲突的 PUT 请求,以及两个请求之间的差异列表。
410 (Deleted) 如果请求的资源已被永久删除,服务器返回此响应。此代码类似于 404(未找到)代码,但在资源曾经存在但不再存在的情况下,有时会出现而不是 404 代码。如果资源已被永久删除,则应使用 301 代码指定资源的新位置。
411(需要有效长度)服务器将不接受收录无效 Content-Length 标头字段的请求。
412 (Precondition not met) 服务器不满足请求者在请求中设置的前提条件之一。
413 (Request Entity Too Large) 服务器无法处理请求,因为请求实体太大,服务器无法处理。
414 (Request URI Too Long) 请求的 URI(通常是 URL)太长,服务器无法处理。
415 (Unsupported media type) 请求的页面不支持请求的格式。
416(请求范围不符合要求)如果请求是针对页面的无效范围发出的,则服务器返回此状态代码。
417 (Expected value not met) 服务器不满足“Expected”请求头域的要求。
5xx(服务器错误)
这些状态代码表明服务器在尝试处理请求时遇到了内部错误。这些错误可能是服务器本身的错误,而不是请求。
代码说明
500(内部服务器错误)服务器遇到错误,无法完成请求。
501(尚未实现)服务器没有能力完成请求。例如,当服务器无法识别请求方法时,服务器可能会返回此代码。
502 (Bad Gateway) 作为网关或代理的服务器收到来自上游服务器的无效响应。
503(服务不可用)服务器当前不可用(由于过载或停机维护)。通常,这只是一个暂时的状态。
504 (Gateway Timeout) 服务器作为网关或代理,没有及时收到上游服务器的请求。