网页视频抓取工具 56(成功处理了请求的状态码,返回任何内容。)
优采云 发布时间: 2022-03-27 03:00网页视频抓取工具 56(成功处理了请求的状态码,返回任何内容。)
以 2 开头的状态码
指示请求已成功处理的状态代码。
200(成功)可以理解为正常访问,服务器已经成功处理了请求。通常,这意味着服务器提供了所请求的网页。如果您的 robots.txt 文件出现此状态代码,则表示搜索引擎或用户已成功检索到该文件。
201 (created) 请求成功,服务器创建了新资源。
202 (Accepted) 服务器已接受请求但尚未处理。
203 (Unauthorized Information) 服务器已成功处理请求,但返回的信息可能来自其他来源。
204 (No Content) 服务器成功处理请求但没有返回任何内容。
205 (Content reset) 服务器成功处理请求但没有返回内容。与 204 响应不同,此响应要求请求者重置文档视图(例如,清除表单内容以输入新内容)。
206(部分内容)服务器成功处理了部分 GET 请求。
如果返回码为 200,则表示正常。如果有以2开头但不是200的返回码,请联系老师QQ号或其他*敏*感*词*查询具体情况。但是如果不存在页面的返回码是200,这种情况就很严重了,尤其是搜索引擎在你身上看到的所有页面网站他理解为正常访问,但实际上看到的是同一个页面。搜索引擎会降低网站的信任度,这种情况需要立即处理。形成主要原因:404状态设置不正常原因
以 3 开头的状态码
要完成请求,需要采取进一步行动。通常,这些状态代码用于重定向。Google 建议您对每个请求使用不超过 5 个重定向。您可以使用 网站管理工具查看 Googlebot 是否在抓取重定向页面时遇到问题。Diagnostics 下的 Web Crawl 页面列出了搜索引擎蜘蛛由于重定向错误而无法抓取的 URL。
300(多选) 服务器可以对请求执行各种动作。服务器可以根据请求者(用户代理)选择一个动作,或者提供一个动作列表供请求者选择。
301(永久移动)请求的网页已永久移动到新位置。当服务器返回此响应(对 GET 或 HEAD 请求)时,它会自动将请求者重定向到新位置。您应该使用此代码告诉 Googlebot 页面或 网站 已永久移动到新位置。
302(临时移动)服务器当前正在响应来自不同位置的网页的请求,但申请人应继续使用原创位置进行未来的请求。此代码类似于响应 GET 和 HEAD 请求的 301 代码,并且会自动将请求者带到不同的位置,但不应用于告诉搜索引擎蜘蛛该页面或 网站 已移动,因为搜索引擎蜘蛛想要继续在你所在的地方爬行和索引。
303(查看其他位置)当请求者应该对不同位置使用单独的 GET 请求来检索响应时,服务器会返回此代码。对于除 HEAD 之外的所有请求,服务器会自动转到其他位置。
304(未修改)自上次请求以来,请求的页面尚未修改。当服务器返回此响应时,不会返回任何网页内容。如果自请求者的最后一次请求以来页面没有更改,您应该配置您的服务器以返回此响应(称为 If-Modified-Since HTTP 标头)。这节省了带宽和开销,因为服务器可以告诉搜索引擎蜘蛛该页面自上次抓取以来没有更改。
305 (Use Proxy) 请求者只能使用代理访问所请求的网页。如果服务器返回这个响应,也表明请求者应该使用代理。
307(临时重定向)服务器当前正在响应来自不同位置的网页的请求,但请求者应继续使用原创位置进行将来的请求。此代码类似于响应 GET 和 HEAD 请求的代码,并且会自动将请求者带到不同的位置,但您不应使用此代码告诉搜索引擎蜘蛛页面或 网站 已移动,因为搜索引擎蜘蛛会继续爬取并索引原创位置。
301, 302, 307 这些操作需要根据实际情况进行设置。网站在SEO过程中,可以使用301永久重定向来集中网站URL权重,也可以使用301来转移页面权重。如果设置不正确,将会被搜索引擎作为作弊处罚。但是,必须执行 网站 路径更改或 URL 规范优化操作。具体视频操作规则: 虚拟主机下服务器上的301永久重定向操作视频 301永久重定向操作视频 302是临时跳转设置,不会出现在我们优化的域名返回码上。
如果有304返回码,说明网页没有变化。具体原因是图片路径出现在IIS日志查询中。
以 4 开头的状态码
这些状态代码表明请求可能出错,这会阻止服务器处理它。
400 (Bad Request) 服务器不理解请求的语法。
401(身份验证错误)此页面需要授权。您可能不希望将此页面编入索引。如果该页面列在您的站点地图上,您可以将其删除。但是,如果您将其保留在您的站点地图中,我们将不会抓取该页面或将其编入索引(尽管该页面将继续保持此处列出的错误状态)。如果我们将其作为搜索抓取的一部分进行抓取,您可以在我们的 网站 管理员信息中查看原因。
403 (Forbidden) 服务器拒绝了请求。如果您在搜索引擎蜘蛛尝试在您的 网站 上抓取有效页面时看到此状态代码(这可以在 Google 网站Admin Tools Diagnostics 信息下的 >Web Crawl> 页面上看到) ,可能是您的服务器或主机拒绝访问搜索引擎蜘蛛。
404(未找到)服务器找不到请求的网页。例如,对于服务器上不存在的页面,通常会返回此代码。如果您的 网站 上没有 robots.txt 文件,并且您在 Google 的 网站 管理工具的“诊断”标签的 robots.txt 页面上看到此状态代码,那么这是正确的状态码。但是,如果您有 robots.txt 文件并看到此状态代码,则您的 robots.txt 文件可能命名不正确或位置错误(它应该位于顶级域,称为 robots.txt)。如果您在 Googlebot 尝试抓取的网址中看到此状态代码(在“诊断”标签中的 HTTP 错误页面上),则表示 Googlebot 正在跟踪
可能是指向另一个页面的死链接(旧链接或输入错误的链接)。
405 (Method Disabled) 禁用请求中指定的方法。
406(不接受)无法使用请求的内容属性响应请求的网页。
407(需要代理授权)此状态码与 401 类似,但指定请求者必须获得授权才能使用代理。如果服务器返回这个响应,也表明请求者应该使用代理。
408(请求超时)服务器在等待请求时超时。
409(冲突)服务器在完成请求时遇到冲突。服务器必须在响应中收录有关冲突的信息。服务器可能会返回此代码以响应与先前请求冲突的 PUT 请求,以及两个请求之间差异的列表。
410(已删除)当请求的资源已被永久删除时,服务器返回此响应。此代码类似于 404(未找到)代码,但有时在资源曾经存在但现在不存在的情况下代替 404 代码。如果资源已被永久删除,则应使用 301 指定资源的新位置。
411(需要有效长度)服务器不接受没有有效载荷长度标头字段的请求。
412 (Precondition not met) 服务器不满足请求者在请求中设置的前提条件之一。
413 (Request Entity Too Large) 服务器无法处理请求,因为请求实体太大,服务器无法处理。
414 (Requested URI too long) 请求的 URI(通常是 URL)太长,服务器无法处理。
415 (Unsupported media type) 请求的页面不支持请求的格式。
416(请求的范围不符合要求)如果页面不能提供请求的范围,服务器返回此状态码。
417 (Expected value not met) 服务器不满足“Expectations”请求头域的要求。
一般这里常见的问题主要是403和404的返回码,如果IIS日志中或者打开网站页面时出现403,说明权限不够,属于权限设置范围. 主要表现是网站的某些文件夹。所以需要有针对性地解决这个问题。如果出现在 IIS 服务器日志中,那么我们需要判断是需要搜索引擎蜘蛛还是普通用户。如果是蜘蛛,那么我们需要找到解决方案。设置服务器和虚拟空间 网站 文件夹的权限。返回码 404 表示页面本身不存在或已被删除,但有一些特殊情况会导致这种现象。大量出现在网站上会降低网站的信任度,所以需要根据具体情况进行处理。在我博客的其他地方有介绍 网站 死链接删除和 网站 死链接提交的视频
以 5 开头的状态码
这些状态代码表明服务器在处理请求时遇到了内部错误。这些错误可能是服务器本身的错误,而不是请求。
500(内部服务器错误)服务器遇到错误,无法完成请求。
501(尚未实现)服务器没有能力完成请求。例如,当服务器无法识别请求方法时,会返回此代码。
502 (Bad Gateway) 作为网关或代理的服务器收到来自上游服务器的无效响应。
503(服务不可用)服务器当前不可用(由于过载或停机维护)。通常,这只是暂时的状态。
504 (Gateway Timeout) 服务器作为网关或代理,没有及时收到上游服务器的请求。