搜索引擎如何抓取网页(分析下20000组成部分-status(协议子状态))

优采云 发布时间: 2022-02-03 07:31

  搜索引擎如何抓取网页(分析下20000组成部分-status(协议子状态))

  分析200 0 0 sc-status(协议状态) sc-substatus(协议子状态) sc-win32-status(Win32状态码)的组成部分

  sc-status(协议状态):200 连接成功

  sc-substatus(协议子状态):0 成功

  sc-win32-status(Win32状态码):0表示获取成功并带回数据库;64 指定的网络名称不再可用

  1:在这条访问记录中,121.187.5.143是你服务器的IP地址,220.181.7. 74 是bd蜘蛛的IP,/category-8-b0-min1100-max2200.html 是蜘蛛访问你页面的端口 80 是端口 GET 是打开方法 W3SVC1 是记录文件夹,这里显示bd蜘蛛访问了你的category-8-b0-min1100-max2200.html页面,那么最重要的是最后一个参数200 0 0。

  2、200 0 0 页面访问成功,0表示获取成功并带回数据库。这个时候大家可以放心,这个页面已经bd收录了,但是还没有发布,可能在bd更新的时候就发布了。

  3:200 0 64 网上流传着三种解释

  164号是K站的前身。

  264th 的出现仅适用于 64 位操作系统。

  第三:网络不可达。由于某种原因,页面无法完全打开,或者网络不稳定,导致蜘蛛无法带回页面或无法抓取页面。

  所以 200 0 64 的解释也应该是:页面被访问了,但是没有爬取也没有带回数据库。这个原因主要是空间不稳定和服务器不稳定造成的。

  或者蜘蛛访问过但快照没有更新

  4:304 0 0 这个返回码表示蜘蛛访问的页面没有更新,和之前他来的时候一样,所以看到这个不要着急,蜘蛛来了,但是你没有更新了,所以他不愿意把它拿走这个页面。

  5:404 0 0 这个代表404页面,但是有一个很严重的问题,这个返回码告诉我们蜘蛛来到了404页面,把他带走了

  , 如果是这样的话,你基本上就倒霉了。如果404太多,那么蜘蛛会继续爬取带走,造成无数重复页面,最终导致K站或降级,

  正确的返回码是 404 0 64 这意味着蜘蛛没有抓取你的页面。(内容好像有死链接)

  6:500 error 500 error是服务器内部错误,是程序错误引起的,我看不懂程序,但是500 error会给你扣分,这个基本逻辑可想而知,找到500 error,马上查是哪个页面已打开,然后去修复以下错误!

  7:302 如果要在日志中找到302的返回码,也需要注意。302 是临时重定向。如果您长期将此页面重定向到另一个页面,请使用301永久重定向。如果是302,bd蜘蛛下次会访问这个页面,会导致复制大量页面的问题,结果肯定是K,所以抓紧时间检查以下。

  每个网络蜘蛛都有自己的名字,并且在抓取网页时将自己标识为 网站。当网络蜘蛛抓取网页时,它会发送一个请求。在这个请求中,有一个名为 User-agent 的字段,用于标识网络蜘蛛的身份。例如,谷歌网络蜘蛛的标志是GoogleBot,百度网络蜘蛛的标志是BaiDuSpider,雅虎网络蜘蛛的标志是Inktomi Slurp。

  返回码列表:

  2xx 成功

  200 确定;请求完成。

  201 确定;紧跟在 POST 命令之后。

  202 确定;接受处理,但处理尚未完成。

  203 确定;部分信息 - 返回的信息只是部分信息。

  204 确定;无响应 - 已收到请求,但没有要发回的信息。

  3xx 重定向

  301 已移动 - 请求的数据具有新位置,并且更改是永久性的。

  302 Found - 请求的数据暂时具有不同的 URI。

  303 See Other - 可以在另一个 URI 下找到对请求的响应,并且应该使用 GET 方法检索。

  304 Not Modified - 文档未按预期修改。

  305 Using Proxy - 请求的资源必须通过 location 字段中提供的代理访问。

  306 Not Used - 不再使用;保留此代码以备将来使用。

  4xx 客户端中的错误

  400 Bad Request - 请求有语法问题,或无法满足请求。

  401 Unauthorized - 客户端无权访问数据。

  402 需要付款 - 表示计费系统处于活动状态。

  403 Forbidden - 即使授权也不需要访问。

  404 Not Found - 服务器找不到给定的资源;该文件不存在。

  407 代理验证请求 - 客户端必须首先通过代理验证自己。

  415 Unsupported Media Type - 服务器拒绝为请求提供服务,因为请求的实体的格式不受支持。

  服务器中的 5xx 错误

  500 内部错误 - 由于意外情况,服务器无法完成请求。

  501 Not Executed - 服务器不支持请求的工具。

  502 Bad Gateway - 服务器收到来自上游服务器的无效响应。

  503 Unavailable Service - 由于临时过载或维护,服务器无法处理请求。

  如果网站上有访问日志记录,网站管理员可以知道有哪些搜索引擎的网络蜘蛛来了,什么时候来的,读了多少数据等。

  根据不同的IP,我们可以分析网站的状态。我们以我的IIS日记中的百度蜘蛛IP为例:

  123.125.68.*这个蜘蛛经常来,其他蜘蛛来得少,这意味着网站可能要进入沙箱或者被降级。

  220.181.68.*如果这个IP段每天只增加,很有可能进入沙盒或者K站。

  220.181.7.*,123.125.66.*代表百度蜘蛛IP访问,准备抢你的东西。

  121.14.89.*这个ip段用来通过新站的检查期。

  203.208.60.*这个ip段出现在新站点和站点异常之后。

  210.72.225.*此IP段连续巡站。

  125.90.88.* 广东茂名电信也是百度蜘蛛IP的主要组成部分,因为新上线的站点很多,并且使用了站长工具,或者SEO综合造成通过检测。

  220.181.108.95 这是百度抢首页的专用IP。如果是220.181.108,基本上你网站每天晚上都会拍快照,绝对不会出错,我保证。

  220.181.108.92 同上,98%爬取首页,也可能爬取其他(非内页) 220.181段属于加权IP段 本版块已爬取的文章或首页,基本在24小时内释放。

  123.125.71.106 爬取内页收录,权重低,爬过本段的内页文章不会要非常快让它出来,因为它不是 原创 或 采集文章。

  220.181.108.91 综合,主要抓取首页和内页或其他,属于加权IP段,抓取文章或首页基本上是24小时。

  220.181.108.75 专注于文章的内页抓取和更新,达到90%,8%抓取首页,2%其他。加权IP段,爬取文章或者首页基本24小时内发布。

  220.181.108.86 专用于抓取首页IP权重段,一般返回码为304 0 0表示不更新。

  123.125.71.95 爬取内页收录,权重低,爬过本段的内页文章不会被非常快 让它出来,因为它不是 原创 或 采集文章。

  123.125.71.97 爬取内页收录,权重低,爬过本段的内页文章不会被非常快 让它出来,因为它不是 原创 或 采集文章。

  220.181.108.89 专用于抓取首页IP权重段,一般返回码为304 0 0表示不更新。

  220.181.108.94 专用于抓取首页IP权重段,一般返回码为304 0 0表示不更新。

  220.181.108.97 专用于抓取首页IP权重段,一般返回码为304 0 0表示不更新。

  220.181.108.80 专用于抓取首页IP权重段,一般返回码为304 0 0表示不更新。

  220.181.108.77 专用于抓取首页IP权重段,一般返回码为304 0 0表示不更新。

  123.125.71.117 爬取内页收录,权重低,爬过本段的内页文章不会要非常快让它出来,因为它不是 原创 或 采集文章。

  220.181.108.83 专用于抓取首页IP权重段,一般返回码为304 0 0表示不更新。

  注意:上面的IP尾数还有很多,但是同一个段123.125.71.*段IP表示抓取内页收录的权重为相对较低。也许由于你的 采集文章 或拼写 文章 暂时 收录 但不是

  发布。(意思是待定)。

  220.181.108.* IP段主要抓取首页的80%和内页的30%。这个爬取的文章或者首页绝对是24小时内发布,一夜之间截图,我可以保证!

  一般爬取成功的返回码是200 0 0,304 0 0表示网站没有更新。蜘蛛来了。如果是200 0 64,别担心,这不是K站,可能是网站是动态的,

  所以返回的是这段代码。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线