搜索引擎如何抓取网页(分析下20000组成部分-status(协议子状态))

优采云发布时间: 2022-02-03 07:31

　　分析200 0 0 sc-status(协议状态) sc-substatus(协议子状态) sc-win32-status(Win32状态码)的组成部分

　　sc-status（协议状态）：200 连接成功

　　sc-substatus（协议子状态）：0 成功

　　sc-win32-status（Win32状态码）：0表示获取成功并带回数据库；64 指定的网络名称不再可用

　　1：在这条访问记录中，121.187.5.143是你服务器的IP地址，220.181.7. 74 是bd蜘蛛的IP，/category-8-b0-min1100-max2200.html 是蜘蛛访问你页面的端口 80 是端口 GET 是打开方法 W3SVC1 是记录文件夹，这里显示bd蜘蛛访问了你的category-8-b0-min1100-max2200.html页面，那么最重要的是最后一个参数200 0 0。

　　2、200 0 0 页面访问成功，0表示获取成功并带回数据库。这个时候大家可以放心，这个页面已经bd收录了，但是还没有发布，可能在bd更新的时候就发布了。

　　3:200 0 64 网上流传着三种解释

　　164号是K站的前身。

　　264th 的出现仅适用于 64 位操作系统。

　　第三：网络不可达。由于某种原因，页面无法完全打开，或者网络不稳定，导致蜘蛛无法带回页面或无法抓取页面。

　　所以 200 0 64 的解释也应该是：页面被访问了，但是没有爬取也没有带回数据库。这个原因主要是空间不稳定和服务器不稳定造成的。

　　或者蜘蛛访问过但快照没有更新

　　4:304 0 0 这个返回码表示蜘蛛访问的页面没有更新，和之前他来的时候一样，所以看到这个不要着急，蜘蛛来了，但是你没有更新了，所以他不愿意把它拿走这个页面。

　　5:404 0 0 这个代表404页面，但是有一个很严重的问题，这个返回码告诉我们蜘蛛来到了404页面，把他带走了

　　, 如果是这样的话，你基本上就倒霉了。如果404太多，那么蜘蛛会继续爬取带走，造成无数重复页面，最终导致K站或降级，

　　正确的返回码是 404 0 64 这意味着蜘蛛没有抓取你的页面。（内容好像有死链接）

　　6:500 error 500 error是服务器内部错误，是程序错误引起的，我看不懂程序，但是500 error会给你扣分，这个基本逻辑可想而知，找到500 error，马上查是哪个页面已打开，然后去修复以下错误！

　　7:302 如果要在日志中找到302的返回码，也需要注意。302 是临时重定向。如果您长期将此页面重定向到另一个页面，请使用301永久重定向。如果是302，bd蜘蛛下次会访问这个页面，会导致复制大量页面的问题，结果肯定是K，所以抓紧时间检查以下。

　　每个网络蜘蛛都有自己的名字，并且在抓取网页时将自己标识为网站。当网络蜘蛛抓取网页时，它会发送一个请求。在这个请求中，有一个名为 User-agent 的字段，用于标识网络蜘蛛的身份。例如，谷歌网络蜘蛛的标志是GoogleBot，百度网络蜘蛛的标志是BaiDuSpider，雅虎网络蜘蛛的标志是Inktomi Slurp。

　　返回码列表：

　　2xx 成功

　　200 确定；请求完成。

　　201 确定；紧跟在 POST 命令之后。

　　202 确定；接受处理，但处理尚未完成。

　　203 确定；部分信息 - 返回的信息只是部分信息。

　　204 确定；无响应 - 已收到请求，但没有要发回的信息。

　　3xx 重定向

　　301 已移动 - 请求的数据具有新位置，并且更改是永久性的。

　　302 Found - 请求的数据暂时具有不同的 URI。

　　303 See Other - 可以在另一个 URI 下找到对请求的响应，并且应该使用 GET 方法检索。

　　304 Not Modified - 文档未按预期修改。

　　305 Using Proxy - 请求的资源必须通过 location 字段中提供的代理访问。

　　306 Not Used - 不再使用；保留此代码以备将来使用。

　　4xx 客户端中的错误

　　400 Bad Request - 请求有语法问题，或无法满足请求。

　　401 Unauthorized - 客户端无权访问数据。

　　402 需要付款 - 表示计费系统处于活动状态。

　　403 Forbidden - 即使授权也不需要访问。

　　404 Not Found - 服务器找不到给定的资源；该文件不存在。

　　407 代理验证请求 - 客户端必须首先通过代理验证自己。

　　415 Unsupported Media Type - 服务器拒绝为请求提供服务，因为请求的实体的格式不受支持。

　　服务器中的 5xx 错误

　　500 内部错误 - 由于意外情况，服务器无法完成请求。

　　501 Not Executed - 服务器不支持请求的工具。

　　502 Bad Gateway - 服务器收到来自上游服务器的无效响应。

　　503 Unavailable Service - 由于临时过载或维护，服务器无法处理请求。

　　如果网站上有访问日志记录，网站管理员可以知道有哪些搜索引擎的网络蜘蛛来了，什么时候来的，读了多少数据等。

　　根据不同的IP，我们可以分析网站的状态。我们以我的IIS日记中的百度蜘蛛IP为例：

　　123.125.68.*这个蜘蛛经常来，其他蜘蛛来得少，这意味着网站可能要进入沙箱或者被降级。

　　220.181.68.*如果这个IP段每天只增加，很有可能进入沙盒或者K站。

　　220.181.7.*,123.125.66.*代表百度蜘蛛IP访问，准备抢你的东西。

　　121.14.89.*这个ip段用来通过新站的检查期。

　　203.208.60.*这个ip段出现在新站点和站点异常之后。

　　210.72.225.*此IP段连续巡站。

　　125.90.88.* 广东茂名电信也是百度蜘蛛IP的主要组成部分，因为新上线的站点很多，并且使用了站长工具，或者SEO综合造成通过检测。

　　220.181.108.95 这是百度抢首页的专用IP。如果是220.181.108，基本上你网站每天晚上都会拍快照，绝对不会出错，我保证。

　　220.181.108.92 同上，98%爬取首页，也可能爬取其他（非内页） 220.181段属于加权IP段本版块已爬取的文章或首页，基本在24小时内释放。

　　123.125.71.106 爬取内页收录，权重低，爬过本段的内页文章不会要非常快让它出来，因为它不是原创或采集文章。

　　220.181.108.91 综合，主要抓取首页和内页或其他，属于加权IP段，抓取文章或首页基本上是24小时。

　　220.181.108.75 专注于文章的内页抓取和更新，达到90%，8%抓取首页，2%其他。加权IP段，爬取文章或者首页基本24小时内发布。

　　220.181.108.86 专用于抓取首页IP权重段，一般返回码为304 0 0表示不更新。

　　123.125.71.95 爬取内页收录，权重低，爬过本段的内页文章不会被非常快让它出来，因为它不是原创或采集文章。

　　123.125.71.97 爬取内页收录，权重低，爬过本段的内页文章不会被非常快让它出来，因为它不是原创或采集文章。

　　220.181.108.89 专用于抓取首页IP权重段，一般返回码为304 0 0表示不更新。

　　220.181.108.94 专用于抓取首页IP权重段，一般返回码为304 0 0表示不更新。

　　220.181.108.97 专用于抓取首页IP权重段，一般返回码为304 0 0表示不更新。

　　220.181.108.80 专用于抓取首页IP权重段，一般返回码为304 0 0表示不更新。

　　220.181.108.77 专用于抓取首页IP权重段，一般返回码为304 0 0表示不更新。

　　123.125.71.117 爬取内页收录，权重低，爬过本段的内页文章不会要非常快让它出来，因为它不是原创或采集文章。

　　220.181.108.83 专用于抓取首页IP权重段，一般返回码为304 0 0表示不更新。

　　注意：上面的IP尾数还有很多，但是同一个段123.125.71.*段IP表示抓取内页收录的权重为相对较低。也许由于你的采集文章或拼写文章暂时收录但不是

　　发布。（意思是待定）。

　　220.181.108.* IP段主要抓取首页的80%和内页的30%。这个爬取的文章或者首页绝对是24小时内发布，一夜之间截图，我可以保证！

　　一般爬取成功的返回码是200 0 0，304 0 0表示网站没有更新。蜘蛛来了。如果是200 0 64，别担心，这不是K站，可能是网站是动态的，

　　所以返回的是这段代码。

0

2022-02-03

搜索引擎如何抓取网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎如何抓取网页(分析下20000组成部分-status(协议子状态))

0 个评论

发起人

AI时代内容工厂

搜索引擎如何抓取网页(分析下20000组成部分-status(协议子状态))

0 个评论

发起人

相关问题