搜索引擎如何抓取网页(有关url的页面抓取过程讲述url页面的抓取流程)

优采云 发布时间: 2021-09-12 13:13

  搜索引擎如何抓取网页(有关url的页面抓取过程讲述url页面的抓取流程)

  url,即统一资源定位器,通过对url的分析,可以更好的了解页面的爬取过程。今天给大家讲讲URL页面的抓取过程。

  一、url 是什么意思?

  URL,英文全称是“uniform resource locator”,中文翻译是“uniform resource locator”。

  在网站优化中,要求每个页面只有一个唯一的统一资源定位符(URL),但往往很多网站对应同一页面上的多个URL,如果都被搜索引擎搜索到的话收录而且没有URL重定向,权重不集中,通常称为URL不规则。

  二、url 的组成

  Uniform Resource Locator (URL) 由三部分组成:协议方案、主机名和资源名。

  例如:

  www.***.com /sitemap.html

  其中,https为协议方案,***.com为主机名,sitemap.html为资源。当然也可以是.pdf、.php、.word等格式。

  三、页面抓取过程简述

  无论是我们平时使用的网络浏览器还是网络爬虫,虽然有两个不同的客户端,但是获取页面的方式是一样的。页面抓取过程如下:

  ①连接DNS服务器

  客户端会先连接DNS域名服务器,DNS服务器将主机名(***.com)转换成IP地址发回给客户端。

  PS:本来我们用125.52.10.45这个地址来访问某个网站。为了便于记忆和使用,我们使用DNS域名系统转换为***.com。这就是 DNS 域名系统的作用。

  ②连接IP地址服务器

  这个IP服务器下可能有很多程序(网站),可以通过端口号来区分。同时每个程序(网站)都会*敏*感*词*新的连接请求的端口,HTTP网站默认是80,HTTPS网站默认是443。

  不过,一般情况下,80和443端口号默认是不会出现的。

  例如:

  ***.com:443/ = ***.com/

  ***.com:80/ = ***.com/

  ③ 建立连接并发送页面请求

  客户端与服务器建立连接后,会发送一个页面请求,通常是get或者post。

  获取站点地图.html HTTPS/1.0

  获取HTTPS协议下的页面站点地图并返回给客户端。如果稍后需要获取更多页面,请发送另一个请求,否则将关闭连接。

  PS:一般情况下,/seo/sitemap.html 可能会更清晰一些。也就是在***.com/下的seo文件夹中发送sitemap.html的页面请求。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线