搜索引擎如何抓取网页(有关url的页面抓取过程讲述url页面的抓取流程)
优采云 发布时间: 2021-09-12 13:13搜索引擎如何抓取网页(有关url的页面抓取过程讲述url页面的抓取流程)
url,即统一资源定位器,通过对url的分析,可以更好的了解页面的爬取过程。今天给大家讲讲URL页面的抓取过程。
一、url 是什么意思?
URL,英文全称是“uniform resource locator”,中文翻译是“uniform resource locator”。
在网站优化中,要求每个页面只有一个唯一的统一资源定位符(URL),但往往很多网站对应同一页面上的多个URL,如果都被搜索引擎搜索到的话收录而且没有URL重定向,权重不集中,通常称为URL不规则。
二、url 的组成
Uniform Resource Locator (URL) 由三部分组成:协议方案、主机名和资源名。
例如:
www.***.com /sitemap.html
其中,https为协议方案,***.com为主机名,sitemap.html为资源。当然也可以是.pdf、.php、.word等格式。
三、页面抓取过程简述
无论是我们平时使用的网络浏览器还是网络爬虫,虽然有两个不同的客户端,但是获取页面的方式是一样的。页面抓取过程如下:
①连接DNS服务器
客户端会先连接DNS域名服务器,DNS服务器将主机名(***.com)转换成IP地址发回给客户端。
PS:本来我们用125.52.10.45这个地址来访问某个网站。为了便于记忆和使用,我们使用DNS域名系统转换为***.com。这就是 DNS 域名系统的作用。
②连接IP地址服务器
这个IP服务器下可能有很多程序(网站),可以通过端口号来区分。同时每个程序(网站)都会*敏*感*词*新的连接请求的端口,HTTP网站默认是80,HTTPS网站默认是443。
不过,一般情况下,80和443端口号默认是不会出现的。
例如:
***.com:443/ = ***.com/
***.com:80/ = ***.com/
③ 建立连接并发送页面请求
客户端与服务器建立连接后,会发送一个页面请求,通常是get或者post。
获取站点地图.html HTTPS/1.0
获取HTTPS协议下的页面站点地图并返回给客户端。如果稍后需要获取更多页面,请发送另一个请求,否则将关闭连接。
PS:一般情况下,/seo/sitemap.html 可能会更清晰一些。也就是在***.com/下的seo文件夹中发送sitemap.html的页面请求。