搜索引擎如何抓取网页(有关url的页面抓取过程讲述url页面的抓取流程)

优采云发布时间: 2021-09-13 08:13

　　url，即统一资源定位器，通过对url的分析，可以更好的了解页面的爬取过程。今天给大家讲讲URL页面的抓取过程。

　　一、url 是什么意思？

　　URL，英文全称是“uniform resource locator”，中文翻译是“uniform resource locator”。

　　在网站优化中，要求每个页面只有一个唯一的统一资源定位符（URL），但往往很多网站对应同一页面上的多个URL，如果都被搜索引擎搜索到的话收录而且没有URL重定向，权重不集中，通常称为URL不规则。

　　二、url 的组成

　　Uniform Resource Locator (URL) 由三部分组成：协议方案、主机名和资源名。

　　例如：

　　www.***.com /sitemap.html

　　其中，https为协议方案，***.com为主机名，sitemap.html为资源。当然也可以是.pdf、.php、.word等格式。

　　三、页面抓取过程简述

　　无论是我们平时使用的网络浏览器还是网络爬虫，虽然有两个不同的客户端，但是获取页面的方式是一样的。页面抓取过程如下：

　　①连接DNS服务器

　　客户端会先连接DNS域名服务器，DNS服务器将主机名（***.com）转换成IP地址发回给客户端。

　　PS：本来我们用125.52.10.45这个地址来访问某个网站。为了便于记忆和使用，我们使用DNS域名系统转换为***.com。这就是 DNS 域名系统的作用。

　　②连接IP地址服务器

　　这个IP服务器下可能有很多程序（网站），可以通过端口号来区分。同时每个程序（网站）都会*敏*感*词*新的连接请求的端口，HTTP网站默认是80，HTTPS网站默认是443。

　　不过，一般情况下，80和443端口号默认是不会出现的。

　　例如：

　　***.com:443/ = ***.com/

　　***.com:80/ = ***.com/

　　③ 建立连接并发送页面请求

　　客户端与服务器建立连接后，会发送一个页面请求，通常是get或者post。

　　获取站点地图.html HTTPS/1.0

　　获取HTTPS协议下的页面站点地图并返回给客户端。如果稍后需要获取更多页面，请发送另一个请求，否则将关闭连接。

　　PS：一般情况下，/seo/sitemap.html 可能会更清晰一些。也就是在***.com/下的seo文件夹中发送sitemap.html的页面请求。

0

2021-09-13

搜索引擎如何抓取网页

0 个评论

要回复文章请先登录或注册