php抓取网页域名(网站在优化过程中是如何页面页面信息的信息信息?)
优采云 发布时间: 2022-01-03 01:20php抓取网页域名(网站在优化过程中是如何页面页面信息的信息信息?)
url,即统一资源定位器,通过对url的分析,可以更好的了解页面的爬取过程。接下来,深圳网站筑百丽科技小编将与大家分享网站在优化过程中如何抓取页面信息。
一、url是什么意思?
URL英文叫做“uniform resource locator”,中文翻译为“uniform resource locator”。
在网站优化中,要求每个页面只有一个唯一的统一资源定位符(URL),但往往很多网站同一个页面对应多个URL,如果全部搜索到的话引擎收录不做URL重定向,权重不会集中,通常称为URL不规则。
二、url的组成
Uniform Resource Locator (URL) 由三部分组成:协议方案、主机名和资源名。
例如:
www.x**.org /11806
其中https是协议方案,***.org是主机名,11806是资源,但是这个资源并不明显。一般资源后缀是.html,当然也可以是.pdf、.php、.word等格式。
三、页面抓取过程简述
无论是我们平时使用的网络浏览器还是网络爬虫,虽然有两个不同的客户端,但是获取页面的方式是一样的。页面抓取过程如下:
①连接DNS服务器
客户端会先连接DNS域名服务器,DNS服务器将主机名(***.org)转换成IP地址发回给客户端。
PS:原来我们用的地址是111.152。 151.45 访问某个网站。为了便于记忆和使用,我们使用DNS域名系统转换为*** .org。这就是DNS域名系统的作用。
②连接IP地址服务器
<p>IP服务器下可能有很多程序(网站),可以通过端口号来区分。同时每个程序(网站)都会*敏*感*词*端口上是否有新的连接请求,HTTP网站默认为80,HTTPS网站默认为443。