搜索引擎如何抓取网页(山东新华电脑学院整理供稿url《页面过程过程简述》)
优采云 发布时间: 2021-11-09 18:14搜索引擎如何抓取网页(山东新华电脑学院整理供稿url《页面过程过程简述》)
url是什么意思,搜索引擎如何抓取网页(山东新华计算机大学feeds) url是统一的资源定位器,通过对url的分析,我们可以更好的了解页面的抓取过程。今天,小小课堂SEO学习网就为大家简单介绍一下页面抓取的过程。希望本次SEO技术培训对大家有所帮助。一、url 是什么意思?URL,英文叫做“uniform resource locator”,中文翻译为“uniform resource locator”。在网站优化中,每个页面只有一个唯一的统一资源定位器。但是经常有很多网站对应同一个页面上的多个URL。如果都搜索到收录并且没有重定向URL,权重不会集中,通常称为 URL Irregular。二、url 由统一资源定位符(URL)组成,由三部分组成:协议方案、主机名和资源名。例如:www.x**.org /11806 其中https是协议方案,* **.org是主机名,11806是资源,但是这个资源并不明显。一般资源后缀是.html,当然也可以是.pdf、.php、.word的格式。三、页面爬取过程简单无论是我们平时使用的网络浏览器还是网络爬虫,虽然是两个不同的客户端,但是获取页面的方式是一样的。主机名和资源名。例如:www.x**.org /11806 其中https是协议方案,* **.org是主机名,11806是资源,但是这个资源并不明显。一般资源后缀是.html,当然也可以是.pdf、.php、.word的格式。三、页面爬取过程简单无论是我们平时使用的网络浏览器还是网络爬虫,虽然是两个不同的客户端,但是获取页面的方式是一样的。主机名和资源名。例如:www.x**.org /11806 其中https是协议方案,* **.org是主机名,11806是资源,但是这个资源并不明显。一般资源后缀是.html,当然也可以是.pdf、.php、.word的格式。三、页面爬取过程简单无论是我们平时使用的网络浏览器还是网络爬虫,虽然是两个不同的客户端,但是获取页面的方式是一样的。
页面爬取过程如下:客户端在连接DNS域名系统服务器时,首先连接DNS域名服务器,DNS服务器将主机名***.org)转换成IP地址和反馈给客户。PS:本来我们用111.152 151.45的地址来访问某个网站。为了便于记忆和使用,我们使用DNS域名系统转换为***.org。这就是 DNS 域名系统的作用。连接IP地址服务器 这个IP服务器下可能有很多程序(网站),可以通过端口号来区分。同时,每个程序(网站)都会*敏*感*词*新的连接请求的端口。HTTP 网站 默认为 80,HTTPS 网站 默认为 443。但是,正常情况下,端口号80和443默认不会出现。例如:***.org:443/ ***.org/***.org:80/ 建立连接并发送页面请求。客户端与服务器建立连接后,会发送一个页面请求,通常是get,也可以是post。get 11806 HTTPS/ 获取HTTPS协议下的页面11806并返回给客户端。如果稍后需要获取更多页面,请发送另一个请求,否则将关闭连接。PS:一般情况下,/seo/ 可能更清楚。即发送***.org/seo文件夹下的页面请求。通常得到,或者它可以是一个帖子。get 11806 HTTPS/ 获取HTTPS协议下的页面11806并返回给客户端。如果稍后需要获取更多页面,请发送另一个请求,否则将关闭连接。PS:一般情况下,/seo/可能更清楚。即发送***.org/seo文件夹下的页面请求。通常得到,或者它可以是一个帖子。get 11806 HTTPS/ 获取HTTPS协议下的页面11806并返回给客户端。如果稍后需要获取更多页面,请发送另一个请求,否则将关闭连接。PS:一般情况下,/seo/可能更清楚。即发送***.org/seo文件夹下的页面请求。