爬虫学习1——网页、服务器等概念
优采云 发布时间: 2022-05-06 01:02爬虫学习1——网页、服务器等概念
“磨刀不误砍柴工,爬虫学习首先从基本相关概念开始。”
01
—
网站是什么?
网站是由一个个网页组成的,是根据一定规则制作的相关网页集合。
那么网页是什么呢?
网页是放在服务器上的一个个文件,这些文件是HTML代码组成的文本文件。当我们浏览网页的时候,首先下载对应的文本文件,然后浏览器对HTML代码作解析渲染,就形成了我们看到的网页。
如何制作一个简单的网页?
首先来了解一下HTML代码的基本标签——""
外壳:、
头部:
标题:、
正文:、
段落:、
列表:、、(子标签,即列表项)
新建文本文档,粘贴复制这段代码,保存后更改后缀名为“.html”
这是一段文本
这个一个超链接
你就可以得到一个简单的网页啦!
02
—
服务器是什么?
服务器是高性能的计算机,是网络的节点,存储和处理网络上近80%的数据、信息。一般被放置在数据公司以及电信网络大厦,一般很难看见真正服务器,因为闲人一般免进。
服务器和电脑有什么区别?
说白了服务器就是电脑,但是在稳定性、安全性以及处理数据信息性能上更强。它们的区别大概有以下几点:
(1)服务器CPU被设计成基本全年连续工作
(2)服务器可以容纳多台CPU工作
(3)其外观、工作环境、硬件品质和操作系统也不同
服务器有分类吗?
服务器分为网站服务器、文件服务器和数据库服务器。每种服务器有其特定的功能,当我们输入网址要访问某一网站时,我们的电脑会访问另一台电脑,被访问的电脑会安装网站服务的软件和网站方面的程序,通过这些软件和程序来响应我们的访问,这就是网站服务器。
放一张服务器机房的照片:
03
爬虫是什么?
把互联网比成一张大的蛛网,网页位于蛛网的节点处,节点之间的连线是网页间的链接关系,小虫子在大网上沿着连线爬来爬去,获取节点上的网页并保存网页信息,用代码实现自动化,这个自动化程序就是爬虫。
爬虫过程是什么样的呢?
爬虫的关键是请求的构造、发送和信息的抓取。
请求:Python的urlib、request
提取:Python的Beautiful Soup、pyquery、lxml