爬虫学习1——网页、服务器等概念

优采云 发布时间: 2022-05-06 01:02

  爬虫学习1——网页、服务器等概念

  “磨刀不误砍柴工,爬虫学习首先从基本相关概念开始。”

  01

  —

  网站是什么?

  网站是由一个个网页组成的,是根据一定规则制作的相关网页集合。

  那么网页是什么呢?

  网页是放在服务器上的一个个文件,这些文件是HTML代码组成的文本文件。当我们浏览网页的时候,首先下载对应的文本文件,然后浏览器对HTML代码作解析渲染,就形成了我们看到的网页。

  如何制作一个简单的网页?

  首先来了解一下HTML代码的基本标签——""

  外壳:、

  头部:

  标题:、

  正文:、

  段落:、

  列表:、、(子标签,即列表项)

  新建文本文档,粘贴复制这段代码,保存后更改后缀名为“.html”

  这是一段文本

  这个一个超链接

  你就可以得到一个简单的网页啦!

  

  02

  —

  服务器是什么?

  服务器是高性能的计算机,是网络的节点,存储和处理网络上近80%的数据、信息。一般被放置在数据公司以及电信网络大厦,一般很难看见真正服务器,因为闲人一般免进。

  服务器和电脑有什么区别?

  说白了服务器就是电脑,但是在稳定性、安全性以及处理数据信息性能上更强。它们的区别大概有以下几点:

  (1)服务器CPU被设计成基本全年连续工作

  (2)服务器可以容纳多台CPU工作

  (3)其外观、工作环境、硬件品质和操作系统也不同

  服务器有分类吗?

  服务器分为网站服务器、文件服务器和数据库服务器。每种服务器有其特定的功能,当我们输入网址要访问某一网站时,我们的电脑会访问另一台电脑,被访问的电脑会安装网站服务的软件和网站方面的程序,通过这些软件和程序来响应我们的访问,这就是网站服务器。

  放一张服务器机房的照片:

  

  03

  爬虫是什么?

  把互联网比成一张大的蛛网,网页位于蛛网的节点处,节点之间的连线是网页间的链接关系,小虫子在大网上沿着连线爬来爬去,获取节点上的网页并保存网页信息,用代码实现自动化,这个自动化程序就是爬虫。

  爬虫过程是什么样的呢?

  爬虫的关键是请求的构造、发送和信息的抓取。

  请求:Python的urlib、request

  提取:Python的Beautiful Soup、pyquery、lxml

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线