爬虫学习1——网页、服务器等概念

优采云发布时间: 2022-05-06 01:02

　　爬虫学习1——网页、服务器等概念

　　“磨刀不误砍柴工，爬虫学习首先从基本相关概念开始。”

　　01

　　—

　　网站是什么？

　　网站是由一个个网页组成的，是根据一定规则制作的相关网页集合。

　　那么网页是什么呢？

　　网页是放在服务器上的一个个文件，这些文件是HTML代码组成的文本文件。当我们浏览网页的时候，首先下载对应的文本文件，然后浏览器对HTML代码作解析渲染，就形成了我们看到的网页。

　　如何制作一个简单的网页？

　　首先来了解一下HTML代码的基本标签——""

　　外壳：、

　　头部：

　　标题：、

　　正文：、

　　段落：、

　　列表：、、（子标签，即列表项）

　　新建文本文档，粘贴复制这段代码，保存后更改后缀名为“.html”

　　这是一段文本

　　这个一个超链接

　　你就可以得到一个简单的网页啦！

　　02

　　—

　　服务器是什么？

　　服务器是高性能的计算机，是网络的节点，存储和处理网络上近80%的数据、信息。一般被放置在数据公司以及电信网络大厦，一般很难看见真正服务器，因为闲人一般免进。

　　服务器和电脑有什么区别？

　　说白了服务器就是电脑，但是在稳定性、安全性以及处理数据信息性能上更强。它们的区别大概有以下几点：

　　（1）服务器CPU被设计成基本全年连续工作

　　（2）服务器可以容纳多台CPU工作

　　（3）其外观、工作环境、硬件品质和操作系统也不同

　　服务器有分类吗？

　　服务器分为网站服务器、文件服务器和数据库服务器。每种服务器有其特定的功能，当我们输入网址要访问某一网站时，我们的电脑会访问另一台电脑，被访问的电脑会安装网站服务的软件和网站方面的程序，通过这些软件和程序来响应我们的访问，这就是网站服务器。

　　放一张服务器机房的照片：

　　03

　　爬虫是什么？

　　把互联网比成一张大的蛛网，网页位于蛛网的节点处，节点之间的连线是网页间的链接关系，小虫子在大网上沿着连线爬来爬去，获取节点上的网页并保存网页信息，用代码实现自动化，这个自动化程序就是爬虫。

　　爬虫过程是什么样的呢？

　　爬虫的关键是请求的构造、发送和信息的抓取。

　　请求：Python的urlib、request

　　提取：Python的Beautiful Soup、pyquery、lxml

0

2022-05-06

网页信息抓取软件

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

爬虫学习1——网页、服务器等概念

0 个评论

发起人