网页qq抓取什么原理(网页基本构成和抓取原理(一)网站的概念)
优采云 发布时间: 2021-10-16 23:35网页qq抓取什么原理(网页基本构成和抓取原理(一)网站的概念)
网页的基本组成和抓取原理
网页是可以被浏览器等客户端解析的文件。与我们通常遇到的文件不同的是,网页是植根于互联网的。也就是说,我们通过浏览器浏览的大部分网页文件都不是本地的,它可能在世界上任何一台联网的电脑上。而且,通过互联网上的超链接,我们可以浏览世界任何一个角落的网络文件。这就是我们平时所说的网上冲浪,足不出户就可以融入整个世界。
爬虫爬取的是数据,其实就是网页上的内容。我们将在本节中讨论具体的爬取原理。我们先来看看网站的概念:
1. 网站 的概念
在详细解释网页的组成之前。我们需要先了解网站的概念。
网站 是向外界提供服务的多个网页的集合。主要分为静态网站和动态网站。
1.1 静态网站
静态网站表示网站下的所有页面都由HTML 网站组成。所谓静态并不是说网页是静态的,网页中还可以有*敏*感*词*、视频等信息。这里的静态是指无法与服务器交互。它只是被动地分析和显示服务器端响应返回的信息。
静态网站的优点:
容易被收录搜索到,方便SEO优化。
内容是独立的,不依赖于数据库。
静态网站的缺点:
维护成本比较大,大部分内容需要手动更新。
页面不能交互,用户体验差。
1.2 新闻网站
动态网站相比静态网站,可以提供更多的交互体验。比如用户注册登录、实时推荐等功能。动态 网站 不仅收录静态 HTML 文件,还收录服务器端脚本,如 Jsp、Asp 等。
动态网站的优点:
用户体验好,可以实现更个性化的设置。
服务端可以与客户端有更多的交互,方便服务端管理和分析数据。
动态网站的缺点:
需要和数据库一起处理,访问速度大大降低。
对搜索引擎不友好。
无论是网站中的静态网页,还是网站中的动态网页,它们都有一些共同的基本内容。让我们来看看网页的三个基本元素:
2. 网页的三个基本元素:
在接下来的章节中,我们将具体介绍网页的三个基本元素,这里只是简单说明一些基本概念和用途。
2.1 个 HTML
HTML 是一种标记语言。标记语言不是编程语言,不能使用逻辑编程进行编程。它只是就一种文件呈现方式达成了一致。通过对不同标签所代表的不同含义达成一致,就可以在浏览器端呈现出丰富多彩的网页。它主要包括头部和主体两部分。HTML 主要负责页面的结构。
2.2 CSS
级联样式表有时称为样式表。需要配合HTML使用才能提供丰富的渲染效果。
2.3 Javascript
它是一种脚本语言,广泛用于前端逻辑实现。很多自定义效果都可以通过javascript实现,是前端使用最广泛的编程语言。
综上所述,HTML、CSS 和 Javascript 共同构成了丰富的网页样式。三者缺一不可。没有HTML、CSS、Javascript就是被动水,毫无意义;没有 CSS,网页失去颜色和样式,最终使 HTML 保持不变;没有Javascript,我们看不到动态网页,它只是一潭死水。
3. 爬取原理
爬虫爬取的数据其实就是网页上的内容。我们需要通过一个特定的工具来分析网页,比如Beautiful Soup。然后提取HTML中特定标签下的数据。然后,数据被持久化存储,以方便日后的数据分析。
简单来说,我们使用爬虫最根本的目的就是爬取网络上对我们有价值的信息和数据。因此,我们大部分的爬取工作都是过滤我们有用的信息,剔除无用的信息。这是爬虫的核心。
4. 总结
通过本节,我们了解了网页的基本元素。在使用爬虫的过程中,我们需要随时随地分析网页的组成元素。因此,熟练掌握网页基本要素的网页基本要素的构成对我们来说很重要。分析很有帮助。