python抓取动态网页(就是网站的概念与具体讲解网页的构成的区别?)

优采云 发布时间: 2022-03-16 13:08

  python抓取动态网页(就是网站的概念与具体讲解网页的构成的区别?)

  网页是可以被浏览器等客户端解析的文件。与我们通常遇到的文件不同的是:网页植根于互联网。也就是说,我们通过浏览器浏览的大部分网页文件都不是本地的,它可能在世界上任何一台联网的电脑上。而且,通过互联网上的超链接,我们可以在世界任何一个角落浏览网页文件,也就是我们通常所说的上网,足不出户就能融入整个世界。

  爬虫爬取的数据其实就是网页上的内容。本节我们会讲到具体的爬取原理。我们先来看看网站的概念:

  1. 网站 的概念

  在详细解释网页的结构之前。我们需要先了解 网站 的概念。

  网站 是多个向外界提供服务的网页的集合。主要分为静态网站和动态网站。

  1.1 静态网站

  静态 网站 表示 网站 下的所有页面都是使用 HTML网站 构建的。所谓静态并不意味着网页是静态的,网页中还可以有*敏*感*词*、视频等信息。这里的静态是指无法与服务器交互。只是被动解析显示服务器端响应返回的信息。

  静态网站的优点:

  便于收录搜索,方便SEO优化。内容独立,不依赖于数据库。

  静态网站的缺点:

  维护成本比较高,大部分内容需要人工手动更新。该页面不是交互式的,用户体验很差。

  1.2 个供稿网站

  动态网站相比静态网站,可以提供更多的交互体验。比如用户注册登录、实时推荐等功能。动态 网站 不仅收录静态 HTML 文件,还收录服务器端脚本,如 Jsp、Asp 等。

  动态网站的优点:

  用户体验好,可以实现更多的个性化设置。服务端可以和客户端进行更多的交互,方便服务端管理和分析数据。

  动态网站的缺点:

  需要处理数据库,访问速度大大降低。对搜索引擎不友好。

  无论是静态网站中的网页还是动态网站中的网页,都有一些共同的基本内容。让我们看一下网页的三个基本元素:

  2. 网页的三个基本元素:

  在接下来的章节中,我们将详细介绍网页的三个基本要素。在这里,我们只简要介绍一些基本概念和用途。

  2.1 个 HTML

  HTML 是一种标记语言。标记语言不是编程语言,它不能以逻辑编程的方式进行编程。它只是就如何呈现文件达成一致。通过对不同标签所代表的不同含义达成一致,在浏览器端渲染出丰富多彩的网页。它主要包括两个部分:头部和主体。HTML 主要负责页面的结构。

  2.2 CSS

  级联样式表,有时称为样式表。需要配合HTML使用,才能提供丰富的渲染效果。

  2.3 Javascript

  它是一种广泛用于前端逻辑实现的脚本语言。很多自定义效果都可以通过 javascript 来实现,javascript 是前端使用最广泛的编程语言。

  综上所述,HTML、CSS、Javascript共同构成了丰富的网页样式。三者缺一不可。没有HTML、CSS、Javascript,就是无源之水,毫无意义;没有 CSS,网页将失去颜色和样式,最终会使 HTML 变得相同;没有 Javascript,我们无法看到动态网页。,只是一潭死水。

  3. 爬取原理

  爬虫爬取的数据其实就是网页上的内容。我们需要通过特定的工具来分析网页,比如Beautiful Soup。然后提取 HTML 中特定标签下的数据。然后,将数据持久化并保存,以方便未来的数据分析。

  简单来说,我们使用爬虫,最根本的目的就是在网页中爬取对我们有价值的信息和数据。因此,我们大部分的爬取工作就是过滤我们的有用信息,剔除无用信息。这是爬虫的核心。

  4. 总结

  通过本节,我们了解了网页的基本要素。在使用爬虫的过程中,我们需要随时随地分析网页的构成要素。分析很有帮助。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线