c爬虫抓取网页数据(什么是2.2HTML?Python是什么类型的内容呢?)
优采云 发布时间: 2021-10-07 00:18c爬虫抓取网页数据(什么是2.2HTML?Python是什么类型的内容呢?)
2.2 HTML
HTML是Hypertext Markup Language的英文缩写,英文全称是Hypertext Markup Language。
它是一种用于创建超文本的语言。使用 HTML 创建超文本文档称为 HTML 文档,它可以独立于各种操作系统平台。
由于“HTML标签”的方便性和实用性,HTML语言被广大用户和用户所认可,并被用作万维网上的信息语言。HTML 语言描述的文件需要通过网络浏览器显示。
最新的HTML版本是HTML5,具有强大的灵活性,可以编写更高端的动态网页。
上图是简单用Python代码编写的登录网页和浏览器显示结果。
实际上,HTML 文档的源代码中收录了大量的和,我们称之为标签。标记用于分割和区分内容的不同部分,并告诉浏览器它正在处理的内容类型。
大多数 HTML 标签的名称可以准确地描述其用途和标记的内容类型,例如:
下面给出的是通常的网页格式:
标题
内容
HTML 标记被括在一对尖括号 () 之间,以将其与普通文本明确区分开来。第一个点括号 () 表示结束。
注意:由于Python网络爬虫需要分析网页HTML源代码的树状结构,所以在编写爬虫之前必须掌握HTML的基础知识。
2.3 蟒蛇
Python是荷兰人Guido van Rossum于1989年开发的一种新的脚本解释语言,是一种面向对象的解释型计算机编程语言。
Python 是纯自由软件,其语法简洁明了,其特点之一是强制使用空格作为句子缩进。
由于 Python 拥有丰富而强大的第三方库,因此常被戏称为“胶水语言”。它可以很容易地结合其他语言(尤其是C/C++)的各种模块的制作。
作为一门语法清晰、易学、功能强大的编程语言,Python 既可以作为面向对象的语言用于各个领域,也可以作为脚本编程语言来处理特定的功能。Python 语言收录高效的数据结构。与面向对象的编程语言一样,它具有参数、列表、函数、流控制、类、对象和正则表达式等功能。
因此,凭借其诸多优势,Python 已成为在多种功能、多平台上进行脚本编写和快速开发的理想语言。
3 本文小结
由于Python具有语法清晰简单、易学简短、开发精炼高效、第三方库众多、开发社区活跃等特点,越来越受到开发者和编程爱好者的青睐。非常受欢迎,Python提供了更丰富的第三方库,如urllib、BeautifulSoup、Selenium、Scrapy等,接下来跟着博主进入Python数据爬取知识海洋吧!
【免责声明】本文版权归原作者所有。内容为作者个人观点。转载的目的是为了传达更多的信息。如涉及作品内容、版权等问题,可联系本站删除,谢谢。