jquery抓取网页内容(学习Python爬虫模块前的基本结构，你了解多少？)

优采云发布时间: 2021-10-25 16:17

　　爬虫程序之所以能够抓取数据，是因为爬虫可以对网页进行分析，从网页中提取出想要的数据。在学习Python爬虫模块之前，我们有必要熟悉网页的基本结构，这是编写爬虫程序的必备知识。

　　如果您熟悉前端语言，那么您可以轻松掌握本节中的知识。

网页一般由HTML（超文本标记语言）、CSS（层叠样式表）和JavaScript（简称“JS”动态脚本语言）三部分组成，每部分在网页中承担不同的任务。HTML HTML 是网页的基本结构，相当于人体的骨骼结构。所有同时带有“<”和“>”符号的网页都属于HTML标签。常见的 HTML 标签如下：

声明为 HTML5 文档

.. 是网页的根元素

.. 元素包含了文档的元（meta）数据，如定义网页编码格式为 utf-8。

.. 元素描述了文档的标题

.. 表示用户可见的内容

.. 表示框架

.. 表示段落

.. 定义无序列表

..定义有序列表

..表示列表项

表示图片

..表示标题

..表示超链接

　　编写以下代码：

编程帮

点击访问

编程帮www.biancheng.net

Python爬虫

认识网页结构

HTML

CSS

　　运行结果如下图所示：

　　图 1：HTML 页面结构

　　CSSCSS 代表级联样式表。有三种写法：内联样式、内联样式和大纲样式。CSS代码演示如下：

body{

background-color:yellow;

}

p{

font-size: 30px;

color: springgreen;

}

编程帮

编程帮www.biancheng.net

点击访问

Python爬虫

认识网页结构

HTML

CSS

　　运行结果如下图所示：

　　图 2：CSS 样式表演示

　　如图2所示，内联样式通过style标签写入样式表：

＜style type="text/css"＞

　　内嵌样式使用 HTML 元素的 style 属性来编写 CSS 代码。请注意，每个 HTML 元素都有 style、class、id、name 和 title 属性。

　　外部样式表是指将 CSS 代码单独保存为一个以 .css 结尾的文件，并使用它来将其导入所需的页面：

　　当样式需要应用于多个页面时，使用外部样式表是最好的选择。JavaScript JavaScript 负责描述网页的行为。例如，可以使用 JavaScript 实现交互式内容和各种特殊效果。当然也可以通过其他方式实现，比如jQuery，以及一些前端框架（vue、React等），但都是在“JS”的基础上实现的。

　　简单的例子：

body{

background-color: rgb(220, 226, 226);

}

编程帮

编程帮www.biancheng.net

Python爬虫

点击下方按钮获取当前时间

点击这里

function DisplayDate(){

document.getElementById("time").innerHTML=Date()

}

　　操作结果如下：

　　图3：JS获取当前时间

　　如果用人体作为网站结构的比喻，那么 HTML 就是人体的骨架，它定义了人的嘴、眼睛和耳朵的生长位置；CSS描述了人体的外貌细节，比如嘴巴长什么样，眼睛是双眼皮还是单眼，皮肤是黑还是白等；而 JavaScript 则代表了一个人所拥有的技能，比如唱歌、打球、游泳等。

0

2021-10-25

jquery抓取网页内容

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

jquery抓取网页内容(学习Python爬虫模块前的基本结构，你了解多少？)

0 个评论

发起人

AI时代内容工厂

jquery抓取网页内容(学习Python爬虫模块前的基本结构，你了解多少？)

0 个评论

发起人

相关问题