jquery抓取网页内容(学习Python爬虫模块前的基本结构,你了解多少?)

优采云 发布时间: 2021-10-25 16:17

  jquery抓取网页内容(学习Python爬虫模块前的基本结构,你了解多少?)

  爬虫程序之所以能够抓取数据,是因为爬虫可以对网页进行分析,从网页中提取出想要的数据。在学习Python爬虫模块之前,我们有必要熟悉网页的基本结构,这是编写爬虫程序的必备知识。

  如果您熟悉前端语言,那么您可以轻松掌握本节中的知识。

  网页一般由HTML(超文本标记语言)、CSS(层叠样式表)和JavaScript(简称“JS”动态脚本语言)三部分组成,每部分在网页中承担不同的任务。HTML HTML 是网页的基本结构,相当于人体的骨骼结构。所有同时带有“<”和“>”符号的网页都属于HTML标签。常见的 HTML 标签如下:

  

声明为 HTML5 文档

.. 是网页的根元素

.. 元素包含了文档的元(meta)数据,如 定义网页编码格式为 utf-8。

.. 元素描述了文档的标题

.. 表示用户可见的内容

.. 表示框架

<p>.. 表示段落

.. 定义无序列表

..定义有序列表

..表示列表项

表示图片

..表示标题

..表示超链接</p>

  编写以下代码:

  

编程帮

点击访问

编程帮www.biancheng.net

Python爬虫

<p>认识网页结构

HTML

CSS

</p>

  运行结果如下图所示:

  

  图 1:HTML 页面结构

  CSSCSS 代表级联样式表。有三种写法:内联样式、内联样式和大纲样式。CSS代码演示如下:

  

body{

background-color:yellow;

}

p{

font-size: 30px;

color: springgreen;

}

编程帮

编程帮www.biancheng.net

点击访问

Python爬虫

<p>认识网页结构

HTML

CSS

</p>

  运行结果如下图所示:

  

  图 2:CSS 样式表演示

  如图2所示,内联样式通过style标签写入样式表:

  

<style type="text/css">

  内嵌样式使用 HTML 元素的 style 属性来编写 CSS 代码。请注意,每个 HTML 元素都有 style、class、id、name 和 title 属性。

  外部样式表是指将 CSS 代码单独保存为一个以 .css 结尾的文件,并使用它来将其导入所需的页面:

  当样式需要应用于多个页面时,使用外部样式表是最好的选择。JavaScript JavaScript 负责描述网页的行为。例如,可以使用 JavaScript 实现交互式内容和各种特殊效果。当然也可以通过其他方式实现,比如jQuery,以及一些前端框架(vue、React等),但都是在“JS”的基础上实现的。

  简单的例子:

  

body{

background-color: rgb(220, 226, 226);

}

编程帮

编程帮www.biancheng.net

Python爬虫

<p>点击下方按钮获取当前时间

点击这里

function DisplayDate(){

document.getElementById("time").innerHTML=Date()

}

</p>

  操作结果如下:

  

  图3:JS获取当前时间

  如果用人体作为 网站 结构的比喻,那么 HTML 就是人体的骨架,它定义了人的嘴、眼睛和耳朵的生长位置;CSS描述了人体的外貌细节,比如嘴巴长什么样,眼睛是双眼皮还是单眼,皮肤是黑还是白等;而 JavaScript 则代表了一个人所拥有的技能,比如唱歌、打球、游泳等。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线