python网页数据抓取(Python中的正则表达式教程输出结果及总结表（一）)

优采云发布时间: 2021-10-22 18:16

　　摘要：本文讲了三种使用Python抓取网页数据的方法；它们是正则表达式 (re)、BeautifulSoup 模块和 lxml 模块。本文所有代码运行在python3.5.

　　本文抓取的是[中央气象台](http://www.nmc.cn/)首页头条信息：

　　HTML 层次结构是：

　　抓取 href、标题和标签的内容。

　　一、正则表达式

　　复制外层HTML：

　　高温预警

　　代码：

<p># coding=utf-8

import re, urllib.request

url = 'http://www.nmc.cn'

html = urllib.request.urlopen(url).read()

html = html.decode('utf-8') #python3版本中需要加入

links = re.findall('

0

2021-10-22

python网页数据抓取

0 个评论

要回复文章请先登录或注册