python网页数据抓取(Python中的正则表达式教程输出结果及总结表(一))
优采云 发布时间: 2021-10-22 18:16python网页数据抓取(Python中的正则表达式教程输出结果及总结表(一))
摘要:本文讲了三种使用Python抓取网页数据的方法;它们是正则表达式 (re)、BeautifulSoup 模块和 lxml 模块。本文所有代码运行在python3.5.
本文抓取的是[中央气象台](http://www.nmc.cn/)首页头条信息:
HTML 层次结构是:
抓取 href、标题和标签的内容。
一、正则表达式
复制外层HTML:
高温预警
代码:
<p># coding=utf-8
import re, urllib.request
url = 'http://www.nmc.cn'
html = urllib.request.urlopen(url).read()
html = html.decode('utf-8') #python3版本中需要加入
links = re.findall('