python网页数据抓取(Python中的正则表达式教程输出结果及总结表(一))

优采云 发布时间: 2021-10-22 18:16

  python网页数据抓取(Python中的正则表达式教程输出结果及总结表(一))

  摘要:本文讲了三种使用Python抓取网页数据的方法;它们是正则表达式 (re)、BeautifulSoup 模块和 lxml 模块。本文所有代码运行在python3.5.

   本文抓取的是[中央气象台](http://www.nmc.cn/)首页头条信息:

  

  HTML 层次结构是:

  

  抓取 href、标题和标签的内容。

  一、正则表达式

  复制外层HTML:

  高温预警

  代码:

<p># coding=utf-8

import re, urllib.request

url = &#39;http://www.nmc.cn&#39;

html = urllib.request.urlopen(url).read()

html = html.decode(&#39;utf-8&#39;) #python3版本中需要加入

links = re.findall(&#39;

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线