python抓取动态网页(Python程序设计执行指定函数及正则匹配的相关操作技巧)
优采云 发布时间: 2022-03-06 22:03python抓取动态网页(Python程序设计执行指定函数及正则匹配的相关操作技巧)
本文文章主要介绍Python中周期性抓取网页内容的方法,涉及Python时间函数和正则匹配的相关操作技巧。有一定的参考价值,有需要的朋友可以参考以下
p>
本文中的示例描述了 Python 如何实现对 Web 内容的定期爬取。分享给大家,供大家参考,如下:
1.使用sched模块周期性执行指定函数
2.周期性执行指定函数爬取指定网页,解析出想要的网页内容,代码为六维论坛的在线人数
论坛网上人口统计代码:
<p>
#coding=utf-8
import time,sched,os,urllib2,re,string
#初始化sched模块的scheduler类
#第一个参数是一个可以返回时间戳的函数,第二个参数可以在定时未到达之前阻塞。
s = sched.scheduler(time.time,time.sleep)
#被周期性调度触发的函数
def event_func():
req = urllib2.Request('http://bt.neu6.edu.cn/')
response = urllib2.urlopen(req)
rawdata = response.read()
response.close()
usernump = re.compile(r'总计 .*? 人在线')
usernummatch = usernump.findall(rawdata)
if usernummatch:
currentnum=usernummatch[0]
currentnum=currentnum[string.index(currentnum,'>')+1:string.rindex(currentnum,'