python抓取动态网页(Python程序设计执行指定函数及正则匹配的相关操作技巧)

优采云 发布时间: 2022-03-06 22:03

  python抓取动态网页(Python程序设计执行指定函数及正则匹配的相关操作技巧)

  本文文章主要介绍Python中周期性抓取网页内容的方法,涉及Python时间函数和正则匹配的相关操作技巧。有一定的参考价值,有需要的朋友可以参考以下

  p>

  本文中的示例描述了 Python 如何实现对 Web 内容的定期爬取。分享给大家,供大家参考,如下:

  1.使用sched模块周期性执行指定函数

  2.周期性执行指定函数爬取指定网页,解析出想要的网页内容,代码为六维论坛的在线人数

  论坛网上人口统计代码:

<p>

#coding=utf-8

import time,sched,os,urllib2,re,string

#初始化sched模块的scheduler类

#第一个参数是一个可以返回时间戳的函数,第二个参数可以在定时未到达之前阻塞。

s = sched.scheduler(time.time,time.sleep)

#被周期性调度触发的函数

def event_func():

req = urllib2.Request('http://bt.neu6.edu.cn/')

response = urllib2.urlopen(req)

rawdata = response.read()

response.close()

usernump = re.compile(r'总计 .*? 人在线')

usernummatch = usernump.findall(rawdata)

if usernummatch:

currentnum=usernummatch[0]

currentnum=currentnum[string.index(currentnum,'>')+1:string.rindex(currentnum,'

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线