python抓取网页数据(Python基础知识:页面信息抓取定义getPage函数(二))
优采云 发布时间: 2021-09-15 09:12python抓取网页数据(Python基础知识:页面信息抓取定义getPage函数(二))
1页信息捕获
定义getpage函数,根据传入的页码获取整个页面的HTML内容
getcontent函数通过常规匹配取出页面表部分的HTML内容
最后,定义了GetData函数,并通过正则匹配将getcontent函数获得的具体表内容取出,存储在dat[]数组中
<p> 1 class PC:
2 #初始化
3 def __init__(self,baseUrl):
4 self.baseURL = baseUrl
5 self.tool = Tool()
6 def getPage(self,pageNum):
7 try:
8 url = self.baseURL + str(pageNum)
9 request = urllib2.Request(url)
10 response = urllib2.urlopen(request)
11 #print response.read()
12 return response.read().decode('utf-8')
13 except urllib2.URLError,e:
14 if hasattr(e,"reason"):
15 print e.reason
16 return None
17 def getContent(self,pageNum):
18 page = self.getPage(pageNum)
19 pattern = re.compile('