python抓取网页数据(Python基础知识:页面信息抓取定义getPage函数(二))

优采云 发布时间: 2021-09-15 09:12

  python抓取网页数据(Python基础知识:页面信息抓取定义getPage函数(二))

  1页信息捕获

  定义getpage函数,根据传入的页码获取整个页面的HTML内容

  getcontent函数通过常规匹配取出页面表部分的HTML内容

  最后,定义了GetData函数,并通过正则匹配将getcontent函数获得的具体表内容取出,存储在dat[]数组中

<p> 1 class PC:

2 #初始化

3 def __init__(self,baseUrl):

4 self.baseURL = baseUrl

5 self.tool = Tool()

6 def getPage(self,pageNum):

7 try:

8 url = self.baseURL + str(pageNum)

9 request = urllib2.Request(url)

10 response = urllib2.urlopen(request)

11 #print response.read()

12 return response.read().decode('utf-8')

13 except urllib2.URLError,e:

14 if hasattr(e,"reason"):

15 print e.reason

16 return None

17 def getContent(self,pageNum):

18 page = self.getPage(pageNum)

19 pattern = re.compile('

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线