python抓取网页数据(Python基础知识：页面信息抓取定义getPage函数（二）)

优采云发布时间: 2021-09-15 09:12

　　1页信息捕获

　　定义getpage函数，根据传入的页码获取整个页面的HTML内容

　　getcontent函数通过常规匹配取出页面表部分的HTML内容

　　最后，定义了GetData函数，并通过正则匹配将getcontent函数获得的具体表内容取出，存储在dat[]数组中

<p> 1 class PC:

2 #初始化

3 def __init__(self,baseUrl):

4 self.baseURL = baseUrl

5 self.tool = Tool()

6 def getPage(self,pageNum):

7 try:

8 url = self.baseURL + str(pageNum)

9 request = urllib2.Request(url)

10 response = urllib2.urlopen(request)

11 #print response.read()

12 return response.read().decode('utf-8')

13 except urllib2.URLError,e:

14 if hasattr(e,"reason"):

15 print e.reason

16 return None

17 def getContent(self,pageNum):

18 page = self.getPage(pageNum)

19 pattern = re.compile('

0

2021-09-15

python抓取网页数据

0 个评论

要回复文章请先登录或注册