php 抓取网页源码(python爬虫，爬取到的HTML源码(图)红米手机3)

优采云发布时间: 2021-10-16 20:33

　　Python爬虫，爬取的HTML源代码是编码格式显示的内容，但是对于具体处理数据的适用性，这个值是不可用的。

　　练习爬行的网页：

　　代码的目的是获取对应手机的型号：

　　def handle_starttag(self, tag, attrs):

if tag == 'tr' and not self.finish:

for variable, value in attrs:

if variable == 'class' and value == 'tm-tableAttrSub':

self.target_tr = True

if tag == 'th' and self.target_tr and not self.finish:

self.processing = 'th'

if tag == 'td' and self.target_tr and self.target_th and not self.finish:

# print 'value:',value

self.processing = 'td'

def handle_data(self, data):

if self.processing == 'th' and data.find('型号') > -1 and not self.finish and self.target_tr:

self.target_th = True

self.processing = ''

if self.processing == 'td' and not self.finish and self.target_tr and self.target_th:

self.finish = True

self.target_th = False

self.target_tr = False

self.temp = data

self.processing = ''

print 'phoneName', data

　　得到的HTML代码片段：

　　模型

　　 红米手机3

　　（原内容直接通过转码复制显示，&后面的空格可以去掉）

　　最终输出：

　　电话名称 3

　　但预期的输出应该是：

　　手机名称 Redmi 3

　　请问大家，如何将获取到的html代码片段中正确的内容复制到数据中？

0

2021-10-16

php 抓取网页源码

0 个评论

要回复文章请先登录或注册