php 抓取网页源码(python爬虫,爬取到的HTML源码(图)红米手机3)
优采云 发布时间: 2021-10-16 20:33php 抓取网页源码(python爬虫,爬取到的HTML源码(图)红米手机3)
Python爬虫,爬取的HTML源代码是编码格式显示的内容,但是对于具体处理数据的适用性,这个值是不可用的。
练习爬行的网页:
代码的目的是获取对应手机的型号:
def handle_starttag(self, tag, attrs):
if tag == 'tr' and not self.finish:
for variable, value in attrs:
if variable == 'class' and value == 'tm-tableAttrSub':
self.target_tr = True
if tag == 'th' and self.target_tr and not self.finish:
self.processing = 'th'
if tag == 'td' and self.target_tr and self.target_th and not self.finish:
# print 'value:',value
self.processing = 'td'
def handle_data(self, data):
if self.processing == 'th' and data.find('型号') > -1 and not self.finish and self.target_tr:
self.target_th = True
self.processing = ''
if self.processing == 'td' and not self.finish and self.target_tr and self.target_th:
self.finish = True
self.target_th = False
self.target_tr = False
self.temp = data
self.processing = ''
print 'phoneName', data
得到的HTML代码片段:
模型
红米手机3
(原内容直接通过转码复制显示,&后面的空格可以去掉)
最终输出:
电话名称 3
但预期的输出应该是:
手机名称 Redmi 3
请问大家,如何将获取到的html代码片段中正确的内容复制到数据中?