php 抓取网页源码(python爬虫,爬取到的HTML源码(图)红米手机3)

优采云 发布时间: 2021-10-16 20:33

  php 抓取网页源码(python爬虫,爬取到的HTML源码(图)红米手机3)

  Python爬虫,爬取的HTML源代码是编码格式显示的内容,但是对于具体处理数据的适用性,这个值是不可用的。

  练习爬行的网页:

  代码的目的是获取对应手机的型号:

  def handle_starttag(self, tag, attrs):

if tag == 'tr' and not self.finish:

for variable, value in attrs:

if variable == 'class' and value == 'tm-tableAttrSub':

self.target_tr = True

if tag == 'th' and self.target_tr and not self.finish:

self.processing = 'th'

if tag == 'td' and self.target_tr and self.target_th and not self.finish:

# print 'value:',value

self.processing = 'td'

def handle_data(self, data):

if self.processing == 'th' and data.find('型号') > -1 and not self.finish and self.target_tr:

self.target_th = True

self.processing = ''

if self.processing == 'td' and not self.finish and self.target_tr and self.target_th:

self.finish = True

self.target_th = False

self.target_tr = False

self.temp = data

self.processing = ''

print 'phoneName', data

  得到的HTML代码片段:

  模型

   红米手机3

  (原内容直接通过转码复制显示,&后面的空格可以去掉)

  最终输出:

  电话名称 3

  但预期的输出应该是:

  手机名称 Redmi 3

  请问大家,如何将获取到的html代码片段中正确的内容复制到数据中?

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线