网页抓取手机号(天津市发布《机电工程实务》每日一练() )

优采云 发布时间: 2021-11-25 16:17

  网页抓取手机号(天津市发布《机电工程实务》每日一练()

)

  (1) 正常爬取页面:

  无需扫码,需点击查看

  

  不过这个没必要,我们再仔细看看html代码:

  

  发现手机号已经收录在内;点击查看手机号码只是摆设。

  (2)一个需要扫描的页面,网址为:

  http://hz.ganji.com/fang1/2938272612x.htm

  

  为此,让我们再次检查 html 代码:

  

  发现没有手机号;

  别着急,我们先来研究一下二维码收录哪些信息:

  使用(草料识别二维码或python库识别)发现解析结果为:

  http://3g.ganji.com/hz_fang1/2938272612x

  我们发现:

  我们访问的网址和二维码访问得到的网址如下:

  访问:

http://hz.ganji.com/fang1/2938272612x.htm

二维码解析:

http://3g.ganji.com/hz_fang1/2938272612x

  主要区别是多了(3g),然后hz和fang1位置发生了变化。

  我们用电脑访问解析出来的网址:

  

  你看见了吗?电话号码出现了。

  我们只需要把原来的URL拼接成...这种类型

  您可以忽略二维码。二维码也是一种显示。

  欢迎阅读我的更多文章。

  欢迎加入(Q)群帮你解决问题:

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线