网页抓取手机号(天津市发布《机电工程实务》每日一练() )
优采云 发布时间: 2021-11-25 16:17网页抓取手机号(天津市发布《机电工程实务》每日一练()
)
(1) 正常爬取页面:
无需扫码,需点击查看
不过这个没必要,我们再仔细看看html代码:
发现手机号已经收录在内;点击查看手机号码只是摆设。
(2)一个需要扫描的页面,网址为:
http://hz.ganji.com/fang1/2938272612x.htm
为此,让我们再次检查 html 代码:
发现没有手机号;
别着急,我们先来研究一下二维码收录哪些信息:
使用(草料识别二维码或python库识别)发现解析结果为:
http://3g.ganji.com/hz_fang1/2938272612x
我们发现:
我们访问的网址和二维码访问得到的网址如下:
访问:
http://hz.ganji.com/fang1/2938272612x.htm
二维码解析:
http://3g.ganji.com/hz_fang1/2938272612x
主要区别是多了(3g),然后hz和fang1位置发生了变化。
我们用电脑访问解析出来的网址:
你看见了吗?电话号码出现了。
我们只需要把原来的URL拼接成...这种类型
您可以忽略二维码。二维码也是一种显示。
欢迎阅读我的更多文章。
欢迎加入(Q)群帮你解决问题: