文章采集平台(高德地图app抓取路线数据的代码需要大概如上图)
优采云 发布时间: 2022-01-11 05:03文章采集平台(高德地图app抓取路线数据的代码需要大概如上图)
文章采集平台:比如优采云、高德地图等。文章抓取工具:优采云、自动抓取网页网页的源码。高德地图抓取先打开百度地图或高德地图app,在页面抓取中找到源码接口;开始抓取这里我的抓取是以高德地图为例;一般你会看到高德地图主要分三种抓取方式:1:http/https,以高德地图首页为例。http或https抓取每一条路线数据都有明确的url信息;只要用网页抓取工具抓取,发现里面的url都可以用来解析抓取。
高德地图首页就是以这种方式进行抓取,直接找到目标url进行解析抓取,往往很快达到你想要的结果,且方便使用;这种方式只要抓取高德地图app点击按钮抓取即可;这种方式更容易使用,高德地图app也有https端口进行接口的验证。如下图;2:post,手机微信发送链接抓取;传统方式抓取主要使用post方式抓取,然后用cookie保存;手机微信上发送链接,就可以实现高德地图抓取,且抓取速度一般都不错,但手机微信post需要注意参数设置,现在高德post很容易上传失败;这种方式注意不能注册二维码网站,可以用纯正的https,如上图。
开始抓取这里我选择第一种post方式进行抓取;页面抓取这里我用高德地图app页面进行抓取;找到高德地图首页进行抓取,这里我只抓取高德地图首页的路线数据,其他页面由于路径没有url结构,就不抓取。首页抓取抓取路线数据的代码需要大概如下:这里我将解析结果放在postdata内,receiver的代码放在receiver内解析工具抓取最后一步在抓取页面源码的数据,上传工具,生成json格式的数据,然后在后台index.php对json进行解析处理;处理结果如下:从结果可以看出目标路线大概分布情况;处理后导出文件时处理过的页面数据写上你自己的文件名;记得加上后缀.csv,导出在res文件里面;下面我们来看看这些处理工具生成json格式的数据,数据一般是post/postmap-interact-index的文件结构格式。
生成的postmap数据我们来看看路线数据的详细信息,其中一般很快就能解析出来。json文件index.php文件receiver_fail.php从其中就可以看出来,把要抓取的数据放在receiver/out.php,保存在index.php内这种方式也是目前使用比较广泛的抓取工具抓取。源码解析index.php我们把源码导出出来之后,进行工具解析。
如下图:index.php分析有我们的解析结果和导出文件名;然后用jsonobj来解析导出的数据,导出如下图index.csv这张图为源码抓取工具抓取抓取到的工具,完整的jsonobj可以自己去找,但这里是已经抓取完工程序化。如下图红色的是jsonobj导出的文件,黄。