爬虫软件爬取公开网路数据案例(以大众点评为例)

优采云 发布时间: 2020-08-11 04:02

  选择石家庄:

  点击小吃:

  选择任意商业区:

  选择一个商户:

  我们发觉这种URL都是十分有规律的,这些规律将帮助我们爬取数据!

  我们再来审查任意页面的源码

  

  我们观察每位部份的分布位置,会缩小我们的爬取范围,加快爬取速率。

  二、网址采集

  打开优采云采集器软件。

  新建任务。

  

  我们发觉第一步就是设置网址采集规则,这是很重要的一步,这将会关系到我们采集到数据的数目。

  我们发觉我们爬取的数据都在商户详情页面:

  

  所以,我们要想办法抵达这个页面!

  这里我选择分商业区进行爬取(这样可以细化数据,还可以依据行政区,商户类型,甚至不选择条件进爬取)

  我们选择一个商业区作为起始爬取地址。

  

  

  我们会发觉,这个页面上有15个商户!

  

  每个商户会对应一个联接,如果我们是选择单一联接,我们只会爬取到15条数据,所以我们要想办法解决分页的问题。

  我们观察第二页,第三页的联接:

  很明显,前面的 是惟一不变的,而旁边的页脚是在变化的。

  点击 向导添加 >> 批量网址

  ![这里写图片描述]()

  将页脚设置成地址参数,选择从2开始,每次递增1次,共14项。

  我们在下边的阅览能够看见我们想听到的链接。

  点击网址采集测试,就会得到以下的结果:

  

  我们采集了15个页面,每页采集到了15条数据。这就是我们所想要的!

  三、内容采集

  第二部我们要设置内容采集规则。

  这里我们要采集的数据是:经度,纬度,商户名称,位置信息,口味,环境,服务,点评数目,人均消费。分别进行设置。

  我们首先观察每位部份在源码中的特点,然后填入开头字符串,结尾字符串即可。

  注意我们最好要保证开头字符串是惟一的,否则将选定第一个进行截取。

  我们先看这一段JS包括了大部分的数据。

  ![这里写图片描述]()经度

  

  ##商户名称

  

  ##位置信息

  

  再来看下边几处比较有特征的源码

  ![这里写图片描述]()口味

  

  点评数目

  

  ##人均消费

  

  这里内容采集规则基本设置完成了,我们来测试一条数据:

  

  测试成功!

  四、内容发布

  内容发布就是将采集好的数据导下来,这里免费版的只支持导入到txt。

  为了转成excel便捷,我们设置如下规则:

  标签建均以中文冒号分隔,每一条数据加一个换行。

  

  

  基本设置完成,点击右下角保存并退出。

  开始数据采集并导入!

  

  txt转换成excel

  下面是我们导入得到的txt数据

  

  看起来杂乱无章,也不便捷使用,所以我们将它保存成excel

  打开excel,点击打开文件,选择所有文件,找到我们的txt

  选择 分隔符 >> 逗号分隔

  ![这里写图片描述]()![这里写图片描述]()

  点击完成,就得到我们想要的数据格式!

  

  有了这种数据,我们就可以开始我们的数据可视化之旅了!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线