爬虫软件爬取公开网路数据案例(以大众点评为例)

优采云发布时间: 2020-08-11 04:02

　　选择石家庄：

　　点击小吃：

　　选择任意商业区：

　　选择一个商户：

　　我们发觉这种URL都是十分有规律的，这些规律将帮助我们爬取数据！

　　我们再来审查任意页面的源码

　　我们观察每位部份的分布位置，会缩小我们的爬取范围，加快爬取速率。

　　二、网址采集

　　打开优采云采集器软件。

　　新建任务。

　　我们发觉第一步就是设置网址采集规则，这是很重要的一步，这将会关系到我们采集到数据的数目。

　　我们发觉我们爬取的数据都在商户详情页面：

　　所以，我们要想办法抵达这个页面！

　　这里我选择分商业区进行爬取（这样可以细化数据，还可以依据行政区，商户类型，甚至不选择条件进爬取）

　　我们选择一个商业区作为起始爬取地址。

　　我们会发觉，这个页面上有15个商户！

　　每个商户会对应一个联接，如果我们是选择单一联接，我们只会爬取到15条数据，所以我们要想办法解决分页的问题。

　　我们观察第二页，第三页的联接：

　　很明显，前面的是惟一不变的，而旁边的页脚是在变化的。

　　点击向导添加 >> 批量网址

　　![这里写图片描述]()

　　将页脚设置成地址参数，选择从2开始，每次递增1次，共14项。

　　我们在下边的阅览能够看见我们想听到的链接。

　　点击网址采集测试，就会得到以下的结果：

　　我们采集了15个页面，每页采集到了15条数据。这就是我们所想要的！

　　三、内容采集

　　第二部我们要设置内容采集规则。

　　这里我们要采集的数据是：经度，纬度，商户名称，位置信息，口味，环境，服务，点评数目，人均消费。分别进行设置。

　　我们首先观察每位部份在源码中的特点，然后填入开头字符串，结尾字符串即可。

　　注意我们最好要保证开头字符串是惟一的，否则将选定第一个进行截取。

　　我们先看这一段ＪＳ包括了大部分的数据。

　　![这里写图片描述]()经度

　　##商户名称

　　##位置信息

　　再来看下边几处比较有特征的源码

　　![这里写图片描述]()口味

　　点评数目

　　##人均消费

　　这里内容采集规则基本设置完成了，我们来测试一条数据：

　　测试成功！

　　四、内容发布

　　内容发布就是将采集好的数据导下来，这里免费版的只支持导入到txt。

　　为了转成excel便捷，我们设置如下规则：

　　标签建均以中文冒号分隔，每一条数据加一个换行。

　　基本设置完成，点击右下角保存并退出。

　　开始数据采集并导入！

　　txt转换成excel

　　下面是我们导入得到的txt数据

　　看起来杂乱无章，也不便捷使用，所以我们将它保存成excel

　　打开excel，点击打开文件，选择所有文件，找到我们的txt

　　选择分隔符 >> 逗号分隔

　　![这里写图片描述]()![这里写图片描述]()

　　点击完成，就得到我们想要的数据格式！

　　有了这种数据，我们就可以开始我们的数据可视化之旅了！

0

2020-08-11

内容采集软件

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

爬虫软件爬取公开网路数据案例(以大众点评为例)

0 个评论

发起人