旅游景点评价数据爬取(携程、马蜂窝、美团、大众点评四个平台)
优采云 发布时间: 2020-08-10 03:21由于目前写论文须要爬些旅游景点的数据做数据剖析,因此探求了一番评价数据的采集,此处准备把整个过程记录出来。过去我爬取数据的思路都是各类F12之后找http请求,解析数据各类操作,不过发觉这个方式用在这里并不太适用,单个平台的反爬就早已很麻烦了,何况是同程、马蜂窝、美团、大众点评整整四个平台,估计等我搞定了,黄花菜也凉了。不过因为之前听过一些手动采集的软件,好像很强悍,于是随意下载了个优采云采集器来打算试试,没想到,这玩意确实好用,没过多久,就把四个平台的数据都爬取出来了。由于我用得不深,不过爬取的数据疗效还可以,话不多说,先上效果图吧:
当然,有些平台的数据也不够完整,或存在些问题,我会在最前面标明。
先来介绍下优采云采集器吧:(先标明下,并不是说这个采集器就一定是最好的,其他的例如优采云采集器等恐怕也可以实现,只是我用了这个,觉得用上去比较简单,也能完成采集任务)
优采云采集器
优采云采集器是由前微软搜索技术团队基于人工智能技术研制的新一代网页采集软件。具有以下特性;
官网下载地址:
文档中心:
具体下载安装步骤参考文档即可。
下面就一一介绍各个平台的旅游评价数据采集过程。
携程找到须要采集的网页
以德天瀑布 这个景点为例,在同程官网首页搜索后便出现了关于该景点的详尽介绍,往下拉后可见到最后一个面板为用户点评,就出现了我们须要的评价数据,以分页的列表展示,每页10条,有238页,总的数据条数是2373。
复制该页面的地址:
https://piao.ctrip.com/ticket/dest/t51544.html#ctm_ref=www_hp_his_lst
配置规则
打开优采云采集器,首页输入上一步中找到的页面地址,点击智能采集,智能采集的意思是采集器会辨识你输入的网页结构,并找到列表数据,并手动进行翻页,直到采集到最后一页数据为止。
然后步入采集界面,采集器会手动在软件中打开你输入的网页,并辨识网页结构,找到数据列表。这须要一些时间,耐心等待即可。
不过一开始辨识下来后可能是这样的:
似乎不是我们须要的评价数据啊, 证明手动辨识的列表并不是我们想要的,那如何办呢?
可以这样解决:
开始采集任务
到此,我们配置好了须要采集的页面以及数据列表,并且可以在页面下方预览前10条数据,确认无误后,点击开始采集即可启动采集任务。此处可以配置各类选项,比如定时采集,加速、防屏蔽、启用代理等功能,自己按需配置,携程这个不需要任何配置也能采集到数据的。点击开始后,就步入了采集页面
最前面手动采集完成后,会提示采集完成,将数据导入到本地即可。
由于后续其他平台操作类似,故只会说明下须要注意的地方。
马蜂窝
马蜂窝页面显示的数据似乎是不完整的,如下图所示:
每页是15条,总的只能看见5页,总的75条,但似乎总的是333条,因此,不管显示多少评论,采集的结果最终只是75条。
美团
和同程差不多,页面列表可以手动辨识。
大众点评
大众点评稍为有点特殊,查看评价时侯可以看见,需要登入后就能看见所有的评价。
因此,在优采云采集器中须要解决的一个问题就是登陆后能够领到数据,那具体应当如何操作呢?
在采集页面里面,有个预登录功能
在弹出的页面上,进行登陆后,点击登陆完成,即可。
不过须要注意的是每页数据的url都是不同的,比如:首页,第二页:,那这些url怎样办呢?
可以看见,各个页面的前缀都是一样的,只是最后p2,p3数字不同而已,采集器提供了一种针对这些有规律的url*敏*感*词*,详见右图,在参数那儿填入开始的页面和结束的页面数字即可生成,复制网址预览中的url到自动输入栏中,并进行一定的更改即可。
总结
其实从过程来说,还是很简单的,只是可能一些配置规则、预登录这些得多弄几次才能熟悉。大多数只要能在网页上见到的数据,都是可以通过采集器采集到的,当然,还有好多中级复杂的东西此处并没有涉及到,后续遇见的话再去研究研究。
存在问题
由于采集器以及各个平台的差异性,采集到的数据难免存在些问题,这里仅记录我观察到的比较显著的问题:
1. 马蜂窝的数据不管评价数目多少,最终采集到的最多75条(网页上也只显示这么多)2. 美团上采集到的评价内容有些是空的,不知道啥问题,目前还没搞清楚3. 大众点评的评价数据有些是须要自动点击展开评论就能看见完整内容的,因此采集结果有些并不完整。4. 目前来看,携程的评论数据是比较完整的。
我的网站提供了一系列POI数据爬取、人流量爬取、数据可视化、以及地图在线工具等功能,欢迎使用哦,地址: