采集采集器(各个平台的旅游评价数据采集教程_新手入门必看_优采云采集器)

优采云 发布时间: 2022-02-08 22:00

  采集采集器(各个平台的旅游评价数据采集教程_新手入门必看_优采云采集器)

  由于目前写论文需要爬一些旅游景点数据进行数据分析,所以我摸索了一下评价数据的采集,打算把整个过程记录在这里。以前我爬数据的思路是各种F12然后找http请求解析数据进行各种操作,但是我发现这个方法在这里不太适用,单平台的反爬已经很麻烦了,何况携程、马蜂窝、美团、大众点评一共四个平台。估计等我搞定了,黄花菜也凉了。不过因为之前听过一些自动的采集软件,感觉好像很厉害,所以就下载了一个优采云采集器试试看。没想到这东西真的好用。许久,四个平台的数据都被爬了下来。由于我没有深入使用,所以爬取数据的效果还可以。废话不多说,我们先上效果图:

  携程采集结果:

  

  马蜂窝采集结果:

  

  当然,有些平台的数据还不够全,或者有一些问题,我会在最后指出。

  先介绍一下优采云采集器:(请注意这个采集器不一定是最好的,其他如优采云采集器估计也可以可以实现,不过我用的是这个,我觉得用起来比较简单,也能完成采集的任务)

  优采云采集器

  优采云采集器是前谷歌搜索技术团队基于人工智能技术开发的新一代网页采集软件。具有以下特点;

  官网下载地址:优采云采集器_真的免费!无限导出网络爬虫软件_人工智能数据采集软件

  资料中心:资料采集Tutorial_Beginners_Beginners必看_优采云采集器

  具体下载安装步骤请参考文档。

  下面介绍各平台旅游评价数据采集的处理过程。

  携程找到需要的网页采集

  以景区“清江画廊”为例,在携程官网首页搜索后,会出现景区的详细介绍。向下滚动后,可以看到最后一个面板是`User Comments`,出现了我们需要的评价数据。以分页列表显示,每页10条,共有238页,总数据条数为2373条。

  复制本页地址:

  ````

  德天瀑布门票、德天瀑布门票价格、德天瀑布门票团购【携程门票】

  ````

  

  2. 配置规则

  打开优采云采集器,在首页输入上一步找到的页面地址,点击`Smart采集`,Smart采集表示采集器会识别你的输入,并找到列表数据,并自动翻页,直到 采集 到最后一页数据。

  

  然后进入采集界面,采集器会自动打开你在软件中输入的网页,识别网页结构,找到数据列表。这将需要一些时间,请耐心等待。

  但起初它可能看起来像这样:

  

  这似乎不是我们需要的评估数据。证明自动识别的列表不是我们想要的,那我们该怎么办呢?

  可以这样解决:

  

  3. 开始采集 任务

  至此,我们已经配置好需要采集的页面和数据列表,可以在页面底部预览前10条数据。确认无误后,点击`Start采集 to`start采集 Missions。这里可以配置各种选项,比如定时采集、加速、防屏蔽、代理激活等功能。您可以根据需要配置它们。携程可以采集访问数据,无需任何配置。点击开始后,进入采集页面

  最后自动采集完成后会提示采集完成,可以将数据导出到本地。

  由于其他平台后续操作大同小异,这里只说明需要注意的地方。

  马蜂窝

  马蜂窝页面显示的数据实际上是不完整的,如下图所示:

  

  每页15页,一共只能看到5页,一共75条,但实际上总共是333条,所以不管显示多少评论,采集的结果最后也只有75条.

  美团

  与携程类似,可以自动识别页面列表。

  公众意见

  大众点评有点特别。您可以在查看评论时看到它。您需要登录才能查看所有评论。

  

  所以优采云采集器中需要解决的问题之一就是登录后才能获取数据,应该怎么做呢?

  采集页面有预登录功能

  

  在弹出的页面上,登录后,点击“登录完成”。

  但是需要注意的是,每页数据的url都不一样,例如:第一页`/shop/3328354/review_all`,第二页:`/shop/3328354/review_all/p2`,这个呢什么样的网址?

  可以看出,每一页的前缀都是一样的,但是最后的p2和p3号不同。采集器 为这种 url *敏*感*词*提供了一个常规的 url *敏*感*词*。详情请在此处填写参数。输入要生成的起始页码和结束页码,将URL预览中的url复制到“手动输入”字段,并进行一定的修改。

  

  总结

  其实从流程上来说,还是挺简单的,只是可能需要一些配置规则和预登录才能熟悉。网页上可以看到的大部分数据都可以通过采集器采集访问。当然,还有很多高级复杂的东西这里就不一一介绍了。去研究。

  有一个问题

  由于采集器和各个平台的差异,数据采集难免会出现一些问题,所以这里只记录我观察到的比较明显的问题:

  马蜂窝的数据,不管有多少评论,最终采集最多收到75条(网页上显示的也就这么多)。采集在美团上收到的一些评论是空的,不知道是什么问题。目前还不清楚大众点评的部分评价数据需要手动点击`展开评论`才能看到完整的内容,所以采集的结果并不完整。目前,携程的点评数据比较齐全。

  我的网站提供了POI数据爬取、人流爬取、数据可视化、在线地图工具等一系列功能,欢迎使用,地址:【BLT-LEAD一个专注分享地图数据相关的网站_] 用于爬取、可视化、应用工具和知识(BLT-LEAD是一个网站_,专注于分享与地图数据相关的爬取、可视化、应用工具和知识)

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线