自动采集器怎么用(大数据的时代不可阻挡数据获取之路的学习记录(组图))

优采云 发布时间: 2021-09-04 14:12

  自动采集器怎么用(大数据的时代不可阻挡数据获取之路的学习记录(组图))

  前言:大数据时代势不可挡,尤其是数字时代城市认知的变革。作为城市规划行业的一员,对基础数据的获取和处理,应该和绘图su体图CAD一样,属于基础技能,本系列主要记录下自己作为规划从业者在道路上的学习记录数据采集​​。

  第一篇,采集器的常用用法(以优采云采集器为例)

  这些是我们熟悉的网站。大众点评、携程、途牛、美团等都是一样的,主要是获取评分、评论、价格等数据。

  

  这些是我们熟悉的网站。大众点评、携程、途牛、美团等都是一样的,主要是获取评分、评论、价格等数据。

  今天正好在获取酒店数据,就以携程为例。哦,不是记录,免得以后忘记怎么用。

  

  1.获取网址

  打开携程网站,上面的浏览器是网站当前页面的连接就是所谓的url(提醒,每个城市不一样,所以先获取你需要的城市的url)

  2.下一步使用优采云采集器

  两种模式,流程图是你自己选择获取数据的方式,听名字就知道数据识别了。

  

  呃想想,其实用傻瓜式的智能模式就够了,所以就记录一下智能模式。 . . . . .

  这里需要输入url(刚才浏览器中的url)

  

  打开后,我发现...

  

  您需要登录,不要惊慌。这就是我选择优采云的原因。右上角输入预登录点(玩爬虫就知道可以拿到登录cookie信息了)。

  

  我懒得截图,点击预登录。操作与浏览器中相同。使用您的帐号登录,使用验证码进行验证,完成后返回采集页面。

  底部是自动识别的爬取信息。右击表格的表头部分,可以选择删除不需要的信息(我通常要全部爬取然后删除)。接下来记录两点:

  1.如果要加过滤条件,比如只拿到五星级酒店怎么办,怎么选择?

  

  点击右上角的绿色按钮,点击添加一些操作。进入后直接点击五颗星,会自动弹出一个对话框问你为什么,选择点击一次元素保存退出,就这么简单。

  

  

  

  回来后发现选择的页面是五星级酒店。

  第二点:深入采集

  采集 是什么意思?这很简单。我们得到的信息是呈现在当前页面上的,所以有很多详细的信息必须点进去才能看到(也就是列表页和详情页)

  

  所以这里举个例子,每个酒店点评数据都要深入采集(点击酒店名称进入新页面)

  记录如何操作:

  1.优采云采集器具有深入采集的功能。简单的说,这个功能就是帮你点击当前选中的ur,所以先点击深的采集,弹出让你选择哪个url,无疑是选择标题url

  2.点击之后就进去了,下一步就是选择你想要的信息采集,比如这里我要评分,所以点击添加一个字段,然后拖动虚线线到乐谱,到这一步就完成了,点击保存,开始采集。

  

  

  

  

  本条记录有几点1.Pre-Login2.智能模式添加页面选择条件3.depth采集

  基本上这些网站就可以像采集一样简单了,ok的技能就搞定了(

  提醒网站采集的一些信息是乱码(比如大众点评的评分),不要惊讶,这是网站有字体反爬机制,优采云采集器必须成为会员就可以解决。毕竟人要好好吃饭。还是氪玩家nb)

  

  嗯,这里我需要在南京找一家三星级以上的酒店,导入到GIS中,那么问题来了,坐标!哪个poi是不用坐标计算的!!!别急,下次再说把地址转换成坐标。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线