汇总:爬虫-如何采集住房列表下的详细信息?

优采云 发布时间: 2022-11-24 09:27

  汇总:爬虫-如何采集住房列表下的详细信息?

  从科研到医疗保险,从银行业到互联网行业,各个领域都在发生类似的事情,那就是数据量的爆发式增长。我们周围有多少数据?数据增长有多快?有数据显示,人类存储信息量的增长速度是世界经济增长速度的四倍,而计算机数据处理能力的增长速度是世界经济增长速度的九倍。据了解,2013年全球存储的数据量达到约1.2泽字节。可想而知,这是一个庞大的数字!

  在这个大数据时代,数据的价值越来越大。它就像漂浮在海洋中的冰山。乍一看,只能看到冰山一角,表面之下隐藏着很多价值。那么,我们要分析数据的价值,就必须先采集

数据,这就需要使用爬虫来采集

数据。通过在网上搜索,了解到爬虫是一种按照一定规则自动抓取万维网上信息的程序或脚本。开发爬虫主要分为三类:分布式爬虫、JAVA爬虫、Python爬虫。当然还有另一种爬虫方式——Jisooke爬虫。

  但是,Jisoke 爬虫有一个缺点:爬取的数据量不能太多。因为极速客爬虫最后导出的Excel文件,Excel文件中每个sheet只能存储11048576行数据(最多256列,相乘的话大概可以存储1000行数据)。所以如果数据量太大,就只能用上面三种爬虫了。不过日常生活中用到的数据并不是太多,极速客爬虫软件就可以解决。

  自从学会了吉苏克爬虫,我可以爬到各大招聘网站的职位招聘信息和各个网页的信息。比如我曾经爬取过智联招聘的数据分析岗位信息,用来分析数据分析行业的发展前景和薪资(详见@SQL教你找数据分析岗位)。而且Jisooke爬虫的操作比较简单,所以如果你不会开发爬虫,可以试试看。

  在极速客爬虫中,采集

数据的方式有很多种。比如网页数据采集、列表数据采集、翻页采集、分层采集等(详细介绍见极速客教程)。接下来我将采用分层采集的方式,爬取房价网站上成都的房价信息数据。(此处数据包括成都首页数据和各房源页面详细信息数据。)

  1、抓取数据

  首先,我打开Jisoke,注册并登录后,得到如下界面:

  1)输入爬虫网址:#pagelist

  2)点击定义规则:

  3)打开工作台,设置主题名称为“成都房价信息一级”,然后点击“检查重复项”,查看名称是否被占用。如果被占用,需要修改主题名称,直到出现“此名称可以使用”窗口:

  4)内容标注:关闭工作台,双击要采集的内容(即“金牛区-梁店-XXX”),在弹出的窗口中输入标签名称,打勾确认或回车,进行一次标注操作完成了。因为是第一次标注,会弹出一个排序框名称框,输入排序框名称:成都市价格信息一级,点击确定:

  5)样例复制:点击第一个样例(华为官方旗舰店)中的任意内容,可以看到在下方的DOM窗口中,光标自动定位到一个节点上,右击该节点,选择“样例复制映射” ” → “第一”:

  然后,单击第二个示例中的任何内容。同样,在下面的DOM窗口中,光标自动定位到一个节点上,右击该节点,选择“Sample Copy Mapping”→“Second”:

  然后点击工作台中的“测试”,会弹出一个输出窗口,显示房屋信息:

  

" />

  6) 设置翻页

  ①设置翻页区域:在当前页面,点击翻页区域,发现整个翻页区域都变成了*敏*感*词*(也可以不变,只要整体选中),然后,在DOM窗口下图,光标自动定位到DIV节点上,右击该节点,选择“翻页映射”→“作为翻页区域”→“新建线索”:

  ②设置翻页标志:在当前网页继续,点击翻页按钮“下一页”。在下方的DOM区域,光标自动定位在A节点上,点击A节点,寻找文本节点。找到后右击文本节点,选择翻页图→作为翻页标记。

  7) 标记网址:要获取房源的详细信息,您还需要点击每个房源链接,进入房源的详细网页。找到它的上层节点A,找到attributes下的@href节点,注意查看是否是对应的下层URL,然后右键@href选择“内容映射”->“新建抓取内容”,输入标记名称(任何名称),例如“URL”。

  8)从属线索:在排序框中选择“URL”,勾选“从属线索”。这只能为映射到较低级别 URL 的标签名称设置。这时会弹出一个窗口,要求你输入二级规则的主题名称。输入从属规则的名称并确认。

  然后点击保存规则,点击确定:

  9)定义二级规则:点击正常浏览,然后进入一级房源的详细网页(直接点击一级房源名称),然后按照前面的步骤定义规则:

  然后点击工作台中的“测试”,会弹出一个输出窗口,显示房屋的详细信息:

  然后点击保存规则,点击确定:

  10) 抓取数据

  ①爬取一级数据:

  首先,点击右上角的DS编号机,进入DS编号机页面,在搜索栏输入“成都房价信息*级”,其中*代表任意一个词:

  选择“成都房价一级信息”,右击,选择“统计线索”项:

  需要爬取的一级规则条数为1:

  

" />

  然后点击“成都房价信息一级”后面的“单次搜索”按钮,会弹出一个网页抓取框,然后在上面填写要抓取的数字,然后点击确定,一级规则就开始了爬取数据。

  ②爬取二级数据:

  点击“成都房价信息二级”后面的“机色”按钮,会弹出网页爬取框。这里我填写的是1250,然后点击确定开始按照二级规则爬取数据。

  2.导出数据

  1)至此,数据已经被爬取到一些xml文件中,然后将这些xml文件打包成一个“.ZIP”压缩包文件:

  2)然后登录极搜客官网,进入会员中心->规则管理->我的规则,点击相应主题名称进入管理页面:

  点击“导入数据”按钮,点击附件,选择数据包zip(上图圈出的文件),点击导入。导入成功后,可以“导出数据”:

  导出成功后点击下载,下载的数据默认保存在本地下载目录:

  9)最后打开上面的“房价信息二级表.xlsx”文件,得到1250条房屋信息:

  但是通过观察可以发现,得到的数据比较复杂和冗余,所以我进行了一些筛选和剔除,最终的门店信息如下:

  3. 分级收购兼并

  通过观察,我们可以发现第一个表中只有两个字段(name和url),并没有我们需要的信息。所以两张表不需要合并,直接删除第一张表,只留下第二张表。当然,如果以后遇到要合并的表,可以使用Excel的VLOOKUP函数。具体步骤参见多级采集结果的合并。最后,我们得到了成都的房屋信息数据。

  总结

  本次爬取房源信息的过程中,耗时1小时,一共爬取了1250条数据。主要包括姓名、月租、房屋面积、户型、楼层、户型、面积、地址、经纪人、*敏*感*词*等字段。后面我会对这些数据进行分析,希望能够挖掘出一些有用的信息。

  干货教程:关键词采集工具下载

  免费的关键词采集

工具可以设置为包括核心关键词

  关键词采集

工具,免费关键词采集

工具

  、在线关键词采集

工具

  关键词挖掘工具 麒麟爱站

关键词采集器

超强三合一 v1.0

  

" />

  麒麟爱站关键词采集器超级三合一软件绝对是必备功能,数据统计、分析、同行网站关键词分析等功能强大,操作简单,运行稳定。麒麟爱心站关键词采集器

的三大功能: 1.百度

  关键词网址采集

器.zip

  可用

  2020年关键词采集器

URL采集

必备工具 百度必应搜索可以来了下载,

  试用,下载,试用,下载,尝试

  

" />

  爱占关键词采集器

(关键词采集

工具)V1.1免费绿色版

  Aizhan关键词采集

器(关键词采集

工具)是一款非常好的关键词采集

软件。如何采集

关键词? iStation 关键词采集

器(关键词采集

工具)可以轻松帮助用户。此外,它还具有挖掘关键词和百度结果的能力,提取出超级词库,有需要的用户不应该....

  蜘蛛侠关键词采集

工具v2.0

  蜘蛛侠关键词采集

工具是中国长尾关键词采集

的武器,内置各大中文搜索引擎界面采集

  百度长尾关键词、百度风云榜、谷歌长尾关键词、必应长尾关键词、搜狗长尾关键词、搜索长尾关键词、问长尾关键词、有道....

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线