Excel VBA爬虫:如何自动爬取网页的数据?
优采云 发布时间: 2022-05-04 21:01Excel VBA爬虫:如何自动爬取网页的数据?
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
当前最流行的爬虫方式一般都是通过Python实现,Python有很多很好用的第三方库实现。对于不熟悉使用Python的朋友,有没有办法通过Excel VBA实现呢?
做数据分析,很重要的一部分准备工作就是获取数据,数据一般有多个来源,比如单位数据库存储的数据、报表等填写的数据、网页上的公共数据等,本文以抓取网页上的公共数据为例,做一个简单的示例,演示如何用Excel的VBA爬取数据。
测试的网页:上证债券信息网
尝试使用Excel获取一个时间范围内的全部记录(上图红色方框内数据表的信息)。
要求:
按照日期,从网页上抓取2018年1月1日至今的债券协议回购市场数据(上图中表格中的全部数据)。
操作方法:
----------------------------------------
1、打开EXCEL,建立两张sheet表
1)data,用来存放获取的结果
2)爬数据,用来存放WebBrowser控件。
如图:
2、插入控件
方法如图所示:
开发工具—插入AcitveX控件,找到microsoftWebBrowser控件—拖动。
3、设置控件的属性
跟进自己的需要,对空间进行设置。此处略,使用默认值。
4、分析网页
网页上的日期是通过控件实现的,我们需要查询一段时间内的数据,因此需要模拟在日期控件中输入日期,再点击“查询”按钮。
查看网页的源码,找到对应控件的名称和位置:
从以上截图可以看出,日期控件的id是"searchDate"
可以通过以下代码控制输入的日期:
WebBrowser1.Document.All.Item("searchDate").Value = RQ
同理,再看查询按钮,查询按钮的执行程序是“javascript:goSwitch()”
可以通过以下代码,调用:
WebBrowser1.Document.parentWindow.execScript "javascript:goSwitch()
此外,网页上的数据表的id是“datelist”。
5、代码实现
根据以上,编写VBA代码,代码逻辑如下:
用for循环,在网页上,按照日期填写数据,并点击“查询”;
等待网页数据刷新后,抓取网页上的数据,存入数组arr,再将数组保存到sheet表中。
6、运行程序
运行程序,然后略做等待,即可查看爬取到的数据。如下图:
注意事项:
如果对事件效率要求不高或者数据量不大,条件有限的情况下,可以使用该方法。(效率不高也是这个方法的弊端之一)。
对于爬取难度较高的网页,还是优先推荐考虑使用Python。
/20180905