Excel VBA爬虫：如何自动爬取网页的数据？

优采云发布时间: 2022-05-04 21:01

　　网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

　　当前最流行的爬虫方式一般都是通过Python实现，Python有很多很好用的第三方库实现。对于不熟悉使用Python的朋友，有没有办法通过Excel VBA实现呢？

　　做数据分析，很重要的一部分准备工作就是获取数据，数据一般有多个来源，比如单位数据库存储的数据、报表等填写的数据、网页上的公共数据等，本文以抓取网页上的公共数据为例，做一个简单的示例，演示如何用Excel的VBA爬取数据。

　　测试的网页：上证债券信息网

　　尝试使用Excel获取一个时间范围内的全部记录（上图红色方框内数据表的信息）。

　　要求：

　　按照日期，从网页上抓取2018年1月1日至今的债券协议回购市场数据（上图中表格中的全部数据）。

　　操作方法：

　　----------------------------------------

　　1、打开EXCEL，建立两张sheet表

　　1）data，用来存放获取的结果

　　2）爬数据，用来存放WebBrowser控件。

　　如图：

　　2、插入控件

　　方法如图所示：

　　开发工具—插入AcitveX控件，找到microsoftWebBrowser控件—拖动。

　　3、设置控件的属性

　　跟进自己的需要，对空间进行设置。此处略，使用默认值。

　　4、分析网页

　　网页上的日期是通过控件实现的，我们需要查询一段时间内的数据，因此需要模拟在日期控件中输入日期，再点击“查询”按钮。

　　查看网页的源码，找到对应控件的名称和位置：

　　从以上截图可以看出，日期控件的id是"searchDate"

　　可以通过以下代码控制输入的日期：

　　WebBrowser1.Document.All.Item("searchDate").Value = RQ

　　同理，再看查询按钮，查询按钮的执行程序是“javascript:goSwitch()”

　　可以通过以下代码，调用：

　　WebBrowser1.Document.parentWindow.execScript "javascript:goSwitch()

　　此外，网页上的数据表的id是“datelist”。

　　5、代码实现

　　根据以上，编写VBA代码，代码逻辑如下：

　　用for循环，在网页上，按照日期填写数据，并点击“查询”；

　　等待网页数据刷新后，抓取网页上的数据，存入数组arr，再将数组保存到sheet表中。

　　6、运行程序

　　运行程序，然后略做等待，即可查看爬取到的数据。如下图：

　　注意事项：

　　如果对事件效率要求不高或者数据量不大，条件有限的情况下，可以使用该方法。（效率不高也是这个方法的弊端之一）。

　　对于爬取难度较高的网页，还是优先推荐考虑使用Python。

　　/20180905

0

2022-05-04

excel自动抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

Excel VBA爬虫：如何自动爬取网页的数据？

0 个评论

发起人