excel抓取多页网页数据(2017年注册*敏*感*词*考试《综合素质》考前必看!)
优采云 发布时间: 2022-04-07 04:06excel抓取多页网页数据(2017年注册*敏*感*词*考试《综合素质》考前必看!)
**▼课程概述:**在网页上应用元素文本获取多条内容,需要写入Excel表格,每次在之前写入的基础上写入一行,即,补充写作。
★培训介绍
启动谷歌浏览器,打开百度,搜索“七点见面”。七点进入第一个搜索内容的首页-知乎,先用data capture命令获取当前页面的所有title内容,再用data capture命令获取所有文本内容; 创建一个名为 "7 o'clock meet" 的新名称,将两次提取的结果附加到表中。
所需命令:启动浏览器、等待元素、单击目标、数据抓取、打开 Excel 工作簿、获取行数、写入区域。
★动作分割
▼启动浏览器,进入《七点见面》首页知乎
前面的课已经详细讨论过了,这里鹏飞老师只贴代码。
注意,每次跳转到一个页面,都需要添加一个“等待元素”命令,以提高程序稳定性;注意为每个命令添加注释,以提高代码的可读性。
▼数据抓取标题和正文内容
应用数据抓取功能,注意标题和正文不是同一个块级目标,需要单独抓取。
这里我们回顾一下数据抓取命令。
----点击标题栏中的数据采集命令。
----选择标题目标,然后选择同级标题目标。这里,第二次选择的目标可以是相邻的标题,不需要选择最后一个标题。
----我们要获取的是文本内容,查看文本即可,这次不是链接。
----此时可以看到数据抓取成功,点击下一步。
----本次只抓取当前页面的数据,点击Finish结束。
获取到标题内容后,使用数据抓取功能再次抓取文字,这里不再演示。
▼创建一个新的工作簿并附加到它
----创建一个名为“七点见面”的新工作簿
使用打开Excel工作簿的命令,配置路径为源目录文件夹。老师用了@res“七点见.xlsx”的写法。如果你不明白也没关系。下一堂课,鹏飞老师会用一节课时间讲解路径。先照葫芦画写。
请注意,创建新工作簿和打开工作簿都是命令。
---- 清除区域
写之前的必要操作。因为不是我们打开的表格一定是空白的。因此,在写入之前使用 clear area 命令清除原创数据。
但在这里我们必须先做一件事。
因为范围的形式是“A1:B2”,所以 B2 中的“2”表示最后一行编号。因此,我们需要先获取当前表格行号srow,然后将区域拼接到“A1:B”&srow,清除数据。
要获取行数,一如既往的注意工作簿对象和工作表名称是否正确。
现在您可以清除该区域。
配置区域为“A1:B”&srow,还要注意两个坑:工作簿对象和工作表名称。
---- 写标题
数据抓取的结果是一个二维数组,写入所需的命令就是写入区域。
因为原表是空白的,所以写入的起始单元格是A1,数据是之前抓取并赋值的变量arrayData1。还要注意两个坑。
好了,敲黑板,划重点!
现在开始追加和写入文本内容,如何实现呢?
附加写入意味着在现有行数中添加新行以开始写入。所以第一步要做的是再次获取现有的行数。
---- 获取行数
---- 拼接区域
写标题也需要使用 write area 命令。该命令需要配置的主要内容是起始单元格。
补充写,起始单元格应该是A列,原创行数+1行(即刚刚得到的行数srow),拼接后应该是“A”&srow+1。数据应该是grab给出的变量arrayData2。
因此,配置写入正文内容的代码应该这样写:
▼关闭工作簿
默认是自动保存。编程结束。
===
★明天通知
如何使用路径。
你学会了吗?下课!