excel抓取多页网页数据(2017年注册*敏*感*词*考试《综合素质》考前必看!)

优采云 发布时间: 2022-04-07 04:06

  excel抓取多页网页数据(2017年注册*敏*感*词*考试《综合素质》考前必看!)

  **▼课程概述:**在网页上应用元素文本获取多条内容,需要写入Excel表格,每次在之前写入的基础上写入一行,即,补充写作。

  ★培训介绍

  启动谷歌浏览器,打开百度,搜索“七点见面”。七点进入第一个搜索内容的首页-知乎,先用data capture命令获取当前页面的所有title内容,再用data capture命令获取所有文本内容; 创建一个名为 "7 o'clock meet" 的新名称,将两次提取的结果附加到表中。

  

  所需命令:启动浏览器、等待元素、单击目标、数据抓取、打开 Excel 工作簿、获取行数、写入区域。

  ★动作分割

  ▼启动浏览器,进入《七点见面》首页知乎

  前面的课已经详细讨论过了,这里鹏飞老师只贴代码。

  

  注意,每次跳转到一个页面,都需要添加一个“等待元素”命令,以提高程序稳定性;注意为每个命令添加注释,以提高代码的可读性。

  ▼数据抓取标题和正文内容

  应用数据抓取功能,注意标题和正文不是同一个块级目标,需要单独抓取。

  这里我们回顾一下数据抓取命令。

  ----点击标题栏中的数据采集命令。

  

  ----选择标题目标,然后选择同级标题目标。这里,第二次选择的目标可以是相邻的标题,不需要选择最后一个标题。

  

  ----我们要获取的是文本内容,查看文本即可,这次不是链接。

  

  ----此时可以看到数据抓取成功,点击下一步。

  

  ----本次只抓取当前页面的数据,点击Finish结束。

  

  获取到标题内容后,使用数据抓取功能再次抓取文字,这里不再演示。

  

  ▼创建一个新的工作簿并附加到它

  ----创建一个名为“七点见面”的新工作簿

  使用打开Excel工作簿的命令,配置路径为源目录文件夹。老师用了@res“七点见.xlsx”的写法。如果你不明白也没关系。下一堂课,鹏飞老师会用一节课时间讲解路径。先照葫芦画写。

  请注意,创建新工作簿和打开工作簿都是命令。

  

  ---- 清除区域

  写之前的必要操作。因为不是我们打开的表格一定是空白的。因此,在写入之前使用 clear area 命令清除原创数据。

  但在这里我们必须先做一件事。

  因为范围的形式是“A1:B2”,所以 B2 中的“2”表示最后一行编号。因此,我们需要先获取当前表格行号srow,然后将区域拼接到“A1:B”&srow,清除数据。

  

  要获取行数,一如既往的注意工作簿对象和工作表名称是否正确。

  现在您可以清除该区域。

  

  配置区域为“A1:B”&srow,还要注意两个坑:工作簿对象和工作表名称。

  ---- 写标题

  数据抓取的结果是一个二维数组,写入所需的命令就是写入区域。

  

  因为原表是空白的,所以写入的起始单元格是A1,数据是之前抓取并赋值的变量arrayData1。还要注意两个坑。

  好了,敲黑板,划重点!

  现在开始追加和写入文本内容,如何实现呢?

  附加写入意味着在现有行数中添加新行以开始写入。所以第一步要做的是再次获取现有的行数。

  ---- 获取行数

  

  ---- 拼接区域

  写标题也需要使用 write area 命令。该命令需要配置的主要内容是起始单元格。

  补充写,起始单元格应该是A列,原创行数+1行(即刚刚得到的行数srow),拼接后应该是“A”&srow+1。数据应该是grab给出的变量arrayData2。

  因此,配置写入正文内容的代码应该这样写:

  

  ▼关闭工作簿

  默认是自动保存。编程结束。

  

  ===

  ★明天通知

  如何使用路径。

  你学会了吗?下课!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线