excel抓取网页数据(《我和我的祖国》、《攀登者》几部影片)
优采云 发布时间: 2022-02-10 17:16excel抓取网页数据(《我和我的祖国》、《攀登者》几部影片)
国庆刚过,《我和我的祖国》、《中国队长》、《攀登者》等电影就深受观众好评,在豆瓣上好评如潮:
我们想捕捉这些电影评论进行分析。我们如何获得影评?电源查询
网站分析
网站分析的过程是必要的。通过观察,我们发现这个页面内容的变化与URL中的一个值有关:
每当按下上一页和下一页时,该值都会发生变化,这也是我们将来用作翻页参数的值。
尝试爬行
我们翻到中间页面,复制网址开始爬取:
我们查看了这样一个页面,表格内容并没有我们期望的整个表格的数据:
首先确保,在 Power Query 编辑器中,让我们直接以文本格式进行调整和分析页面内容:
通过观察,我们发现所有的影评内容都是这样的格式:
我们分两步执行此操作:
过滤器:过滤器收录
格式代码行
提取:提取两个尖括号之间的文本
这样一页影评就被提取出来了。
定义抓取功能
右键单击上述查询以创建函数:
添加参数,函数就准备好了。
抓
我们需要这样的页码更改列表 {0, 20, 40, ...}
试了到200之后,基本是回不去了,就是一个0-200的列表,步长20。
= List.Generate(()=>0,each_