excel抓取网页数据(《我和我的祖国》、《攀登者》几部影片)

优采云 发布时间: 2022-02-10 17:16

  excel抓取网页数据(《我和我的祖国》、《攀登者》几部影片)

  国庆刚过,《我和我的祖国》、《中国队长》、《攀登者》等电影就深受观众好评,在豆瓣上好评如潮:

  

  我们想捕捉这些电影评论进行分析。我们如何获得影评?电源查询

  网站分析

  网站分析的过程是必要的。通过观察,我们发现这个页面内容的变化与URL中的一个值有关:

  

  每当按下上一页和下一页时,该值都会发生变化,这也是我们将来用作翻页参数的值。

  尝试爬行

  我们翻到中间页面,复制网址开始爬取:

  

  我们查看了这样一个页面,表格内容并没有我们期望的整个表格的数据:

  

  首先确保,在 Power Query 编辑器中,让我们直接以文本格式进行调整和分析页面内容:

  

  通过观察,我们发现所有的影评内容都是这样的格式:

  

  我们分两步执行此操作:

  过滤器:过滤器收录

  格式代码行

  

  提取:提取两个尖括号之间的文本

  

  这样一页影评就被提取出来了。

  定义抓取功能

  右键单击上述查询以创建函数:

  

  添加参数,函数就准备好了。

  抓

  我们需要这样的页码更改列表 {0, 20, 40, ...}

  试了到200之后,基本是回不去了,就是一个0-200的列表,步长20。

  

  = List.Generate(()=>0,each_

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线