Excel利器:抓取Post多页数据

优采云 发布时间: 2023-05-08 02:21

  Excel是一款非常优秀的办公软件,它不仅可以用于数据处理、图表制作等日常工作,还可以通过插件实现网页数据的抓取。本文将介绍如何使用Excel插件“Power Query”来抓取Post多页数据。

  1.安装Power Query插件

  首先需要在Excel中安装Power Query插件。在Excel 2010或2013版本中,需要先下载安装Power Query插件;而在Excel 2016及以上版本中,Power Query已经默认安装在软件中。

  2.找到目标网站

  找到需要抓取数据的目标网站,并确定要抓取的内容和页数。本文以知乎为例,抓取“Python”标签下所有问题的标题和摘要。

  3.抓取第一页数据

  打开Excel,在“数据”选项卡下选择“从Web获取数据”。在弹出的“从Web获取数据”窗口中输入目标网站地址,并点击“确定”。

  等待片刻后,弹出一个新窗口让你选择要采集的内容。我们只需要勾选问题标题和摘要两个选项即可。

  点击“确定”后,Excel会自动将我们需要采集的内容显示在工作簿中。

  4.抓取多页数据

  由于我们需要抓取多页数据,因此需要对Power Query进行设置。在Excel的“数据”选项卡下,找到并点击“从其他来源获取数据”按钮。

  在弹出的“获取数据”窗口中选择“从网站”选项,并输入目标网站地址。接着,在下一步中,选择“高级选项”。

  在“高级选项”中,找到并选择“自定义”的方式,并在左侧的代码框中输入以下内容:

  let

   Source = Web.Page(Web.Contents("https://www.zhihu.com/topic/19552832/hot")),

   Data0 = Source{0}[Data],

   #"Changed Type"= Table.TransformColumnTypes(Data0,{{"Column1", type text},{"Column2", type text}})

  in

   #"Changed Type"

  其中,“https://www.zhihu.com/topic/19552832/hot”是目标网站地址,可以根据实际情况进行修改。完成后,点击确定并等待片刻。

  

  此时,Power Query会自动跳转至目标网站,并将第一页数据显示在工作簿中。接着,在右侧的“查询设置”中找到“源”,并将其更改为以下内容:

  let

   Source = List.Generate(

   ()=>[i=1, url="https://www.zhihu.com/topic/19552832/hot"],

<p> each [i]

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线