excel抓取多页网页数据( PowerBIDesktop的制作流程及注意事项(一))
优采云 发布时间: 2022-01-01 23:02excel抓取多页网页数据(
PowerBIDesktop的制作流程及注意事项(一))
我们使用Power BI Desktop制作上图,需要历年的保费收入数据作为依据。 网站有数据公告:
本页地址:
/web/site0/tab5205/info4129096.htm
每个月都会有对应的地址。在哪里可以找到这些地址?
我们找到了这样一个页面:
此页面上有指向我们需要的每月数据的链接。这样的页面一共有8个,这8个页面的URL是连续的。
web/site0/tab5205/module14413/page1.htm
从第 1 页到第 8 页
我们打开Power BI Desktop的Power Query,创建一个从1到8的表
并将ID列设置为文本,这是第一步。
第二步:创建查询,从网络获取数据,设置乘法csv格式
复制地址栏中的公式以备后用。 (这些功能实在想不起来了,有点懒,呵呵)
第三步:回到最开始的表格,自定义列,用刚才复制的公式进行修改。
用ID替换页面后面的数字。
第 4 步:数据清洗。我们想要的是每个月的 URL。这个过程有点复杂,但是用到的函数很简单,就是对符号进行排序、过滤、替换。
1、用
2、过滤掉收录信息的行
3、再次分隔列并使用双引号分隔列
到目前为止,我们已经得到了我们想要的 URL。
4、为了能够区分年月,需要做一些处理。取标题后面的列并提取年份和月份。这部分略过。结果是这样的:
第 5 步:获取特定数据。如果您不记得该函数,请先从网络创建查询,复制公式,然后自定义列。
将 URL 后面的部分替换为 URL。
第六步:展开和整理数据,这里有几点需要注意
1、删除需要修改的列,保留年月列
2、过滤掉所有非省市名
3、统一各省市名称,自己想办法
4、反向透视栏
最终结果:
剩下的工作会回到 Power BI Desktop 使用 DAX 创建测量值,然后图表就可以了。
综上所述,如果你想从一个网页中获取你需要的信息,你必须掌握关键信息。网络信息有多种格式。如果要从源代码中查找信息,请使用 CSV 格式。使用 HTML 格式。无论是使用PQ还是PY网络来抓取数据,都是一个寻找模式的过程。如果你找到一个模式,你就可以做到。