干货教程:手动采集太耗时?这两个Power Query技巧轻松实现网页批量采集!

优采云 发布时间: 2022-10-21 14:26

  干货教程:手动采集太耗时?这两个Power Query技巧轻松实现网页批量采集!

  最近收到群里很多小伙伴的提问,分享一些关于Python爬虫的知识。事实上,如果你只是想简单地采集数据,你可以使用Excel。

  在Excel 2016及以后的版本中,内置了一个非常强大的数据处理神器Power Query。无论是数据采集还是基础数据处理/分析,实现起来都非常简单。

  最重要的是,相比Python需要很强的数学逻辑+编程能力,Power Query几乎不用写代码就可以实现数据采集!

  今天小北来给大家分享2个不同的PQ采集大法,拒绝低效数据采集!

  - 01 -

  带表格的 web 表单

  第一个是第一个 采集 方法,它们之间的主要区别在于网页的结构。如果网页中使用了“表格标签”,则可以直接将网页导入Excel,自动提取表格。

  如何检查网页是否使用了table标签?很简单,选择任意数据,右击,选择“检查”。

  这里我们以“豆瓣电影”为例。即将上映的电影列表是一个带有表格标签布局的网页。

  采集 的网址:

  首先,选择“数据”选项卡下的“新查询”-“来自 Web”。在弹出的对话框中粘贴需要为采集的URL,点击“确定”,如下:

  这时候Excel会打开一个“导航器”,左边选择table0,可以看到PQ自动识别右边的表格数据。

  接下来点击“加载”,将网页数据自动加载到Excel中,也是一个智能表格。

  使用PQ加载的表格数据,如果网页的数据有更新,则无需再次加载数据。只需右键单击“刷新”即可快速同步数据。

  这是PQ第一个采集data的方法,是不是很简单,不用写一行代码,就可以很方便的将数据导入Excel。

  但是使用上也有很多限制,必须在网页中使用table标签(table、td、tr等)才能使用。

  - 02 -

  非表格结构的网页

  

  但是,使用表格来显示数据已被淘汰。在 80% 以上的网页中,使用 div、ul、span 等标签来更灵活地呈现数据。

  此时,第一种方法将无效。比如小北经常访问知乎。如果要使用Excel下载知乎采集的信息,第一种方法无效。

  因为这个网页没有使用“table标签”,所以导入的时候看不到table0选项:

  这个时候可以做什么?事实上,大多数现代网页都使用 API 接口来获取渲染数据。这句话怎么理解?

  会先加载网页,然后向后台发起请求,简单获取数据,常用的数据格式为JSON。

  那么你如何看待这些数据呢?很简单,还是打开“check”,在“network”下找到“xhr”,这里就是请求的数据。

  比如搜索知乎:芒中学院,可以在这里找到对应的请求数据。

  当页面滚动时,可以发现多了一个“search_v3?” 在列表中,点击查看,发现是我们要的数据:

  然后我们右键点击链接,选择“复制链接地址”,复制链接。

  按照方法一再次将此URL导入Excel,如下:

  这里得到的数据是json的结构数据,可以看到分页、数据等。

  因为数据在data里面,所以我们右击“data”,选择“Drill down”,然后点击“Into Table”。这是我们想要的数据列表。

  然后详细展开“数据”,如下,得到我们的详细数据:

  是不是很简单?可以看到界面中所有的数据都是采集出来的,但是我们一个字都没写代码。

  当然,里面有很多我们不需要的标签。如果我们想干净地处理它,我们需要为 PQ 编写一个自定义函数。

  最后,对于一些比较复杂的场景,不建议使用Power Query来采集,尝试使用Python或者可视化专业爬虫工具来实现~

  如果对你有帮助,记得点“好看”。如果你有想要学习的Excel技巧,请在下方留言~

  

  想了解更多关于数据处理和信息图表的想法和技术吗?《Excel实战课,让你的图表说话》价值Excel课程学习——

  芒斯零基础Excel商务图表训练营,教你如何快速拆分数据,如何制作精美优雅的动态图表报表,搞定你的老板,加速升职加薪!

  新课发布,更新完成,打卡作业,5小时你成为图表大师!

  今日咨询报名,仅需69元,5小时共58节课,教你零基础制作高级Excel商务图表!

  ↑ 一堂课来解决你的图表问题

  掌握真正可视化您的思维并制作正确图表的能力,您可以脱颖而出并给周围的人留下深刻印象。

  完成课程后,您还可以在 10 分钟内制作出这种动态仪表板(课程案例):

  -----常见问题--

  问:课程有时间和频率限制吗?

  A:课程不限时间和次数,随时可以学习,长期有效。

  问:我可以在手机上学习吗?

  A:可以,您可以在手机上安装网易云课堂APP,登录您的账号进行学习。

  Q:课程中会有老师回答问题吗?

  A:当然,课程里有功课复习和长期问答,不怕不学。

  Q:除了课程还有其他学习资料吗?

  A:课程结束后,您还将获得一套完整的Excel图表。如果遇到不理解的数据结构,可以直接查询使用哪个图表。此外,还有 16 种配色方案模板,让您一键匹配颜色。

  Q:如何添加助教微信?

  A:您可以直接扫描下方二维码,或者直接搜索:mongjoy001,可以添加助理老师打卡答题。

  扫码添加助教/课程咨询&问答

  新课在线购买课,还送色卡和图表...

  内容分享:淘宝、天猫、拼多多一键批量采集图片及视频的软件,轻松店铺搬家

  电商运营商需要大量的图片和视频素材来维持人气。您可以使用采集各大电商平台来参考和修改同款产品的图片。那么如何将宝宝的图片和视频批量下载保存到我们的本地电脑呢?今天小编就来使用在线商家图片下载工具,一键获取宝贝的主图、细节图等。让我知道详细的操作。

  工具和材料准备:

  

  在线商业图片下载工具(可以直接在浏览器中搜索工具名称下载到电脑上。)

  计算机

  下载逐步演示:

  

  首先,我们打开在线商业图片下载工具,将需要下载的产品链接粘贴到下载框中,点击立即下载,然后就可以全部导出到本地了。

  下载后我们点击打开文件夹,可以看到产品分类清晰整洁

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线