教程:手动采集太耗时?这两个Power Query技巧轻松实现网页批量采集!
优采云 发布时间: 2022-09-27 12:05教程:手动采集太耗时?这两个Power Query技巧轻松实现网页批量采集!
最近收到群里很多小伙伴的提问,分享一些关于Python爬虫的知识。其实如果只是单纯的采集数据,可以用Excel。
在Excel 2016及以后的版本中,内置了一个非常强大的数据处理神器Power Query。无论是数据采集还是基础数据处理/分析,实现起来都非常简单。
最重要的是,相比Python需要很强的数学逻辑+编程能力,Power Query几乎不用写代码就可以实现数据采集!
今天小北给大家分享2种不同结构的PQ采集大法,拒绝低效数据采集!
- 01-
带表格的网络表单
First是第一个采集方法,它们的主要区别在于网页的结构。如果网页中使用了“表格标签”,则可以直接将网页导入Excel,自动提取表格。
如何检查网页是否使用了table标签?很简单,选择任意数据,右击,选择“检查”。
这里我们以“豆瓣电影”为例。即将上映的电影列表是一个带有表格标签布局的网页。
采集网址:
首先,在“数据”选项卡下选择“新查询”-“来自 Web”。在弹出的对话框中粘贴需要为采集的URL,点击“确定”,如下:
此时Excel会打开一个“导航器”,选择左侧的table0,可以看到PQ自动识别右侧的表格数据。
接下来点击“加载”,将网页数据自动加载到Excel中,也是智能表格。
使用PQ加载的表格数据,如果网页的数据有更新,则无需再次加载数据。只需右键“刷新”即可快速同步数据。
这是PQ的第一个采集数据方法。不是很简单吗?无需编写一行代码,即可轻松将数据导入Excel。
但是使用上有很多限制,必须在网页中使用table标签(table、td、tr等)才能使用。
- 02-
非表格结构化网页
但是,使用表格来显示数据已被淘汰。在 80% 以上的网页中,使用 div、ul、span 等标签更灵活地呈现数据。
此时,第一种方法将无效。比如小北经常访问知乎。如果要使用Excel下载知乎采集的信息,第一种方法无效。 .
由于本网页没有使用“table标签”,所以导入时看不到table0选项:
此时我能做什么?事实上,大多数现代网页都使用 API 接口来获取渲染数据。这句话怎么理解?
会先加载网页,然后向后台发起请求,简单获取数据,常用的数据格式为JSON。
那么您如何看待这些数据?很简单,还是打开“check”,在“network”下找到“xhr”,这里就是请求的数据。
比如搜索知乎:芒果学院,可以在这里找到对应的请求数据。
页面滚动时,可以发现多了一个“search_v3?”在列表中,点击查看我们想要的数据:
然后我们右键点击链接,选择“复制链接地址”复制链接。
按照方法一再次将此网址导入Excel,如下:
这里得到的数据是json的结构数据,可以看到分页、数据等。
因为数据在data里面,所以我们右键点击“data”,选择“Drill down”,然后点击“Into Table”。这是我们想要的数据列表。
然后详细展开“数据”,如下,得到我们的详细数据:
是不是很简单?可以看到界面中的所有数据都是采集出来的,但是我们一句代码都没写。
当然,这里有很多我们不需要的标签等等。如果我们想干净利落地处理它,我们需要为 PQ 编写一个自定义函数。
最后,如果你是针对比较复杂的场景,不建议使用Power Query采集,尝试使用Python或者可视化专业爬虫工具来实现~
如果对你有帮助,记得点击“好看”。如果你有想要学习的Excel技能,可以在下方留言~
想要更多关于数据处理和信息图表的想法和技术吗? 《Excel实战课程,让图表说话》Excel增值课程学习——
从零开始的Excel商业图表训练营,教你如何快速拆分数据,如何制作精美的动态图表报表,搞定你的老板,加速你的升职加薪!
新课发布,更新完成,打卡作业,5小时你就成为图表大师!
今天咨询报名,仅需69元,5小时共58节课,教你如何制作高级Excel商业图表!
↑解决图表问题的一课
掌握真正的视觉表达,并制作正确的图表,您可以脱颖而出并给周围的人留下深刻印象。
完成课程后,你也可以在10分钟内制作出这种动态仪表盘(课程示例):
————常见问题————
问:课程有时间限制吗?
A:课程不限时间和频次,可随时学习,长期有效。
问:我可以在手机上学习吗?
A:可以,你可以在手机上安装网易云课堂APP,登录账号学习。
Q:课程中会有老师回答问题吗?
A:当然,课程里有功课复习和长期问答。
问:除了课程还有其他学习资料吗?
A:课程结束后,您还会看到一套完整的 Excel 图表。如果遇到不理解的数据结构,可以直接查询使用哪个图表。此外,还有16种配色模板,让你一键配色。
Q:如何添加助教的微信账号?
A:您可以直接扫描下方二维码,或者直接搜索:mongjoy001,可以添加打卡答题助教。
扫码添加助教/课程咨询&问答
新班会在网上购买,还会送色卡和图表……
完全免费:SEO技术软件-免费SEO技术管理软件-自动SEO优化软件下载免费
SEO技术软件,什么是SEO技术软件,SEO技术软件有什么用?首先,SEO技术软件就是用软件来代替一些日常的SEO工具。今天给大家分享一个*敏*感*词*的SEO技术工具。涵盖所有 SEO 功能,例如常见的:双标题、文章聚合收录、文章内部排名、文章滚动链接收录和网站地图生成,文章自动更新,文章自动伪原创,预定发布,关键词粗体,图片ALT属性,网站关键词提取等详细参考图片一、二、三、四、五、六
为了使 网站 排名 关键词,它必须首先是 收录!同一篇文章文章,收录fast 网站,一般排名优于收录slow 网站(也有特殊情况)。因此,作为一个SEOer,我认为网站SEO优化的中心目的是达到网站文章秒收录。
一个网站在几分钟内就被百度了收录。这能反映什么问题?我总结了四点:
①百度非常看好这个站点,对这个有很高的信任度网站:普通新站点很难做到这一点(PS:快消品是新站点,为什么能秒关?下面)继续讲述),澄清这个网站有一定的历史。上面说的信任度不是指网站的权重,是两个不同的东西。记住,收录fast,也就是秒收到的网站不一定有很高的权重。
②网站内容质量比较高:可能有人对此有疑问。一些权重较高的网站可以直接复制其他网站的内容,也可以秒收,所以我这里加了2。词:相对!但我们都知道,百度秒接收后,并不代表一定要对内容进行排名,而且排名后也不能保证一定会维持。很多网站今天都在看某一个有排名的关键词,但是过几天就会消失。这种情况很常见,因为百度会再次停止算法过滤!
③网站内容更新频率高:网站正常更新频率,网站的收录音量会增加,并持续很长时间,也就是我们所说的修炼站,再过几个月,普通人就能达到第二关。
④百度爬虫爬取频率高:这里可能需要了解百度的原理,网站内容可以是收录,首先百度的爬虫必须先抓取你的网站内容,爬取次数越多,越容易发现新发布的网站内容,也就越容易成为收录。因此,这与第3点中网站的内容更新频率密切相关。养蜘蛛就是养蜘蛛爬行频率和权重积累。
这类网站最突出的特点之一就是每天都有大量的优质信息和内容发布。是的,这些平台是蜘蛛的“人间天堂”和“香格里拉”,温暖的阳光,新颖丰富的食物和大众的支持,形成了百度、360、谷歌、搜狗等蜘蛛搜索食物并停留在上面,以便尽快抓取内容供网友阅读。
但是很多网站,大家面临的更多情况是发布的内容不是百度收录,很多SEOer不禁要问,是不是“百度第二收录”只能和我们一起擦过肩?我的回答是非常肯定的“不”。接下来,做6个链接。我想即使是一个新站也可以让你完成百度二次采集:
①网站构造与URL设计
这个非常重要。一个好的网站结构会帮助访问者了解你的网站结构和层次结构,更有利于蜘蛛爬取和索引。这里我们推荐“首页-栏目-(列表页面)-内容”像“页面”这样的树形结构应该简单而不是复杂。
更别说网址设计了,只要你的网站不是很大,没必要设计这么多层次。另外,网址可以收录关键词拼音或英文,效果更佳。为了提高蜘蛛的爬取效率,制作网站的地图和robots文件给网站来引导蜘蛛是非常有必要的。有条件的朋友尽量选择使用静态页面,对蜘蛛比较友好。
② 定期量化发布文章
定期发布新内容,让网站形成一个持续稳定的更新规则,让蜘蛛发现这个规则完成定期爬取,这是百度二次采集非常关键的元素。就像定餐约会一样,在形成这样的更新规则后,蜘蛛会在这段时间定期去约会。另一种是量化发布,每天坚持一个恒定的数字,避免今天一个明天十个,这样会让百度认为你的网站不稳定且讨人喜欢,防止你被降级进入沙盒。
关于SEO优化网站,应该理解,浏览量也是网站的重点,因为相比网站,需要的是流量,只要有流量,排名也会进行优化。这相对容易。通常,网站traffic 是指网站 的访问量,用来描述访问一个网站 的用户数和用户浏览的网页数。那么小编就告诉大家,想要增加网站的流量,只需要注意这几点就OK了!
一、 网站结构要清晰
网站的结构清晰,有利于节省搜索蜘蛛爬取的时间。同时,潜在客户在浏览网站时可以清晰、简单地找到他们正在寻找的目标页面或产品,可以提高用户体验。感觉。
二、 网站页面设置标题,关键词,描述
这几点是网站优化的最基本步骤。只有把这些最基本的步骤一步步设置好,才能优化网站。
三、 原创文章
根据百度搜索引擎的算法和规则,只有网站不断进行高质量的定期更新,才有利于搜索蜘蛛的爬取,也可以提升用户体验。所以大家千万不要采集质量不好文章复制别人的内容,这样会让搜索引擎拒绝抓取你的网站。
四、 网站 的内部链接
合理设置网站内链可以增加网站的搜索权重,也可以提升用户体验。但是在做内链的时候要注意,内链需要和内容相关,并且指向内容页面,才能让内链发挥作用。