excel抓取多页网页数据(每页PowerBIDesktop中用自动播放自动播放自动播放 )
优采云 发布时间: 2022-03-04 06:19excel抓取多页网页数据(每页PowerBIDesktop中用自动播放自动播放自动播放
)
喜欢笑话的朋友,可以抓一些笑话保存成TXT格式,放到电子书里闲暇时阅读,上网搜索一下,这个网站不错,干净并且没有广告:
网址也简单明了,分析起来也不费力。这个网站的结构是一个多页目录,目录中的链接对应具体的文章,所以爬取工作也分为两步:
爬取目录
文章的目录是这样排列的,每页10段,共164页:
我们抓取以下任何页面:
使用CSV或TXT进行爬取,然后简单的过滤提取得到文章的具体URL。然后我们用这个查询创建一个函数,只需添加一个参数页码p:
文章抢
一篇文章文章是一个页面,对应上一步爬取的url,先抓取一个独立的页面:
同样使用文本格式进行爬取,然后过滤提取我们想要的文本,使用这个查询创建文章爬取函数,并添加参数URL:
有了这两个步骤的准备,就可以开始最后的爬取了:
第一步:创建1-164的列表,转换为表格,设置为文本
第二步:以该列的页码为参数,参考目录爬取函数p爬取文章的所有URL:
展开爬取的表,获取所有文章 URL:
第三步:以网址栏为参数,参考文章抓取功能,抓取段落内容:
展开整理得到文字内容:
如果你比较懒,不想自己翻页,可以放到Power BI Desktop中,使用自动播放来处理: