excel抓取多页网页数据(每页PowerBIDesktop中用自动播放自动播放自动播放 )

优采云 发布时间: 2022-03-04 06:19

  excel抓取多页网页数据(每页PowerBIDesktop中用自动播放自动播放自动播放

)

  喜欢笑话的朋友,可以抓一些笑话保存成TXT格式,放到电子书里闲暇时阅读,上网搜索一下,这个网站不错,干净并且没有广告:

  

  网址也简单明了,分析起来也不费力。这个网站的结构是一个多页目录,目录中的链接对应具体的文章,所以爬取工作也分为两步:

  爬取目录

  文章的目录是这样排列的,每页10段,共164页:

  

  我们抓取以下任何页面:

  

  使用CSV或TXT进行爬取,然后简单的过滤提取得到文章的具体URL。然后我们用这个查询创建一个函数,只需添加一个参数页码p:

  

  文章抢

  一篇文章文章是一个页面,对应上一步爬取的url,先抓取一个独立的页面:

  

  同样使用文本格式进行爬取,然后过滤提取我们想要的文本,使用这个查询创建文章爬取函数,并添加参数URL:

  

  有了这两个步骤的准备,就可以开始最后的爬取了:

  第一步:创建1-164的列表,转换为表格,设置为文本

  

  第二步:以该列的页码为参数,参考目录爬取函数p爬取文章的所有URL:

  

  展开爬取的表,获取所有文章 URL:

  

  第三步:以网址栏为参数,参考文章抓取功能,抓取段落内容:

  

  展开整理得到文字内容:

  

  如果你比较懒,不想自己翻页,可以放到Power BI Desktop中,使用自动播放来处理:

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线