采集 采集《python进阶》教程网页:多页面url获取问题

优采云 发布时间: 2021-08-24 07:45

  采集 采集《python进阶》教程网页:多页面url获取问题

  首次发布于:

  前言

  我将主要使用python和爬虫技术。入门级项目简单,适合新手练手。阅读本文之前最好对python和爬虫有一定的了解。

  要求

  需求名称:采集"python进阶"教程

  网页:

  要求:采集网页上的所有高级内容,并整理成文档

  采集具体进阶教程内容就够了

  

  需求分析

  让我们来看看要求。需要采集的东西并不多。我们打开网页看看。

  

  看目录,数据量不是很多

  粗略统计,有几十页,很少

  对应需求,根据经验,列出一些我们需要解决的问题

  单页爬取问题多页url获取问题整理成文档单页爬取问题

  这道题其实是看爬取页面的请求结构

  我们先看看源码中是否收录我们需要的数据

  在页面上找一个稍微特殊的词

  

  例如“小鲜肉”

  在键盘上按 ctrl+U 查看源代码

  按ctrl+F搜索“小鲜”

  

  可以看到,我们需要的数据直接在源码中,所以可以判断这8个成就是一个get请求

  如果没有防爬,会更轻松

  尝试直接构建最简单的get请求

  import requests

r = requests.get('https://docs.pythontab.com/interpy/')

print(r.text)

print(r)

  运行一下,打印出来的就是我们需要的数据(因为太多没有贴出来),完美!

  多页网址获取问题

  我们可以看到几十个需要采集的页面,并不多。在需求目标方面,我们其实可以一个一个的复制,但是这种方式没有技术范围,如果我们采集的页面很多,几十万,甚至几十万。人工抄写效率太低

  我们打开网页

  你可以看到有一个下一步按钮

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线