采集 采集《python进阶》教程网页:多页面url获取问题
优采云 发布时间: 2021-08-25 20:50采集 采集《python进阶》教程网页:多页面url获取问题
首次发布于:
前言
我将主要使用python和爬虫技术。入门级项目简单,适合新手练手。阅读本文之前最好对python和爬虫有一定的了解。
要求
需求名称:采集"python进阶"教程
网页:
要求:采集网页上的所有高级内容,并整理成文档
采集具体进阶教程内容就够了
需求分析
让我们来看看要求。需要采集的东西并不多。我们打开网页看看。
看目录,数据量不是很多
粗略统计,有几十页,很少
对应需求,根据经验,列出一些我们需要解决的问题
单页爬取问题多页url获取问题整理成文档单页爬取问题
这道题其实是看爬取页面的请求结构
我们先看看源码中是否收录我们需要的数据
在页面上找一个稍微特殊的词
例如“小鲜肉”
在键盘上按 ctrl+U 查看源代码
按ctrl+F搜索“小鲜”
可以看到,我们需要的数据直接在源码中,所以可以判断这8个成就是一个get请求
如果没有防爬,会更轻松
尝试直接构建最简单的get请求
import requests
r = requests.get('https://docs.pythontab.com/interpy/')
print(r.text)
print(r)
运行一下,打印出来的就是我们需要的数据(因为太多没有贴出来),完美!
多页网址获取问题
我们可以看到几十个需要采集的页面,并不多。在需求目标方面,我们其实可以一个一个的复制,但是这种方式没有技术范围,如果我们采集的页面很多,成百上千,甚至几十万。人工抄写效率太低
我们打开网页
你可以看到有一个下一步按钮