采集采集《python进阶》教程网页：多页面url获取问题

优采云发布时间: 2021-08-25 20:50

　　首次发布于：

　　前言

　　我将主要使用python和爬虫技术。入门级项目简单，适合新手练手。阅读本文之前最好对python和爬虫有一定的了解。

　　要求

　　需求名称：采集"python进阶"教程

　　网页：

　　要求：采集网页上的所有高级内容，并整理成文档

　　采集具体进阶教程内容就够了

　　需求分析

　　让我们来看看要求。需要采集的东西并不多。我们打开网页看看。

　　看目录，数据量不是很多

　　粗略统计，有几十页，很少

　　对应需求，根据经验，列出一些我们需要解决的问题

　　单页爬取问题多页url获取问题整理成文档单页爬取问题

　　这道题其实是看爬取页面的请求结构

　　我们先看看源码中是否收录我们需要的数据

　　在页面上找一个稍微特殊的词

　　例如“小鲜肉”

　　在键盘上按 ctrl+U 查看源代码

　　按ctrl+F搜索“小鲜”

　　可以看到，我们需要的数据直接在源码中，所以可以判断这8个成就是一个get请求

　　如果没有防爬，会更轻松

　　尝试直接构建最简单的get请求

　　import requests

r = requests.get('https://docs.pythontab.com/interpy/')

print(r.text)

print(r)

　　运行一下，打印出来的就是我们需要的数据（因为太多没有贴出来），完美！

　　多页网址获取问题

　　我们可以看到几十个需要采集的页面，并不多。在需求目标方面，我们其实可以一个一个的复制，但是这种方式没有技术范围，如果我们采集的页面很多，成百上千，甚至几十万。人工抄写效率太低

　　我们打开网页

　　你可以看到有一个下一步按钮

0

2021-08-25

采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

采集采集《python进阶》教程网页：多页面url获取问题

0 个评论

发起人

AI时代内容工厂

采集 采集《python进阶》教程网页：多页面url获取问题

0 个评论

发起人

相关问题

采集采集《python进阶》教程网页：多页面url获取问题