网页数据抓取(1.获取百度（）数据第一步，要爬取网页？)

优采云发布时间: 2021-10-22 05:09

　　上节课我们讲了爬取数据的三个步骤：获取数据、解析数据、保存数据。

　　这节课我们讲如何获取网页数据。我们从一个简单的例子开始，并将其映射到我们正在做的项目中。

　　1.获取百度（

　　）数据

　　第一步是爬网，我们先导入模块

　　urllib.request

　　第二步，通过模块

　　在 urllib.request 下

　　urlopen 打开网页

　　第三步，通过read()方法读取数据

　　第四步，通过decode()方法对数据进行解码，得到网页的源码

　　2.

　　得到豆瓣（

　　）数据

　　第一步是导入模块urllib.request

　　第二步是对URL进行封装，因为有些网站有爬虫机制可以避免被爬取，所以我们需要对URL进行处理。处理方法是使用urllib.request下的Request方法

　　第三步，

　　通过urllib.request模块下的urlopen打开网页

　　第三步和第四步，通过read()方法读取数据

　　第五步，通过decode()方法对数据进行解码，得到网页的源码

　　3.注意：

　　urllib.request下封装URL的Request方法需要两个参数：data和headers

　　headers数据可以通过显示网页代码-network-headers-user-agent获取

　　对于数据和ssl数据，直接按照上图写代码就可以了。

0

2021-10-22

网页数据抓取

0 个评论

要回复文章请先登录或注册