python抓取网页数据(1.获取百度(/)数据第一步,要爬取网页)

优采云 发布时间: 2021-10-01 15:21

  python抓取网页数据(1.获取百度(/)数据第一步,要爬取网页)

  上节课我们讲了爬取数据的三个步骤:获取数据、解析数据、保存数据。

  这节课我们讲如何获取网页数据。我们从一个简单的例子开始,并将其映射到我们正在做的项目中。

  1.获取百度(/)数据

  第一步,爬取网页,我们首先导入模块urllib.request

  第二步,通过urllib.request模块下的urlopen打开网页

  第三步,通过read()方法读取数据

  第四步,通过decode()方法对数据进行解码,得到网页的源码

  

  2.获取豆瓣(

  /top250)数据

  第一步是导入模块urllib.request

  第二步是对URL进行封装,因为有些网站有爬虫机制可以避免被爬取,所以我们需要对URL进行处理。处理方法是使用urllib.request下的Request方法

  第三步,通过urllib.request模块下的urlopen打开网页

  第三步和第四步,通过read()方法读取数据

  第五步,通过decode()方法对数据进行解码,得到网页的源码

  

  3.需要注意的是:

  urllib.request下封装URL的Request方法需要两个参数:data和headers

  可以通过显示网页代码来显示标题数据

  -network-headers-user-agent 获取

  

  对于数据和ssl数据,直接按照上图写代码即可。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线