文章采集程序在实现图片爬虫时使用python语言的通用库urllib
优采云 发布时间: 2022-05-03 07:01文章采集程序在实现图片爬虫时使用python语言的通用库urllib
文章采集程序在实现图片爬虫时使用python语言的通用库urllib这个库。其中,requests库、urllib库都具有可以提供服务器发送请求和接受请求的功能。本文将对urllib库进行详细的介绍,并对不同的安装方式及其他安装方式进行介绍。
1、requests库使用:①、requests库主要是用来处理http请求的,处理原理是通过字典方式来定义请求对象(request)。
request会有类似如下方式构造:②、用requests库爬取图片,使用路径:pages。select('/');③、使用requests库爬取地图:pages。select('/');④、使用requests库爬取天气:pages。select('/');urllib库使用方法都一样,所以打开登录后可以直接写testcoder包直接使用urllib库导入:fromurllibimportrequest,urlopenfromrequests。
exceptionsimportrequestexceptionfromurllib。httpimporthttprequest。authenticate('0')#。
1、request=request(url='',data=['code','id'])urlopen=urlopen(request).read().decode('gbk')#
2、urlopen=urlopen(request).read().decode('gbk')#
3、urlopen=urlopen(request).read().decode('utf-8')#
4、urlopen=urlopen(request).read().decode('utf-8')#①request.authenticate('0')#采用的是向http请求传递的格式,属于字典模式,requestauthenticate('0')设定了代理主机名/端口号,设定代理主机名称为可以任意,只要是相同类型的主机名均可request.authenticate('0')设定了代理主机名称。
默认设定为可以为主机名称大写:request.authenticate('0')。如果要设定主机名,需要添加关键字作为作为注释并传入:request.authenticate('0')。urlopen=urlopen(request).read().decode('gbk')#③urlopen=urlopen(request).read().decode('gbk')#④urlopen=urlopen(request).read().decode('gbk')#⑤urlopen=urlopen(request).read().decode('gbk')#⑥urlopen=urlopen(request).read().decode('gbk')#request.authenticate('0'),urlopen=request.authenticate('0'),urlopen=request.authenticate('0')urlopen():处理所有http请求urlopen():查看当前处理的http请求的headers头部urlopen():查看当前处理的http请求的头。