怎样抓取网页数据,今天只用到python爬虫知识,找一些好玩的数据来练手
优采云 发布时间: 2022-06-29 14:00怎样抓取网页数据,今天只用到python爬虫知识,找一些好玩的数据来练手
怎样抓取网页数据,今天只用到python爬虫知识,找一些好玩的数据来练练手。两千天牛津大学图书馆数据爬取小结我们先从网上下载数据,用requests库就可以,是一个xml格式,比如自己爬取了下面这样的网页。#爬取网页数据,data=requests.get("")首先看看这些网页的源代码,保存到cookies,使用selenium,webdriver框架,用http请求进行爬取数据。
data=requests.get("")可以看到data这一列是可以直接获取的,第一行是源代码,可以看到正常页面下存在这一列,但是我们发现其实并不全是可以抓取的,因为在body里面也包含了data这一列,其中有这么几个html格式的tag,但是tag里面只包含这些fields,没有其他信息。接下来就可以看到response(请求地址)一列,下面就是data这一列,这里我们发现整个网页其实是一个json格式。
对于json,我之前知道可以用xpath,也发现json可以做的实验特别多,比如制作python对象图,loadpng等等。爬取的数据是一个json数据框,我们通过loadpng来渲染出我们想要的图片。frompyqueryimportparseimporttimedata=parse.urlopen("")#time.sleep(。
2)time.sleep
2)print("渲染函数运行完毕")forelementindata:print(element.xpath("//input[@class="test"]/text()")).contentdata.remove()#替换掉json数据中的data列,requests请求地址element.xpath("//input[@class="test"]/text()").remove()print("渲染完毕")print("函数运行结束")从上面可以看到requests请求地址地址里就是data这一列,所以我们用loadpng来渲染我们想要的图片。
print("渲染函数运行完毕")time.sleep
2)这样渲染完之后,我们想要的数据也就爬取下来了。对于json数据的渲染,可以通过requests库的parse方法来得到一个解析函数,来进行各种包装、封装、解析。接下来还有其他的操作,后面会详细介绍。网页中主要包含了这么几个关键字段:headers,body和data几个字段。headers包含了我们想要的请求头部和请求头。
body包含我们想要的响应。data包含我们想要的数据。这里我们主要会用到requests.get(url)方法,这个方法可以抓取到对方请求的参数,并且把requests.get()转换成requests.get(headers,body),通过body返回一个字典,里面是我们想要的数据。