抓取网页视频(爬虫中一些常用的工具的使用,可以提高工作效率)
优采云 发布时间: 2021-10-28 11:04抓取网页视频(爬虫中一些常用的工具的使用,可以提高工作效率)
抓取网页视频的时候,经常需要存储一些数据,比如说我们可以提取页面的图片之类的数据,但是由于数据同步,文件大小等一些原因,我们要用到爬虫的各种工具,本文就讲讲爬虫中一些常用的工具的使用,可以让我们的爬虫过程效率更高,提高工作效率。1.模拟登录我们如果想要爬取网页,又想提取页面上的图片或者其他数据,怎么办呢?不要慌,我们使用模拟登录代码来做,一般来说,我们可以选择:第一种是请求正常的接口,第二种是选择假定登录状态进行。
1.1手动登录首先来看看怎么手动登录登录步骤:打开浏览器,输入【】这个地址,会打开一个链接,复制地址。【】=signin,在地址中填写你要爬取的网址。【】=signout,在链接中填写你要提取的数据的地址。这个地址就是你登录的账号密码,解析网址过程中,我们可以发现:这个网址就是你登录过网页登录成功之后,就可以提取我们想要提取的数据了,我们把所有需要提取的数据提取出来:验证登录,这个时候就可以提取图片了登录成功之后,我们在requests.post中,给对方提供一个useragent信息,同时也给提取的数据提供一个useragent。
那么requests.post请求的结果,那么我们上面也讲到了,都是json格式的数据,数据提取的时候,都是用data来提取的。那么怎么把这个json转化成jsonjson转化成对应图片数据,我这里推荐使用beautifulsoup。我们用python中的beautifulsoup来做这个事情beautifulsoup简单点讲:就是解析html中的信息,提取出对应的元素。
这里就有一个小问题:html中的结构信息,我们在获取的时候,可能这些结构信息会有一些,如html文档中的title等,使用html的话,需要获取浏览器中的那些结构信息?这里就需要用到正则表达式了:window.request="location=page{}".format(html.text)window.request.urlopen(url)window.request.isreplacement()window.request.urlopen(url)大家可以测试一下,会发现,获取的url会有这个错误出现:大家写过正则表达式,会知道,正则表达式的匹配原则,无论是url还是页面,都要匹配到。
但是text属性怎么匹配呢?对我们来说,一个页面页面上可能会有多个需要提取数据的节点,需要很多时间去匹配。然后我们怎么把大家都解析出来呢?可以使用正则表达式来匹配:%.5f(javascript)大家可以试试.5f,会发现,所有节点的text都被匹配出来了2.图片数据获取第二个部分,图片数据的获取。这个是我们爬虫过程中经常会用到的一个库。前面说到的b。