50行代码!用Python抓取全网黑丝舞蹈视频!
优采云 发布时间: 2022-06-17 02:1550行代码!用Python抓取全网黑丝舞蹈视频!
大家好 我是小菜!
最近念头不通达,尤其是看了"凡人修仙传"里面的名场面,韩立和陈师姐在白菊山的文戏,感叹凡人有情,大道无情。好好的陈师姐不珍惜,心里就想着南宫婉!不过凡人制作组还是很牛逼的,能把凡人画面制作的这么精良,文戏精彩打戏牛逼,目前应该是最火的国漫了,累计播放破8亿了,有兴趣的同学可以看看。
言归正传,今天小菜给大家谋取福利,真正的*敏*感*词*教学,爬取某手上的黑丝*敏*感*词*姐的舞蹈视频,一起来看看吧。
1.众里寻“址”千百度,一招教你无难度
想要抓取*敏*感*词*姐的舞蹈视频,最为关键的一点是要找到视频的链接地址。有的小伙伴可能一时间不知道如何来寻找链接地址,小菜今天就教给大家一招。
首先,打开快手的网页地址,输入关键词"黑丝舞蹈",网页会自动检索相关的舞蹈视频。
按照上图中的序号顺序,在开发者模式下,进入到“网络”选项:在搜索一栏输入关键词后,浏览器便会自动检索到相应的链接地址。无需我们再花费精力来寻找链接地址,大大的提升了我们的效率。
通过上图可以发现,真正的舞蹈视频的地址为“photoUrl”,所以我们要做的就是抓取这些地址,然后将视频保存到本地。
通过点击标头可以发现,请求的方式为“POST”,这一点非常关键。
既然请求方式为POST,那么请求的构造参数在哪里呢?点击”载荷“我们便可以看到请求的参数。
请求的构造参数,包含了”operationName“、”variables“等变量。
很多小伙伴可能会问,爬虫是如何抓取数据的呢?
我们可以记住一句话,爬虫即为通过程序模仿浏览器的请求行为,向服务器发送数据请求。如下图所示:
爬虫,通过模拟浏览器向服务器发送请求requests,服务器响应请求后,便会发挥响应response,这样便完成了一次数据的交互,我们便可以通过解析返回来的数据,抓取到我们需要的信息。
搞清楚上述的内容后,接下来我们就看一下程序是如何实现的吧。
2.程序实现
程序的实现,可以分为四个步骤,分别为:
发送请求
获取数据
解析数据
保存数据
对于发送请求和获取数据,程序如下图所示。
程序中,第22行为发送请求,json表示的是上面讲到的请求参数,headers则是爬虫伪装浏览器所需的内容。防止服务器轻松识别出爬虫,导致我们的程序获取数据失败。
第25行程序是获取服务器响应的数据。
获取得到数据后,接下来就是解析数据和保存数据。
由于服务器返回的数据是字典形式的数据,因此可以直接解析数据,并获取我们需要的内容。获取到视频的链接地址后,我们便可以将视频内容保存到本地。
3.总结
以上就是今天小菜为大家带来的福利分享,喜欢的小伙伴可以按照上面的步骤操作一下,当然也可以更换关键词。也欢迎在下方积极留言,给个三连,吱一声支持我们,我们下期不见不散~
<p style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;clear: both;min-height: 1em;font-family: -apple-system, BlinkMacSystemFont, "Helvetica Neue", "PingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;white-space: normal;text-size-adjust: auto;">
<br style="margin: 0px;padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;" /></p>