50行代码！用Python抓取全网黑丝舞蹈视频！

优采云发布时间: 2022-06-17 02:15

　　大家好我是小菜！

　　最近念头不通达，尤其是看了"凡人修仙传"里面的名场面，韩立和陈师姐在白菊山的文戏，感叹凡人有情，大道无情。好好的陈师姐不珍惜，心里就想着南宫婉！不过凡人制作组还是很牛逼的，能把凡人画面制作的这么精良，文戏精彩打戏牛逼，目前应该是最火的国漫了，累计播放破8亿了，有兴趣的同学可以看看。

　　言归正传，今天小菜给大家谋取福利，真正的*敏*感*词*教学，爬取某手上的黑丝*敏*感*词*姐的舞蹈视频，一起来看看吧。

　　1.众里寻“址”千百度，一招教你无难度

　　想要抓取*敏*感*词*姐的舞蹈视频，最为关键的一点是要找到视频的链接地址。有的小伙伴可能一时间不知道如何来寻找链接地址，小菜今天就教给大家一招。

　　首先，打开快手的网页地址，输入关键词"黑丝舞蹈",网页会自动检索相关的舞蹈视频。

　　按照上图中的序号顺序，在开发者模式下，进入到“网络”选项：在搜索一栏输入关键词后，浏览器便会自动检索到相应的链接地址。无需我们再花费精力来寻找链接地址，大大的提升了我们的效率。

　　通过上图可以发现，真正的舞蹈视频的地址为“photoUrl”，所以我们要做的就是抓取这些地址，然后将视频保存到本地。

　　通过点击标头可以发现，请求的方式为“POST”，这一点非常关键。

　　既然请求方式为POST，那么请求的构造参数在哪里呢？点击”载荷“我们便可以看到请求的参数。

　　请求的构造参数，包含了”operationName“、”variables“等变量。

　　很多小伙伴可能会问，爬虫是如何抓取数据的呢？

　　我们可以记住一句话，爬虫即为通过程序模仿浏览器的请求行为，向服务器发送数据请求。如下图所示:

　　爬虫，通过模拟浏览器向服务器发送请求requests，服务器响应请求后，便会发挥响应response，这样便完成了一次数据的交互，我们便可以通过解析返回来的数据，抓取到我们需要的信息。

　　搞清楚上述的内容后，接下来我们就看一下程序是如何实现的吧。

　　2.程序实现

　　程序的实现，可以分为四个步骤，分别为：

　　发送请求

　　获取数据

　　解析数据

　　保存数据

　　对于发送请求和获取数据，程序如下图所示。

　　程序中，第22行为发送请求，json表示的是上面讲到的请求参数，headers则是爬虫伪装浏览器所需的内容。防止服务器轻松识别出爬虫，导致我们的程序获取数据失败。

　　第25行程序是获取服务器响应的数据。

　　获取得到数据后，接下来就是解析数据和保存数据。

　　由于服务器返回的数据是字典形式的数据，因此可以直接解析数据，并获取我们需要的内容。获取到视频的链接地址后，我们便可以将视频内容保存到本地。

　　3.总结

　　以上就是今天小菜为大家带来的福利分享，喜欢的小伙伴可以按照上面的步骤操作一下，当然也可以更换关键词。也欢迎在下方积极留言，给个三连，吱一声支持我们，我们下期不见不散~

0

2022-06-17

网页表格抓取

0 个评论

要回复文章请先登录或注册