从网页抓取视频(如何快速爬取上千个短视频系列之爬取好看视频 )
优采云 发布时间: 2022-01-01 03:17从网页抓取视频(如何快速爬取上千个短视频系列之爬取好看视频
)
一、爬虫的基本概念
为了照顾一些新手同学,在项目开始之前还是先讲一下爬虫的基本概念。接触过爬虫的可以忽略这部分,直接看后面。
2.爬虫是如何抓取网页数据的?
这里就讲一下网页的三大特点:
3.固定套路总结
四大步骤:
请求和响应
二、爬虫案例:爬取短视频系列好看的视频
我们正式进入今天的实战话题,如何快速抓取上千条短视频,以好看的视频为例,废话不多说,先来看看源码,后面会详细讲解.
案例代码:
三、代码逻辑详解:1.页面分析和url分析
分析着陆页,我应该分析和写什么?首先你要分析它是静态网页还是动态网页,那你怎么分析呢? (以爬取好看视频搞笑类为例)
我们如何获取动态网页的数据包? 鼠标右击--勾选
会弹出如下控制台。我们应该定位网络以捕获数据。这是一个类似于浏览器提供的抓包工具的功能。同时,因为我们要抓取的是动态的网站,所以如果你定位到下面的XHR,它会帮我们过滤掉所有的动态数据,也就是说网页中的动态数据是汇总的在这个 XHR 中。
点击右侧的第二个数据包,会弹出服务器返回给浏览器的原创数据。预览是针对这些原创数据的。他会帮你整理资料。您可以相应地折叠和展开数据。然后我们可以展开这些数据,看到它对应的是网页上视频的标题
数据包找到了,下一步就是定位headers,找到Request URL,后面还有一个网页地址,这就是我们今天确定的URL地址
接下来我们把这个url截取到导航栏上的url进行对比,注意看是不是和上面导航栏的地址不一样,也就是说动态数据包的地址通常和导航栏上的地址是的,所以分析网站很重要。你不能说你请求的哪个网站一定是哪个url链接,你要找到真正正确的url
接下来,在标头中找到请求标头。这是一个请求头。里面有很多参数。那么我们今天需要获取一个user-agent参数。它有什么作用?前面说过,爬虫就是模拟用户请求服务器。为了避免被其他服务器发现并阻止您爬行,您需要假装自己。那么用户代理就是浏览器的标识符。
2、发送请求 --request 模拟浏览器发送请求并获取响应数据
3、分析数据
我们今天正在抓取视频,因此我们需要视频的标题名称和视频本身的播放网址。找到title和pale_url后,我们可以通过剥洋葱的方式一层一层的得到视频,因为一个视频是一个视频数据,注意看这是一个字典格式,可以通过key-value对的形式获取, 取键名取值
4、保存数据
用python写爬虫程序一键下载数百个视频,速度还是挺快的
亲爱的朋友们,我的网盘数据越来越堆了,尤其是小白入门Python的数据。我不再需要它了。现在分享给大家,有需要的就拿去吧。
有需要的可以找我的小助手,微信公众号pykf20,她有更多的时间,请备注“获取信息”,让她知道你的意图,尽快给你东西。请仔细看下图: