从网页抓取视频(如何快速爬取上千个短视频系列之爬取好看视频 )

优采云发布时间: 2022-01-01 03:17

　　从网页抓取视频(如何快速爬取上千个短视频系列之爬取好看视频

)

　　一、爬虫的基本概念

　　为了照顾一些新手同学，在项目开始之前还是先讲一下爬虫的基本概念。接触过爬虫的可以忽略这部分，直接看后面。

　　2.爬虫是如何抓取网页数据的？

　　这里就讲一下网页的三大特点：

　　3.固定套路总结

　　四大步骤：

　　请求和响应

　　二、爬虫案例：爬取短视频系列好看的视频

　　我们正式进入今天的实战话题，如何快速抓取上千条短视频，以好看的视频为例，废话不多说，先来看看源码，后面会详细讲解.

　　案例代码：

　　三、代码逻辑详解：1.页面分析和url分析

　　分析着陆页，我应该分析和写什么？首先你要分析它是静态网页还是动态网页，那你怎么分析呢？（以爬取好看视频搞笑类为例）

　　我们如何获取动态网页的数据包？鼠标右击--勾选

　　会弹出如下控制台。我们应该定位网络以捕获数据。这是一个类似于浏览器提供的抓包工具的功能。同时，因为我们要抓取的是动态的网站，所以如果你定位到下面的XHR，它会帮我们过滤掉所有的动态数据，也就是说网页中的动态数据是汇总的在这个 XHR 中。

　　点击右侧的第二个数据包，会弹出服务器返回给浏览器的原创数据。预览是针对这些原创数据的。他会帮你整理资料。您可以相应地折叠和展开数据。然后我们可以展开这些数据，看到它对应的是网页上视频的标题

　　数据包找到了，下一步就是定位headers，找到Request URL，后面还有一个网页地址，这就是我们今天确定的URL地址

　　接下来我们把这个url截取到导航栏上的url进行对比，注意看是不是和上面导航栏的地址不一样，也就是说动态数据包的地址通常和导航栏上的地址是的，所以分析网站很重要。你不能说你请求的哪个网站一定是哪个url链接，你要找到真正正确的url

　　接下来，在标头中找到请求标头。这是一个请求头。里面有很多参数。那么我们今天需要获取一个user-agent参数。它有什么作用？前面说过，爬虫就是模拟用户请求服务器。为了避免被其他服务器发现并阻止您爬行，您需要假装自己。那么用户代理就是浏览器的标识符。

　　2、发送请求 --request 模拟浏览器发送请求并获取响应数据

　　3、分析数据

　　我们今天正在抓取视频，因此我们需要视频的标题名称和视频本身的播放网址。找到title和pale_url后，我们可以通过剥洋葱的方式一层一层的得到视频，因为一个视频是一个视频数据，注意看这是一个字典格式，可以通过key-value对的形式获取, 取键名取值

　　4、保存数据

　　用python写爬虫程序一键下载数百个视频，速度还是挺快的

　　亲爱的朋友们，我的网盘数据越来越堆了，尤其是小白入门Python的数据。我不再需要它了。现在分享给大家，有需要的就拿去吧。

　　有需要的可以找我的小助手，微信公众号pykf20，她有更多的时间，请备注“获取信息”，让她知道你的意图，尽快给你东西。请仔细看下图：

0

2022-01-01

从网页抓取视频

0 个评论

要回复文章请先登录或注册