网页视频抓取脚本(如何采集爬取抖音用户信息,整理自己的思路?)
优采云 发布时间: 2022-01-31 04:11网页视频抓取脚本(如何采集爬取抖音用户信息,整理自己的思路?)
最近在学习python爬虫,想采集爬抖音用户信息,因为看到这个需要相关爬虫职位,心血来潮,分享一下经验,自己整理一下顺便说一句。首先是在B站看爬虫的短视频,心灵之王的插件,通过修改fidder函数将心灵之王的json数据包保存到本地,使用python脚本读取数据循环包,然后自动打开浏览器搜索主题。现在我想把这个想法扩展到 抖音 这里。
先安装最新的fidder,抖音用户的数据包传输协议是https。您需要下载 fidder 的证书并将其安装在您的手机或 Android 模拟器上。我用的模拟器,然后把安卓模拟器的代理IP设置为电脑的IP。现在模拟器的所有网络请求都是通过fidder获取的。现在我们只想抓到数据包,分析数据包,推荐一个分析json包的url,可以清晰的展示复杂难懂的数据段。模拟器刷到抖音json数据包的时候,我会一个一个复制过来看看。网址在图片中。.
下一步是想办法保存这个数据包。关键点是修改fiddler函数。fidder工具在做爬虫和插件的时候经常用到。我特地学会了这个提琴手的用法。修改fiiderscript,这个收录用户信息的json数据包的请求url和host是一样的,使用这个修改后的函数保存到本地文件夹。
fidder函数保存到本地的数据只能覆盖不能添加,所以只能通过脚本循环读取,所以用python写一个脚本,解析读取的数据,保存到本地数据库。
现在是最后一步,编写一个脚本来模拟手动滑动抖音。由于你用的是模拟器,如果要多开几个,保存数据会比较快,所以就写一个分辨率最小的。320*480分辨率,节省资源,抓取用户信息进入个人主页。思路是在抖音中向上滑动识别是广告还是直播,是广告然后往下,而不是点击头像,延迟返回,然后循环。打包成apk安装到模拟器上进行真机测试!速度还不错。继续优化脚本,设置清缓存功能。如果缓存太多,就会很卡。
其实抓包的过程中还有很多有趣的事情,比如抓包没有水印的视频链接,可以采集,哈哈。还有一些细节,没有写清楚。如果您有任何问题,您可以留言,我会认真回答。
最终附件代码包百度云链接:密码:hzn5。
此贴也发在My Love Cracked上,标题相同,以后可能会同步。