教程:如何一键采集搜款网上的多个商品主图和主图视频并分类保存
优采云 发布时间: 2022-11-29 13:41教程:如何一键采集搜款网上的多个商品主图和主图视频并分类保存
如何一键批量采集并分类保存平台多个商品的主图和主图视频?今天,小编就为大家介绍一款批量采集产品图片和视频的软件——图片助手。下面就教大家如何在一个平台上批量采集多个链接的商品主图?
我们使用【图片助手】获取方法的采集工具可以通过百度搜索或者官网安装。
一键批量采集方法如下:
1、我们先在电脑网页上进入平台,然后找到要下载的产品类别
" />
2.开始复制待采集商品链接
3.打开图片下载助手,然后把复制的链接粘贴到首页,就可以开启自动粘贴网址的功能,可以省去粘贴链接的麻烦
4、复制链接地址后,在左下角的下载选项中,勾选“下载主图”、“同时下载视频”和“智能分类保存”,然后勾选“立即下载”
" />
5、下载完成后,点击“打开文件夹”即可一一查看。多个链接保存在同一个目录下
6.任意点击打开一个产品文件夹,可以看到有主图文件,细节图文件,主图视频和主图在同一个文件夹
是不是很简单?您也可以自己尝试。
使用python抓取YouTube视频字幕
本博客纯干货!!!
最近接到领导安排的采集任务,从全球最大的视频分享网站YouTube采集视频字幕。
分析目标网站并开始抓包
当我打开视频链接点击显示字幕的按钮时,通过浏览器抓取了timedtext之类的请求,返回的内容就是我要的数据——各个时间点的字幕。
分析url有视频id,签名,key,expire等参数,每次签名变化,开始通过js打通参数。这里不详细描述该过程。
终于在视频源码中找到了这么一段js
"playerCaptionsTracklistRenderer\":{
\"captionTracks\":[{
\"baseUrl\":\"https:\/\/www.youtube.com\/api\/timedtext?xorp=True\\u0026signature=DC15F46CCF5A97B616CFF6EA13626BC34E24B848.454E61B37E4E1AE37BF2C83F311D8EB362B165AA\\u0026hl=zh-CN\\u0026sparams=caps%2Cv%2Cxoaf%2Cxorp%2Cexpire\\u0026expire=1566051203\\u0026caps=\\u0026key=yttt1\\u0026xoaf=1\\u0026v=7j0xuYKZO4g\\u0026lang=en\\u0026name=English\",
" />
原来我一直试图解析的URL已经暴露在源代码中了。格式化代码后,知道是一个json字符串,json里面有很多视频信息,比如发布时间、标题、介绍、点击量等;兴奋的?
接下来,通过正则匹配需要的URL
ytplayer_config = json.loads(re.search('ytplayer.config\s*=\s*([^\n]+?});', response.text).group(1))
caption_tracks = json.loads(ytplayer_config['args']['player_response'])['captions']['playerCaptionsTracklistRenderer']['captionTracks']
for c in caption_tracks:
url = c["baseUrl"] # 在url后拼接上&tlang=zh-Hans返回的字幕为中文,&tlang=en-Hans返回的字幕为英文
最后通过python请求获取字幕URL并解析得到字幕数据。你完成了
只有有字幕的视频才会有baseUrl值,没有字幕的视频会报异常~
YouTube 列表页面翻转
字幕解析完毕,接下来就是批量采集需要的视频字幕了。
需要:
通过搜索采集结果中所有字幕。
<p>
" />
</p>
分析:
视频翻页是基于ajax请求来的,源码里面的信息始终都是第一页的数据,
ok 那既然这样,我们来分析ajax请求,我喜欢用谷歌浏览器,打开开发者工具,network,来抓包。
鼠标一直往下拉,会自动请求,是个post请求,一看就是返回的视频信息。
很高兴看到这个,离胜利不远了。不过,还是先看看headers和发送的post参数吧,看完再说wtf。. .
10,000 只羊驼正在奔跑。我标记了加密参数,并与前后端进行了交互。既然是过去发送的数据,肯定是前端生成的。至于生成什么,需要一步步分析。,最后。没帮我分析。. . 一开始我并排查看js文件,参数确实是在js中生成的,但是。. . tmd 写起来太复杂了。. . 能力有限,解决不了。你就这样放弃了吗?肯定不是,否则你也不会看这篇文章。于是灵机一动,在地址栏输入&page=result,果真返回了视频。. . 他妈的哈哈哈,我太高兴了。因为首页没有翻页按钮,没想到还能这样翻页。. . 哈哈
接下来就是匹配每个页面的视频链接-访问-获取字幕
下班回家吃饭睡觉
感谢收看!