教程:如何一键采集搜款网上的多个商品主图和主图视频并分类保存

优采云 发布时间: 2022-11-29 13:41

  教程:如何一键采集搜款网上的多个商品主图和主图视频并分类保存

  如何一键批量采集并分类保存平台多个商品的主图和主图视频?今天,小编就为大家介绍一款批量采集产品图片和视频的软件——图片助手。下面就教大家如何在一个平台上批量采集多个链接的商品主图?

  我们使用【图片助手】获取方法的采集工具可以通过百度搜索或者官网安装。

  一键批量采集方法如下:

  1、我们先在电脑网页上进入平台,然后找到要下载的产品类别

  

" />

  2.开始复制待采集商品链接

  3.打开图片下载助手,然后把复制的链接粘贴到首页,就可以开启自动粘贴网址的功能,可以省去粘贴链接的麻烦

  4、复制链接地址后,在左下角的下载选项中,勾选“下载主图”、“同时下载视频”和“智能分类保存”,然后勾选“立即下载”

  

" />

  5、下载完成后,点击“打开文件夹”即可一一查看。多个链接保存在同一个目录下

  6.任意点击打开一个产品文件夹,可以看到有主图文件,细节图文件,主图视频和主图在同一个文件夹

  是不是很简单?您也可以自己尝试。

  教程:搜索关键词采集YouTube视频字幕

  使用python抓取YouTube视频字幕

  本博客纯干货!!!

  最近接到领导安排的采集任务,从全球最大的视频分享网站YouTube采集视频字幕。

  分析目标网站并开始抓包

  当我打开视频链接点击显示字幕的按钮时,通过浏览器抓取了timedtext之类的请求,返回的内容就是我要的数据——各个时间点的字幕。

  分析url有视频id,签名,key,expire等参数,每次签名变化,开始通过js打通参数。这里不详细描述该过程。

  终于在视频源码中找到了这么一段js

  "playerCaptionsTracklistRenderer\":{

\"captionTracks\":[{

\"baseUrl\":\"https:\/\/www.youtube.com\/api\/timedtext?xorp=True\\u0026signature=DC15F46CCF5A97B616CFF6EA13626BC34E24B848.454E61B37E4E1AE37BF2C83F311D8EB362B165AA\\u0026hl=zh-CN\\u0026sparams=caps%2Cv%2Cxoaf%2Cxorp%2Cexpire\\u0026expire=1566051203\\u0026caps=\\u0026key=yttt1\\u0026xoaf=1\\u0026v=7j0xuYKZO4g\\u0026lang=en\\u0026name=English\",

  

" />

  原来我一直试图解析的URL已经暴露在源代码中了。格式化代码后,知道是一个json字符串,json里面有很多视频信息,比如发布时间、标题、介绍、点击量等;兴奋的?

  接下来,通过正则匹配需要的URL

  ytplayer_config = json.loads(re.search('ytplayer.config\s*=\s*([^\n]+?});', response.text).group(1))

caption_tracks = json.loads(ytplayer_config['args']['player_response'])['captions']['playerCaptionsTracklistRenderer']['captionTracks']

for c in caption_tracks:

url = c["baseUrl"] # 在url后拼接上&tlang=zh-Hans返回的字幕为中文,&tlang=en-Hans返回的字幕为英文

  最后通过python请求获取字幕URL并解析得到字幕数据。你完成了

  只有有字幕的视频才会有baseUrl值,没有字幕的视频会报异常~

  YouTube 列表页面翻转

  字幕解析完毕,接下来就是批量采集需要的视频字幕了。

  需要:

  通过搜索采集结果中所有字幕。

<p>

" />

</p>

  分析:

  视频翻页是基于ajax请求来的,源码里面的信息始终都是第一页的数据,

ok 那既然这样,我们来分析ajax请求,我喜欢用谷歌浏览器,打开开发者工具,network,来抓包。

鼠标一直往下拉,会自动请求,是个post请求,一看就是返回的视频信息。

  很高兴看到这个,离胜利不远了。不过,还是先看看headers和发送的post参数吧,看完再说wtf。. .

  10,000 只羊驼正在奔跑。我标记了加密参数,并与前后端进行了交互。既然是过去发送的数据,肯定是前端生成的。至于生成什么,需要一步步分析。,最后。没帮我分析。. . 一开始我并排查看js文件,参数确实是在js中生成的,但是。. . tmd 写起来太复杂了。. . 能力有限,解决不了。你就这样放弃了吗?肯定不是,否则你也不会看这篇文章。于是灵机一动,在地址栏输入&amp;page=result,果真返回了视频。. . 他妈的哈哈哈,我太高兴了。因为首页没有翻页按钮,没想到还能这样翻页。. . 哈哈

  接下来就是匹配每个页面的视频链接-访问-获取字幕

  下班回家吃饭睡觉

  感谢收看!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线