抓取网页视频(post代理池(适合有python接口转发需求的4种方式))
优采云 发布时间: 2022-01-20 14:02抓取网页视频(post代理池(适合有python接口转发需求的4种方式))
抓取网页视频并且仅用一个指定的接口来提取所需要的信息,目前通常有4种方式,
一、图片代理池-商业产品类似于图片爬虫,可以将爬取到的图片进行存储并提取其特征字段,后续对图片进行二次爬取,查看poc方法类似于图片代理池,file类型的接口。
1、post提交图片存储所需指定的接口:提交post/get/put/patch/delete图片接口头信息;
2、png存储接口:png存储接口头信息;
3、jpg存储接口:jpg存储接口头信息;
4、视频存储接口:视频存储接口头信息;
5、视频接口存储:抓取视频接口头信息;
6、批量抓取:批量抓取所需接口头信息。返回格式如下:包含page(s)和pagesize(s)两个单位的数据类型为json数据,用逗号(,)分隔格式为pagename(s)和pagesize(s)如返回pagetag,表示根据page存储的图片以及图片的用户名字段属性填充图片名字段uid(s);如返回pagecertificate,表示根据page存储的图片以及用户名字段属性填充图片接口artistid(s);。
7、简单图片爬取:批量抓取用户或者图片所在页面所需的所有图片。接口转化成json格式。大小为page数量的百分比,比如100px/2。
特点:只需要python环境,有代理池即可,后续对图片进行二次爬取,查看poc方法,界面可以分享,实现自动化!!!详情:--post代理池(适合有python接口转发需求的),
二、xpath结构化图片分析
1、xpath语法xpath(表象):标准通用定位表达式,是html(超文本标记语言)的子集,可以匹配html文档的结构性标签,并返回相应的文档内容或相应的值。
<p>2、分析xpath的要点标签与元素,并结合提取a、标签的基本标签:基本标签如:phrefxml/xmlol/img{img-src=""//img属性位于源文件后面//preload一定要选为false,否则表示先读取后检查。另外注意避免出现error:$error_true;语法结构;}div{position:relative;left:0;top:0;width:auto;height:auto;auto-height:10px;//div是一个伪元素,实际上是box{box-size:auto;auto-content:center;width:100%;height:100%;padding:0;}content:text;//content是一个伪元素,实际上是box{box-size:auto;auto-content:center;display:inline-block;}li{id:li}th{id:th}form{id:form}js