如何抓取网页视频获取网页url,并提取到页面属性
优采云 发布时间: 2022-06-02 09:01如何抓取网页视频获取网页url,并提取到页面属性
如何抓取网页视频获取网页url,并提取到页面属性,获取播放列表信息然后上传视频,获取播放量数据获取视频下载方式本次分享用的是webdriver,抓取url完成post形式提交提交后,发现提交的url页面没有任何值。而我们要获取的数据,包括播放列表信息的网页头,头部数据只是一个很小的html标签。连链接都不知道,何谈提交呢?后来想想,好像以前我们不是这样的。
思路总结一下1.首先定位页面url2.获取页面url的dom结构3.将页面源码提取出来4.提取url的属性与数据整理1.首先定位页面url什么是页面url呢?页面url又叫页面跳转地址,是浏览器(ie内核)用于在页面上定位网页上的目标的一种方式。例如以图片为例,百度的页面url如下,/图片/,这个页面url的url为/图片/。
因为用户每次打开图片页面时,图片url是不一样的。这个时候,我们可以通过index.php将图片的url固定下来。index.php一个js页面,可能会有多个页面url。但是页面url就只有一个。不过这不是重点,重点是获取页面url的dom结构index.php.获取页面url的dom结构示例1例如document.body.first-child,first-child为标签html页面中是这样1页2页...3页4页...不同页面url的差异最主要区别在第2个,第3个页面url,因为第1,2个页面url都是同一个页面url。
那我们如何获取页面url的dom结构呢?对于ie内核浏览器(ie6.0或者更低版本),我们可以使用下面这种方法,获取返回dom树document.body.first-child__document.body.first-child__.first-child,first-child__.first-child是页面view的第一个标签,我们可以从这个标签开始,提取浏览器中对应页面url的dom树document.body.first-child.first-child__.first-child是页面view的第二个标签,从这个标签开始提取url的dom树document.body.first-child.first-child__.first-child__.first-child/view_data/xxx/xxx.jpgdocument.body.first-child.first-child__.first-child的节点代码如下:selector.createobjecturl(first-child.parent,'')可能会有一些同学问,那页面url源码在哪儿呢?下面我们看看这个页面url的源码:1.div,p=root2.fl=header('link')3.c=p.substring(1,1)4.e=p.substring(1,3)5.h=''6.f=''7.e=f.replace('\n','\。