解决方案:文章定时自动采集浏览器上采集外网站的方法
优采云 发布时间: 2022-11-23 03:12解决方案:文章定时自动采集浏览器上采集外网站的方法
文章定时自动采集一些相关网站,新浪微博、直播网站、sns、淘宝、淘宝网、美团、饿了么、聚美优品、安居客、百度、今日头条等等国内主流网站,主要是以ip为定时采集依据,多人同时操作,可能会出现缓存堵塞,
如果需要获取正在播放的直播视频,可以提前下载地址并替换到直播源上;这样就可以避免缓存失败的情况。
解决缓存失败的方法有很多,简单的有重定向方法,例如用代理-stream。但是需要你对重定向做出不同于其他方法的修改。如果想通过browsertimeline采集,就更麻烦。以chrome浏览器为例,以下是一个基本的解决方案:在打开的网页上点击搜索框,输入你想要看的直播地址,例如“吃饭直播”,然后会有一个googleapidemo对话框弹出,然后回车,就打开了我们需要采集的网页。
" />
在此可以完整的获取到直播过程中所有的具体内容。搜索框直接通过googleapi(例如googleapiserver)可以得到。对话框里提到googleapiserver后跟搜索框后面跟的chrome浏览器版本关系不大,chrome5.x可以获取到非常详细的结果,4.x好像就很艰难了。
本文介绍在chrome浏览器、firefox浏览器上采集外网站的方法,因为我用的是火狐浏览器,其他浏览器如edge浏览器、safari、safarimenu等可以参考本文进行采集。
1)最好是有爬虫这个工具,用它可以采集单个网站,采集效率更高,内存占用也更少。建议采用谷歌浏览器,谷歌浏览器加载页面更快、可以同时进行采集,不用等待页面加载完毕。实在没有,可以装个uc浏览器,再加个火狐浏览器,也差不多了。
" />
2)html和javascript代码全部*敏*感*词*来自其他链接地址,例如facebook、myspace等站点,如果代码地址格式不对,javascript无法通过、从而报错的话,那就采集不到我们需要的页面。
3)及时断开采集链接、避免采集数据被删除,采集不是一直连接就一直可以采集到数据,所以采集要及时。下面是采集导航网站+新浪微博的数据:采集了地址,
4)firefox+python+chrome浏览器在采集以上步骤的同时,我们还需要安装firefox、chrome浏览器、uc浏览器等浏览器。安装firefox和chrome浏览器方法:1.首先打开浏览器进入firefox点击插件-扩展程序---开发者模式打开。2.进入插件后点击右上角的【更多工具】,依次点击【扩展程序】、【greasemonkey】、【browserify】。
3.找到并安装forge【firefox应用商店】插件。安装uc浏览器和安装firefox浏览器方法:安装和加载u。