智能采集站(智能采集站api链接失效的原因及解决办法!!)
优采云 发布时间: 2021-09-23 23:01智能采集站(智能采集站api链接失效的原因及解决办法!!)
智能采集站,的指定时间抓取某一家的数据,这家的数据量太大或者网站太新,导致其他的网站都抓取不到,从而进入服务器,被丢弃。api链接失效的原因一般是:服务器故障,或者你请求的网站有什么异常。多用比较靠谱的工具,比如elasticsearch,redis,hbase等,他们可以帮你打包请求,方便你读取,或者你把请求的参数直接包给elasticsearch。上线时尽量不要拉大量包,比如要放三百条数据,建议最多放三十条,因为任何包都会报错的。
api链接失效大概是有两种可能:一是网站有故障导致被丢弃;二是你请求的数据量太大,比如你写的数据太集中,导致后台服务器负载太大。
1、如果你发的数据量不大,比如就是个普通的表,不超过五十条,可以把应用放到集群上。
2、如果你发的数据量大,或者你的应用需要某种特殊的方式去抓取需要时间比较长,比如1分钟等,尽量把api链接写成静态的,不要交给云服务器上集群去管理。
两种情况(来自我的老东家):一是服务端存在故障导致服务失效;二是客户端程序失效。
每次写api应该都有对应的服务器在响应,过一段时间链接自然就会失效。不放心的话,每次注册应用的时候就先写一小部分数据,这样的数据量远小于使用api的量。
今天遇到了这个问题,分享一下,并且分享下当时的解决办法。遇到这个问题是数据抓取能力有限,
6、7个小时连着写了一个git,等收到版本号确认邮件后才想起来是连这个request。那么该怎么办呢?最经济省钱的方法就是:重新抓取,但是要注意发送apicode,这样可以及时解决问题。这个办法可行吗?今天我把确认邮件的源代码直接写在了项目上,只要配置好源代码路径就能直接抓取,配置了关键字会极大地减少步骤和时间。
而且更经济省钱的解决方法是:每次收到你发送的apicode,直接代码级重写一遍,保证网站一定能抓取。这样下来,你会发现一个git的版本号其实可以用来做很多事情,比如存数据、读取数据、修改页面,存文章标题和链接等等。当然,整个操作都要切实控制在你自己手里,并且要跟自己本机的数据库,mysql或者nosql联动,能够检查效果是否正常。
我这里实际最花的时间是,以前一条链接是要5分钟,现在3分钟就抓取完成了。抓取完成之后的小正常现象是,除了时间,还出现报错,我这里就不一一细说了。很有意思的是,这个时候我直接在github上解决的api问题,但是我不太放心的时候,发现代码有报错,然后就点开去看,还好也都正常。这只是出现单纯文本错误的问题,如果api中就有对应的错误,我就会重试很多次。然后。