智能采集站(智能采集站api链接失效的原因及解决办法！！)

优采云发布时间: 2021-09-23 23:01

　　智能采集站，的指定时间抓取某一家的数据，这家的数据量太大或者网站太新，导致其他的网站都抓取不到，从而进入服务器，被丢弃。api链接失效的原因一般是：服务器故障，或者你请求的网站有什么异常。多用比较靠谱的工具，比如elasticsearch，redis，hbase等，他们可以帮你打包请求，方便你读取，或者你把请求的参数直接包给elasticsearch。上线时尽量不要拉大量包，比如要放三百条数据，建议最多放三十条，因为任何包都会报错的。

　　api链接失效大概是有两种可能：一是网站有故障导致被丢弃；二是你请求的数据量太大，比如你写的数据太集中，导致后台服务器负载太大。

　　1、如果你发的数据量不大，比如就是个普通的表，不超过五十条，可以把应用放到集群上。

　　2、如果你发的数据量大，或者你的应用需要某种特殊的方式去抓取需要时间比较长，比如1分钟等，尽量把api链接写成静态的，不要交给云服务器上集群去管理。

　　两种情况（来自我的老东家）：一是服务端存在故障导致服务失效；二是客户端程序失效。

　　每次写api应该都有对应的服务器在响应，过一段时间链接自然就会失效。不放心的话，每次注册应用的时候就先写一小部分数据，这样的数据量远小于使用api的量。

　　今天遇到了这个问题，分享一下，并且分享下当时的解决办法。遇到这个问题是数据抓取能力有限，

　　6、7个小时连着写了一个git，等收到版本号确认邮件后才想起来是连这个request。那么该怎么办呢？最经济省钱的方法就是：重新抓取，但是要注意发送apicode，这样可以及时解决问题。这个办法可行吗？今天我把确认邮件的源代码直接写在了项目上，只要配置好源代码路径就能直接抓取，配置了关键字会极大地减少步骤和时间。

　　而且更经济省钱的解决方法是：每次收到你发送的apicode，直接代码级重写一遍，保证网站一定能抓取。这样下来，你会发现一个git的版本号其实可以用来做很多事情，比如存数据、读取数据、修改页面，存文章标题和链接等等。当然，整个操作都要切实控制在你自己手里，并且要跟自己本机的数据库，mysql或者nosql联动，能够检查效果是否正常。

　　我这里实际最花的时间是，以前一条链接是要5分钟，现在3分钟就抓取完成了。抓取完成之后的小正常现象是，除了时间，还出现报错，我这里就不一一细说了。很有意思的是，这个时候我直接在github上解决的api问题，但是我不太放心的时候，发现代码有报错，然后就点开去看，还好也都正常。这只是出现单纯文本错误的问题，如果api中就有对应的错误，我就会重试很多次。然后。

0

2021-09-23

智能采集站

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

智能采集站(智能采集站api链接失效的原因及解决办法！！)

0 个评论

发起人

AI时代内容工厂

智能采集站(智能采集站api链接失效的原因及解决办法！！)

0 个评论

发起人

相关问题