优采云采集微信公众号*敏*感*词*站,需要注意的5个问题!
优采云 发布时间: 2020-07-20 08:00
最近在采集微信公众号的*敏*感*词*,使用优采云抓取*敏*感*词*要比抓小说要困难一些,我也是遇见了好多的问题,下面给你们总结几点:
1、抓包火车头采集微信文章,看通过手机端抓,也可通过PC客户端抓,这里不赘言了,不懂的可能在这里就碰到困难了。
2、列表页与内容页恳求
列表页有的是post的数据,有的是get数据,get更好操作一些,列表页与内容页恳求时返回的http脑部数据有差别,这里要注意下,简单来说:
设置好列表页和详情页采集规则,测试时发觉,用列表页的http头数据采不到详情页,用详情页的http头数据采不到列表页。
这里要注意!
3、图片恳求出错
请求的图片出错,发现图片的地址不对,要注意拼接。
4、下载出错
请求下载时不要很快,有的站点响应慢,返回200 但是提示错误,解决办法,放慢恳求速率。
5、cookie失效
大部分,90%的就会失效,需要重新抓cookie更新,采*敏*感*词*火车头采集微信文章,图片多,cookie失效确实太难受。
希望采集*敏*感*词*的小伙伴多加注意!
作者QQ1290654348
---------------------20181208更新----------------------
着重指出:
1、*敏*感*词*采集时,请求时间间隔拉长一些,有同学由于自己网速问题,或者是目标网站的响应速率问题,导致恳求错误,此时尽量保证速率慢一些,否则会导致出错。
2、*敏*感*词*模板采集时请告知清楚,后期发布和规则制做时好进行匹配。