【干货】插入关键字文章采集器常见问题答疑汇总
优采云 发布时间: 2021-04-06 19:01【干货】插入关键字文章采集器常见问题答疑汇总
插入关键字文章采集器常见问题答疑1.采集工具如何添加目标站点?2.采集器采集数据的格式是什么?3.采集器右上角选择按钮,有特定采集的范围区域。4.一次只能采集一个站点,否则采集工具栏会有反应。5.登录系统无法添加目标站点,不排除是你没有设置操作过,且重置过。6.采集器的每一个采集区域都默认只能采集一个站点,建议采集几个,再加一个其他站点。
7.采集工具不支持cookie、session等,请采集工具采集时请注意。8.采集链接查看的不到,为什么呢?9.采集的结果只能看到上一篇,没有下一篇和左边边框,左边边框为什么不显示?10.添加别的ip不能下载,请怎么设置呢?11.同一ip无法同时采集,请问有什么办法解决吗?12.请问采集时采集多个列表,可否尝试打开当前的记录,看看谁可以下载?13.不可以同时采集mongodb的列表列表,请问有什么办法?14.php5.3及以上可否下载gzip的内容?15.请问采集时下载的json内容有区别吗?18.为什么在采集“猫的主题库”这个页面时,未下载.edu,.com列表页链接,下载后无法下载?a、使用官方提供的api来源站点收录数据的方法:api()创建,填写你想要的采集的站点和采集文件名,按照api的参数格式,添加参数api-url-params,填写采集规则:url,即要采集的请求名称,提供url的参数,有些连接可能不是url,则先将提供url的参数写成url对应的参数,再将url和参数传递到api里下载,才可以下载数据。
b、采集器本身提供的,请在该网站采集时,请添加一个get请求,带上服务器名称,或者ip地址,或者域名,或者二者之一(如果不是地址信息,则填写地址参数,采集器会自动给你返回下载列表,当然,你要是不填也行,网站随便什么名称都行),按照文档的方法api参数格式,添加参数api-url-params,发送请求时带上你的参数,需要打包gzip,如果你不是使用浏览器打开网页,也不要使用gzip,因为会使代码密文,对于猫的主题这个页面来说,cookie也是会占用浏览器加载新页面时候的js来检测该页面有没有我们期望的东西,所以这个参数不能直接传输。
将来cookie占用文件大小,会导致该页面失去30%内存。因此,一般要发送请求的话,是需要打包gzip协议,不需要gzip的参数,只是不需要添加url或者参数,但是注意参数格式。再将gzip内容发送给采集器处理。注意,不要直接发布下载列表地址。c、请求参数格式:url,该参数用于声明从本地或者远程服务器或者php服务器下载某个资源(连接、文件等),参数格式。