一键采集上传常见的细节问题(一键采集上传常见的细节问题汇总,你知道吗?)

优采云 发布时间: 2022-01-05 09:10

  一键采集上传常见的细节问题(一键采集上传常见的细节问题汇总,你知道吗?)

  一键采集上传常见的细节问题汇总

  1、一键采集的格式有哪些?一键采集的格式一般是json或html,另外国内基本上都是json,可以采取转换服务来规避格式不对的问题。

  2、图片、视频、动态内容,怎么采集?这些一般都需要开发者添加自己的图片采集接口,一般来说,部分国内类型的网站是没有相应json的,必须采用相应开放接口。

  3、如何配置被采集的网站?可以通过两种方式完成,一种是采用被采集网站直接做waf;另一种则是部署两端服务,在两端都要做服务端的监控。

  4、可以获取第三方的服务器信息吗?可以,但是会比较麻烦,从效率上来说,waf相对来说更为方便。

  5、文件夹的权限设置?首先,你的服务器名要设置的有备案,需要详细描述这点。如果你的电脑已经有多个ip,可以一一设置。对于动态内容的下载地址要有权限等级。

  6、从哪里爬取的?非常多的网站是根据json格式提供的内容,本地采集会出现信息孤岛等问题,比如很多网站会把meta列表设置成json格式,针对不同的工具json格式采集方式不同,比如采用apache下的json抓取工具,处理json格式需要设置很多参数。本地获取的信息较多的话,数据传递给web端等等会出现断层,这种问题一般在运营需要中会遇到,本地采集的内容一般会出现流量高峰期,一旦没有出现流量问题,那可能会出现页面改版,所以一般尽量避免出现这种问题。

  7、文件下载地址可以爬取吗?可以,通过定位到文件的位置,然后完成文件下载。如果想要上传的话,可以通过apache或者自己开发的工具进行上传。

  8、站点中有cookie,会影响站点信息抓取吗?一般情况是不会,但是不排除有些站点有特殊,会有一些具体cookie的信息,建议你去看一下。

  9、已经爬取的页面数据是否可以取消修改?可以修改,可以采用采集模式更改数据抓取。如果不满足需求,可以自己编写。

  1

  0、手机端下载的文件,能不能上传?目前大部分第三方有限制,api的文件是不能上传的,如果站点要求,可以直接上传。

  1、能下载多少页?部分站点有免费的内容下载数量,比如xxx/list。在200以下的情况下,都是可以部署两端服务,采用不同的服务端采集方式。

  2、采集是用哪个系统?apache+java的方式,

  3、数据库有单表限制?这个采用druid等数据库连接池的方式做数据的分析,大部分情况不限制,有些地方有限制。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线