一是人工采集,二是智能采集(,api几乎0接入方便实时同步获取)

优采云 发布时间: 2021-10-02 16:05

  一是人工采集,二是智能采集(,api几乎0接入方便实时同步获取)

  一是人工采集,二是智能采集,目前能够做到采集保留质量的有一些公司,比如,api几乎0开发门槛,接入方便实时同步获取网站数据,最近推出的大格子,可保留全网页质量以及蜘蛛抓取频次,弥补了1个人工和10个api要双轮抓取的巨大失真,还有一些公司目前只会api,但是不保留页面质量,最近推出的德勤知识机器人也是只看不爬的。

  这个得看你所爬的页面的内容类型了,如果是小企业网站,动辄上万的公司网站,动辄几十人的团队,需要做的工作就多了,比如前期的三方链接、前期规划、竞争对手分析、用户习惯分析、爬虫稳定性、规则编写等等等等,这个问题太泛了,

  经验指导人类,学术训练人工智能,认知与行为模式训练人工智能.深度学习原则,

  我主要看负载效率、吞吐量、以及提供的服务。前端代码,爬虫算法,采集组件,api服务等等。

  经济效益,环境稳定,人员配置,在我看来每一点都很重要。

  不知道你需要爬哪里的数据,如果爬小站,请用爬虫框架来抓,如果爬b站等大站,那么你需要做的事情就多了,首先保证同一ip不同地址不会同时被爬到,然后一人可以爬许多小站,请问你考虑过是否同时被多个大站爬过然后再抓取吗。最后,你要确定你的爬虫框架是否兼容多种目标站,看看代码实现是否支持swiper,html5自动解析如果你还要自己写爬虫,估计你得考虑编写了复杂网站需要多个爬虫。

  要考虑的事情就多了,比如分页爬,每隔多少byte抓,全页抓,会不会下载链接重复,是否有登录考虑,抓的站数量是否能够覆盖某站大站的总负载,github上面一堆的爬虫模块,你可以看看看他们实现都支持哪些功能。你还得考虑怎么传输数据,是直接自定义post还是getmethod。要不要postindex,是不是正则匹配数据等等,还有如果有安全问题,method损害,等等很多问题。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线