一是人工采集,二是智能采集(,api几乎0接入方便实时同步获取)

优采云发布时间: 2021-10-02 16:05

　　一是人工采集,二是智能采集,目前能够做到采集保留质量的有一些公司,比如,api几乎0开发门槛,接入方便实时同步获取网站数据,最近推出的大格子,可保留全网页质量以及蜘蛛抓取频次,弥补了1个人工和10个api要双轮抓取的巨大失真,还有一些公司目前只会api,但是不保留页面质量,最近推出的德勤知识机器人也是只看不爬的。

　　这个得看你所爬的页面的内容类型了，如果是小企业网站，动辄上万的公司网站，动辄几十人的团队，需要做的工作就多了，比如前期的三方链接、前期规划、竞争对手分析、用户习惯分析、爬虫稳定性、规则编写等等等等，这个问题太泛了，

　　经验指导人类，学术训练人工智能，认知与行为模式训练人工智能.深度学习原则，

　　我主要看负载效率、吞吐量、以及提供的服务。前端代码，爬虫算法，采集组件，api服务等等。

　　经济效益，环境稳定，人员配置，在我看来每一点都很重要。

　　不知道你需要爬哪里的数据，如果爬小站，请用爬虫框架来抓，如果爬b站等大站，那么你需要做的事情就多了，首先保证同一ip不同地址不会同时被爬到，然后一人可以爬许多小站，请问你考虑过是否同时被多个大站爬过然后再抓取吗。最后，你要确定你的爬虫框架是否兼容多种目标站，看看代码实现是否支持swiper，html5自动解析如果你还要自己写爬虫，估计你得考虑编写了复杂网站需要多个爬虫。

　　要考虑的事情就多了，比如分页爬，每隔多少byte抓，全页抓，会不会下载链接重复，是否有登录考虑，抓的站数量是否能够覆盖某站大站的总负载，github上面一堆的爬虫模块，你可以看看看他们实现都支持哪些功能。你还得考虑怎么传输数据，是直接自定义post还是getmethod。要不要postindex，是不是正则匹配数据等等，还有如果有安全问题，method损害，等等很多问题。

0

2021-10-02

一是人工采集,二是智能采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

一是人工采集,二是智能采集(,api几乎0接入方便实时同步获取)

0 个评论

发起人

AI时代内容工厂

一是人工采集,二是智能采集(,api几乎0接入方便实时同步获取)

0 个评论

发起人

相关问题