采集器采集源应该很可靠,你们开发前还是要考虑周全

优采云 发布时间: 2022-08-07 18:03

  采集器采集源应该很可靠,你们开发前还是要考虑周全

  采集器采集源应该很可靠了,你们开发前还是要考虑周全。一个企业网站、app开发等等,涉及到多方面技术,所以很多东西需要实现。如果你只是采集文章,放在采集站是没有问题的,但涉及到改变内容、增加评论、促销、商品分享、定时提醒等可能都需要你们考虑,否则会很麻烦。

  

  采集器?你确定?我工作涉及到的内容都是拿python脚本采集,只要seo不是做得太水。

  那你做一个采集器?

  

  大数据在实际应用上不仅仅是从数据源采集数据,而且涉及到从多个数据源上进行数据的收集、清洗、处理,从而形成一套完整的分析决策模型。目前很多大型的分析决策企业,比如金蝶、用友等都已经提供了实时的数据采集服务,可以加上在线大数据分析决策分析(dataforge)。

  不太清楚你要搞大数据是用的是什么平台,一般分为云平台、hadoop等大数据平台。这些平台都有自己的采集程序,有些对这些采集程序是有硬性要求的,比如要求采集文章属性里面必须包含user名称之类的数据。

  根据文章的不同性质类型来采集,如果仅仅是给公司的网站采集内容,只要采集器是普通python脚本就可以了,并且文章足够多也不容易被封。如果是给b站上传视频、段子、文章,就涉及到改变视频的属性、把视频等同于其他相同内容等等,需要特殊采集策略。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线