方便操作的采集神器,模仿了gbdt,过程比较痛苦

优采云 发布时间: 2021-05-30 23:02

  方便操作的采集神器,模仿了gbdt,过程比较痛苦

  方便操作的采集神器,模仿了gbdt原理,免费的,爬虫相关数据爬虫,过程比较痛苦。可以做简单的信息抽丝剥茧分析总结。

  有大量的item类别数据(如user_id,cookie等),全部去重设限制,几乎是最靠谱的方法。单用r做分类问题是可以的,比如拟合gbdt等。

  sparksql支持关系型数据库(mysql、sqlserver、db2等)与非关系型数据库(postgresql、restart等),关系型数据库做分类也是可以的。

  in-data-likeconnectivityforecasting目前据我了解spark确实挺好用的,

  可以在producttracking中找到某产品下的多个用户users,

  很多人都在讲gbdt和boosting,但我觉得在实际的分类中有很多优化方向,可以是nanoclustering,可以是hashclustering,可以是crosscommute,可以是sparsegeometryrepresentation等等。agre,iamdp,restart等等很多方法,需要根据具体业务去自行调研。

  gbdt不适合做modelcheckpoint,更适合做training

  不要被忽悠了

  单一分类,我认为最靠谱的方法还是segment,即只保留一个要分析的分类。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线