方便操作的采集神器，模仿了gbdt，过程比较痛苦

优采云发布时间: 2021-05-30 23:02

　　方便操作的采集神器，模仿了gbdt原理，免费的，爬虫相关数据爬虫，过程比较痛苦。可以做简单的信息抽丝剥茧分析总结。

　　有大量的item类别数据（如user_id,cookie等），全部去重设限制，几乎是最靠谱的方法。单用r做分类问题是可以的，比如拟合gbdt等。

　　sparksql支持关系型数据库（mysql、sqlserver、db2等）与非关系型数据库（postgresql、restart等），关系型数据库做分类也是可以的。

　　in-data-likeconnectivityforecasting目前据我了解spark确实挺好用的，

　　可以在producttracking中找到某产品下的多个用户users，

　　很多人都在讲gbdt和boosting,但我觉得在实际的分类中有很多优化方向，可以是nanoclustering，可以是hashclustering，可以是crosscommute，可以是sparsegeometryrepresentation等等。agre，iamdp，restart等等很多方法，需要根据具体业务去自行调研。

　　gbdt不适合做modelcheckpoint,更适合做training

　　不要被忽悠了

　　单一分类，我认为最靠谱的方法还是segment，即只保留一个要分析的分类。

0

2021-05-30

方便操作的采集神器

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

方便操作的采集神器，模仿了gbdt，过程比较痛苦

0 个评论

发起人

AI时代内容工厂

方便操作的采集神器，模仿了gbdt，过程比较痛苦

0 个评论

发起人

相关问题