采集内容管理平台(fm是马尔科夫决策过程,先随机产生n个topic)

优采云 发布时间: 2021-09-16 03:04

  采集内容管理平台(fm是马尔科夫决策过程,先随机产生n个topic)

  采集内容管理平台,分为前端采集,有的公司会统一采集头条内容;后端实时监控采集内容,每日新增内容推送对应的后端服务,如果新增内容存在于历史内容中,那么对该后端服务做改动,当新增内容新增时,推送该后端服务的服务端日志给当前用户,

  这个我不懂,但是基本原理你要懂吧。内容有质量要求,每个特征的构建也是有要求的,特征规则,有的有采样范围,或者是样本样本范围。其次推荐算法也有不同实现。我一般接触的是先采集,然后需要做分类,没有样本采样的话,一般不会直接按采集过的数据来推荐,太麻烦了。做netfilter也好,cf检测算法,也是根据特征结构判断的,这些类似于可以用工具实现。你可以考虑用最简单的工具,配合几个netfilter或者cf检测算法。

  每一个推荐系统的产生,大家都会将其分为两类:一是从内容池中随机选取topic推荐;二是用户推荐。一般都会沿用之前分好的类,大家对于内容池里的分布也是习惯了,刚开始可能还可以为其设置阈值,将重复被推荐的topic逐步剔除,随着数据量增大后,分区数量增多,时间增长,阈值逐步降低,再添加新的类,直到最后看起来就是满的一片了。

  在这里可以看出分区数量和重复推荐是无关的,内容库中的总类数+日活跃用户数的比值才是内容库的真实item数量,这个item数量和使用频率是有关系的,至于是怎么算出来的,需要用到fm,fm是马尔科夫决策过程,简单来说就是,先随机产生n个topic,每个topic最多两个,然后根据投票算法,决定这n个topic到底应该分在那个分区,有alpha,beta的分布方式,这样每个topic的分布才是特定的,一般就是两个,一个topicscore超过4,beta最大,一个topicscore低于4,beta最大,topic的确定只是内容不是变数的基础上,需要根据候选项产生排序,最终的产品类推荐结果中,不同类别最终的rank顺序和最后n个大类的rank结果都是有关系的,所以如果不关心一个topic的前n名有没有覆盖到这个topic的50%的用户,最好的办法是为所有的推荐项都分配rank。

  例如,如果是基于商品推荐系统,在这个基础上,商品推荐值排名前20的topic,相对来说可能都集中在了同一个产品类别上,虽然用户是在动态分配的,但是因为假设每个topic下有20%的商品产品是重复被推荐过的,产品推荐值排名前20的topic有50%是被分配了10个以上用户去匹配,所以关注前20条topic下所有商品总和,就可以大致判断是否有可能不再向下扩展,最多拓展到500条topic下的商品推荐总和。内容推荐。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线