采集内容管理平台(fm是马尔科夫决策过程，先随机产生n个topic)

优采云发布时间: 2021-09-16 03:04

　　采集内容管理平台，分为前端采集，有的公司会统一采集头条内容；后端实时监控采集内容，每日新增内容推送对应的后端服务，如果新增内容存在于历史内容中，那么对该后端服务做改动，当新增内容新增时，推送该后端服务的服务端日志给当前用户，

　　这个我不懂，但是基本原理你要懂吧。内容有质量要求，每个特征的构建也是有要求的，特征规则，有的有采样范围，或者是样本样本范围。其次推荐算法也有不同实现。我一般接触的是先采集，然后需要做分类，没有样本采样的话，一般不会直接按采集过的数据来推荐，太麻烦了。做netfilter也好，cf检测算法，也是根据特征结构判断的，这些类似于可以用工具实现。你可以考虑用最简单的工具，配合几个netfilter或者cf检测算法。

　　每一个推荐系统的产生，大家都会将其分为两类：一是从内容池中随机选取topic推荐；二是用户推荐。一般都会沿用之前分好的类，大家对于内容池里的分布也是习惯了，刚开始可能还可以为其设置阈值，将重复被推荐的topic逐步剔除，随着数据量增大后，分区数量增多，时间增长，阈值逐步降低，再添加新的类，直到最后看起来就是满的一片了。

　　在这里可以看出分区数量和重复推荐是无关的，内容库中的总类数+日活跃用户数的比值才是内容库的真实item数量，这个item数量和使用频率是有关系的，至于是怎么算出来的，需要用到fm，fm是马尔科夫决策过程，简单来说就是，先随机产生n个topic，每个topic最多两个，然后根据投票算法，决定这n个topic到底应该分在那个分区，有alpha，beta的分布方式，这样每个topic的分布才是特定的，一般就是两个，一个topicscore超过4，beta最大，一个topicscore低于4，beta最大，topic的确定只是内容不是变数的基础上，需要根据候选项产生排序，最终的产品类推荐结果中，不同类别最终的rank顺序和最后n个大类的rank结果都是有关系的，所以如果不关心一个topic的前n名有没有覆盖到这个topic的50%的用户，最好的办法是为所有的推荐项都分配rank。

　　例如，如果是基于商品推荐系统，在这个基础上，商品推荐值排名前20的topic，相对来说可能都集中在了同一个产品类别上，虽然用户是在动态分配的，但是因为假设每个topic下有20%的商品产品是重复被推荐过的，产品推荐值排名前20的topic有50%是被分配了10个以上用户去匹配，所以关注前20条topic下所有商品总和，就可以大致判断是否有可能不再向下扩展，最多拓展到500条topic下的商品推荐总和。内容推荐。

0

2021-09-16

采集内容管理平台

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

采集内容管理平台(fm是马尔科夫决策过程，先随机产生n个topic)

0 个评论

发起人

AI时代内容工厂

采集内容管理平台(fm是马尔科夫决策过程，先随机产生n个topic)

0 个评论

发起人

相关问题