推荐系统采集剖析数据

优采云 发布时间: 2020-08-17 19:03

  推荐系统采集剖析数据

  前言

  本文主要介绍推荐系统怎样采集,分析数据,通过必要的推荐算法,使推荐结果符合用户的个人口味。

  一.利用用户行为数据目录哪些称作用户行为数据

  用户行为数据在推荐系统中的定义是:在网站或者应用中用户的浏览,购买,点击,评分,评论等行为都是用户行为。

  为什么借助用户行为数据

  为了使推荐结果符合用户口味,我们须要深入了解用户。如何能够了解一个人呢?《论语·公冶长》中说“听其言,观其行”,也就是说可以通过用户留下的文字和行为了解用户兴趣和需求,改善推荐算法,从而让推荐结果符合用户口味。

  用户行为的分类

  一般来说,在推荐系统中,用户的行为通常可以分为俩类:显性反馈行为,隐性反馈行为。

  

  用户行为的储存

  用户行为可以分为显性反馈行为,隐性反馈行为。一般来说,显性反馈行为的数据量会远远大于隐性反馈行为的数据量。而且诸如象相关推荐等,实时性要求是比较高的,或许会导致用户行为的储存形式也不一样。在一书中,对于用户行为的储存给出了如下的一般性意见:

  

  所以,可以将用户的行为储存在分布式系统HDFS或则数据库,redis中。这主要是取决于用户行为数据量的大小以及对实时性的要求是否高。对于不需要进行实时储存以及剖析的行为,我们可以借助Kafka或则Metaq消息队列进行行为的消费,也就是储存。如下:

  

  基于用户的协同过滤算法

  基于用户的协同过滤算法是推荐系统中最古老的算法。这种算法给用户推荐和他兴趣相像的其他用户喜欢的物品。比如当一个用户A须要个性化推荐时,可以先找到和他有相像兴趣的其他用户,然后把这些用户喜欢的、而用户A没有听说过的物品。

  基于物品的协同过滤算法

  基于物品的协同过滤算法 这种算法给用户推荐和他之前喜欢的物品相像的物品。

  二.利用用户标签数据目录背景

  我们一般会说给某个人贴标签,其实标签是推荐系统中一种重要的特点表现形式。利用好标签,推荐系统可以给用户返回更符合用户个人口味的推荐结果。

  为什么借助标签

  推荐系统的目的是联系用户的兴趣和物品,这种联系须要依赖不同的媒介。GroupLens在一篇文章中表示目前流行的推荐系统基本上通过3种形式联系用户兴趣和物品。如图4-1所示,第一种方法是借助用户喜欢过的物品,给用户推荐与他喜欢过的物品相像的物品,这就是上面提及的基于物品的算法。第二种方法是借助和用户兴趣相像的其他用户,给用户推荐这些和她们兴趣爱好相像的其他用户喜欢的物品,这是上面提及的基于用户的算法。除了这两种方式,第三种重要的方法是通过一些特点(feature)联系用户和物品,给用户推荐这些具有用户喜欢的特点的物品。这里的特点有不同的表现形式,比如可以表现为物品的属性集合(比如对于图书,属性集合包括作者、出版社、主题和关键词等),也可以表现为隐语义向量(latent factor vector),这可以通过上面提出的隐语义模型习得到。本章将讨论一种重要的特点表现形式——标签。如图:

  

  标签的分类

  UGC标签

  指的是用户为内容打的标签。

  PGC标签

  指的是专家为内容打的标签。

  三.借助上下文信息

  准确了解用户的上下文信息(包括时间、地点、心情等),对于提高推荐疗效有重要作用。

  四.利用社交网路数据谢谢&总结

  本文主要参考了项亮老师的一书,主要分享了本文主要介绍推荐系统怎样采集,分析数据,通过必要的推荐算法,使推荐结果符合用户的个人口味。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线