推荐系统采集剖析数据
优采云 发布时间: 2020-08-17 19:03推荐系统采集剖析数据
前言
本文主要介绍推荐系统怎样采集,分析数据,通过必要的推荐算法,使推荐结果符合用户的个人口味。
一.利用用户行为数据目录哪些称作用户行为数据
用户行为数据在推荐系统中的定义是:在网站或者应用中用户的浏览,购买,点击,评分,评论等行为都是用户行为。
为什么借助用户行为数据
为了使推荐结果符合用户口味,我们须要深入了解用户。如何能够了解一个人呢?《论语·公冶长》中说“听其言,观其行”,也就是说可以通过用户留下的文字和行为了解用户兴趣和需求,改善推荐算法,从而让推荐结果符合用户口味。
用户行为的分类
一般来说,在推荐系统中,用户的行为通常可以分为俩类:显性反馈行为,隐性反馈行为。
用户行为的储存
用户行为可以分为显性反馈行为,隐性反馈行为。一般来说,显性反馈行为的数据量会远远大于隐性反馈行为的数据量。而且诸如象相关推荐等,实时性要求是比较高的,或许会导致用户行为的储存形式也不一样。在一书中,对于用户行为的储存给出了如下的一般性意见:
所以,可以将用户的行为储存在分布式系统HDFS或则数据库,redis中。这主要是取决于用户行为数据量的大小以及对实时性的要求是否高。对于不需要进行实时储存以及剖析的行为,我们可以借助Kafka或则Metaq消息队列进行行为的消费,也就是储存。如下:
基于用户的协同过滤算法
基于用户的协同过滤算法是推荐系统中最古老的算法。这种算法给用户推荐和他兴趣相像的其他用户喜欢的物品。比如当一个用户A须要个性化推荐时,可以先找到和他有相像兴趣的其他用户,然后把这些用户喜欢的、而用户A没有听说过的物品。
基于物品的协同过滤算法
基于物品的协同过滤算法 这种算法给用户推荐和他之前喜欢的物品相像的物品。
二.利用用户标签数据目录背景
我们一般会说给某个人贴标签,其实标签是推荐系统中一种重要的特点表现形式。利用好标签,推荐系统可以给用户返回更符合用户个人口味的推荐结果。
为什么借助标签
推荐系统的目的是联系用户的兴趣和物品,这种联系须要依赖不同的媒介。GroupLens在一篇文章中表示目前流行的推荐系统基本上通过3种形式联系用户兴趣和物品。如图4-1所示,第一种方法是借助用户喜欢过的物品,给用户推荐与他喜欢过的物品相像的物品,这就是上面提及的基于物品的算法。第二种方法是借助和用户兴趣相像的其他用户,给用户推荐这些和她们兴趣爱好相像的其他用户喜欢的物品,这是上面提及的基于用户的算法。除了这两种方式,第三种重要的方法是通过一些特点(feature)联系用户和物品,给用户推荐这些具有用户喜欢的特点的物品。这里的特点有不同的表现形式,比如可以表现为物品的属性集合(比如对于图书,属性集合包括作者、出版社、主题和关键词等),也可以表现为隐语义向量(latent factor vector),这可以通过上面提出的隐语义模型习得到。本章将讨论一种重要的特点表现形式——标签。如图:
标签的分类
UGC标签
指的是用户为内容打的标签。
PGC标签
指的是专家为内容打的标签。
三.借助上下文信息
准确了解用户的上下文信息(包括时间、地点、心情等),对于提高推荐疗效有重要作用。
四.利用社交网路数据谢谢&总结
本文主要参考了项亮老师的一书,主要分享了本文主要介绍推荐系统怎样采集,分析数据,通过必要的推荐算法,使推荐结果符合用户的个人口味。