*敏*感*词*的搜索引擎优化论文(推荐引擎架构主要包括三部分:基于内容属性的相似性推荐)

优采云 发布时间: 2021-11-13 00:20

  *敏*感*词*的搜索引擎优化论文(推荐引擎架构主要包括三部分:基于内容属性的相似性推荐)

  推荐引擎架构主要包括三部分:

  2.3 推荐算法

  推荐系统生成推荐列表通常有两种方式:基于内容属性的相似性推荐和协同过滤。

  2.3.1 事物的相似性:基于内容属性相似性的推荐

  基于内容的推荐使用一系列相关项目的离散特征来推荐具有相似属性的相似项目。

  (1)优点:只依赖item本身的特性,不依赖用户的行为,可以展示新的item和不常用的item。

  (2)的问题:推荐的质量完全依赖于特征构建的完整性,但特征构建本身是一个有一定成本的系统工程,没有考虑用户对item的态度,用户的品味和音调很难解释和表达。

  (3)典型方法:TF-IDF,基本思想:出现频率越高,辨别度越低,反之亦然。

  示例:Pandora 使用歌曲或艺术家的属性(音乐流派项目提供的 400 个属性的子集)生成一个广播电台,其中音乐具有相似的属性。

  用户反馈用于完善电台中的内容。当用户“不喜欢”某首歌曲时,某些属性被削弱;当用户喜欢一首歌时,其他属性得到加强。

  Pandora 启动时只需要很少的信息。但是,这种方法非常有限,只能得到与原创*敏*感*词*相似的推荐。

  2.3.2人分组:协同过滤

  协同过滤方法基于用户的历史行为(如购买、选择、评价的物品等)结合其他用户的类似决策构建模型。作为目前应用最广泛的推荐机制,其基于用户行为的特性使得我们无需对项目或信息进行完整的标签分析和建模。它可用于预测用户可能对哪些项目感兴趣(或用户对项目的感受)。兴趣程度)。

  (1)依据:以用户的消费行为为特征,计算用户相似度或物品相似度,进行信息匹配。

  (2) 子类 1:基于项目的协作

  基本思路:先确定自己喜欢的单品,再找相似的单品推荐给你。

  (3)子类别 2:基于用户的协作

  基本思路分为两步:第一步是找到在某一方面和你有相似品味的人;第二步是向你推荐这个群体喜欢的新事物。

  (4)子类 3:基于模型的协作

  基本思想:利用用户的偏好信息训练算法模型,实时预测用户可能的点击率。

  示例:Last.fm 通过观察用户每天听的乐队或歌手并将其与其他用户的行为进行比较来推荐歌曲,从而建立“电台”。

  Last.fm 会播放用户音乐库中没有的其他音乐,但其他类似用户经常播放。为了提供准确的推荐,Last.fm 需要大量的用户信息。这是一个冷启动问题,在协同过滤系统中很常见。

  2.3.3 交互界面>数据>算法

  虽然推荐算法是推荐系统的核心要素,但交互界面对于推荐系统来说也非常重要。

  例如,“推荐原因”。从工程角度来看,推荐理由提高了推荐系统的透明度,让用户理解为什么推荐这类内容。从业务的角度来说,我们会从更多的转化入手,也就是什么样的推荐理由可以增加说服力,触发用户接受度。

  因此,对于推荐系统,有“交互界面>数据>算法”之说。

  2.3.4 3种常见的内容分发方式

  作为内容分发的三种常用方式,编辑、算法和社交分发各有千秋,相得益彰。

  (1)编辑分发是指中心个人主导的分发机制,常见于纸质媒体、门户网站网站等。

  (2)算法分发是指一种机器主导的分发机制,在今日头条等内容类APP中很常见,形成了真正的多元化受众。

  2009年ACM世界冠军、第四范式创始人戴文元加入百度时,百度基于1w专家规则分发内容,经过机器分析数据,得到更精细的千亿规则。相应地,百度的收入增长了8倍。

  (3)社交分发是指离散的人工主导的分发机制,常见于Facebook等社交网络网站。如果用户给出过多的负面评论,Facebook评论者会优先考虑。

  三、如何评价推荐系统

  正如管理大师彼得德鲁克所说:“如果你不能衡量它,你就无法改进它。”

  3.1 推荐系统评测

  常见的推荐系统评价指标包括用户满意度、预测准确率、覆盖率、多样性、新颖性、惊喜性、信任度、实时性、鲁棒性、业务目标等。

  3.1.1 用户满意度

  用户满意度是评价推荐系统的重要指标。无法离线计算,只能通过用户调查或在线实验获得。在在线系统中,我们可以通过用户付费率、点击率、停留时间、转化率等指标来衡量用户满意度。

  3.1.2 预测精度

  预测准确度衡量推荐系统预测用户行为的能力。它是推荐系统最重要的离线评价指标。包括分数预测和TopN推荐。

  对应内容推荐系统,其表现就是预测用户的点击次数,预测消费情况。由于精度评估可以重用已有数据进行离线计算,因此通常用于各种算法的迭代。

  网站 在提供推荐服务的时候,一般是给用户一个个性化的推荐列表。这种推荐被称为TopN推荐。

  TopN推荐的预测准确率一般用两个指标来衡量:precision和recall

  推荐系统中的精度和召回率与二元分类中的概念本质上是相同的。

  推荐系统通常只向特定用户推荐有限数量(例如 k 个)的项目。真正匹配的项称为相关项(即二元分类中的正项)。

  krecall(recallatk)=推荐k个item中相关item的个数/所有相关item的个数

  k精度(precisionatk)=推荐k项中相关项数/k

  例如,根据您的喜好,我们推荐 10 个产品,其中 5 个是真正相关的。在所有产品中,一共有20个相关产品,所以

  k 召回率 = 5/20

  k 精度 = 5/10

  3.1.3 覆盖范围

  也称为多样性,它可以为用户提供视觉范围之外的内容。丰富度越高,个体体验的多样性越好;

  从内容角度,可以评价推荐内容占整体内容的比例,或者整个内容分发系统的基尼系数。

  3.1.4 多样性

  为了满足用户广泛的兴趣,推荐列表需要能够覆盖用户不同兴趣的领域,即需要多样化。

  3.1.5 新奇

  新颖性也是影响用户体验的重要指标之一。它是指向用户推荐不受欢迎和不受欢迎的项目的能力。

  3.1.6 惊喜

  推荐结果与用户的历史兴趣不相似,但让用户满意,是高度的惊喜。

  3.1.7 信任

  如果用户信任推荐系统,就会增加用户与推荐系统之间的互动。

  增加信任度有两种方式: 增加系统透明度:提供推荐说明,让用户了解推荐系统的运行机制;使用社交网络通过好友信息向用户推荐。衡量信任的唯一方法是通过问卷调查。

  3.1.8 实时

  实时性包括两个方面:推荐列表的实时更新,满足用户新的行为变化;向用户推荐添加到系统中的新项目;

  3.1.9 鲁棒性

  任何能带来好处的算法系统都会受到攻击。最典型的案例就是打击搜索引擎作弊和作弊。

  鲁棒性(robustness)衡量推荐系统抵抗作弊的能力。

  3.1.10 个商业目标

  在设计推荐系统时,需要考虑最终的业务目标。不同的网站有着不同的商业目标,这与网站的盈利模式息息相关。

  3.2 推荐常见问题

  美国前总统奥巴马的法律顾问基思·桑斯于2006年发表了《信息乌托邦——每个人如何产生知识》,其中提出了“信息茧房”的概念。信息茧房是指信息传播,因为公众自身的信息需求并不全面,公众只关注他们选择的东西和让他们开心的领域。久而久之,他们就会像蚕茧一样被束缚在茧房里。.

  推荐系统存在“信息茧房”等诸多问题:

  推荐重复是指大量重复性高、缺乏新颖性的内容。密集推荐意味着同类型内容的比例过高,导致局部多样性的丧失。不良内容,包括详情页和列表页的不良体验。时空限制的内容是指不同类型的内容具有不同的时效性。稀疏性问题,在实际场景中,用户和物品之间的交互信息往往非常稀疏。

  例如,在电影推荐中,往往有上千部电影,而被用户高估的电影往往只有几十部。用这么少的观测数据来预测大量的未知信息,会大大增加过拟合的风险。

  3.3 如何冷启动

  3.3.1 用户冷启动

  指没有任何历史行为数据的新用户,如何进行推荐?

  解决方案:一种选择是使用基本的用户数据,例如用户注册信息。另一种选择是当新用户第一次访问推荐系统时,推荐结果不会立即显示给用户,而是提供给用户一些物品,供用户反馈。对项目感兴趣,然后根据反馈提供个性化推荐。

  3.3.2 项目冷启动

  指新推出的项目。没有用户对它采取行动。我如何向感兴趣的用户推荐它?

  解决方案:利用item本身的属性,UserCF算法对item的冷启动不是很敏感。

  3.3.3 系统冷启动

  指的是新开发的网站没有用户数据,如何进行个性化推荐?

  解决方案:充分发挥专家系统的作用,将其与机器学习适当结合。

  #参考#

  《内容算法:将内容转化为价值的效率系统》,严泽华

  《推荐系统实践》,项亮

  “推荐系统”,Francesco Ricci、Lior Rokach、Bracha Shapira、Paul B. Kantor

  本文由@Alan 原创 发布给大家都是产品经理。未经作者许可,禁止转载。

  标题图片来自Unsplash,基于CC0协议。

  给作者一个奖励,鼓励他努力!

  称赞

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线