资讯内容采集系统(推荐系统对未查看对象的评分方法推荐算法有三类)

优采云 发布时间: 2021-10-30 05:08

  资讯内容采集系统(推荐系统对未查看对象的评分方法推荐算法有三类)

  基于内容的新闻推荐系统

  

  通常,在个性化推荐系统中,用户根据他们的兴趣程度对已查看的对象进行评分。推荐系统根据用户对未查看对象的评分预测用户对未查看对象的评分,并计算用户未查看对象的评分。根据预测的分数对它们进行排序并呈现给用户。

  概括地说,推荐系统是一种预测用户对未查看对象的评分的系统。推荐系统对未查看对象的评分方法是推荐算法。推荐算法主要有3种:①、协同过滤推荐方法②、基于内容的推荐方法③、混合推荐方法

  推荐的集成方法。

  ①协同过滤是一种典型的集体智慧运用方法。

  协同过滤一般是从大量用户中发现一小部分和你的口味相近的。在协同过滤中,这些用户成为邻居,然后根据他们喜欢的其他东西将他们组织到一个排序的目录中作为推荐给你。

  例如,如果您想看一部电影,但不知道该看哪个,您会怎么做?大多数人都会问身边的朋友,看看最近有没有什么好的电影推荐,我们一般更喜欢从口味相近的朋友那里得到推荐。这就是协同过滤的核心思想。

  与集体智能相比,协同过滤在一定程度上保留了个体的特征,即你的品味偏好,因此可以更多地作为个性化推荐的算法思想。

  二、协同过滤的实现步骤:

  1),采集用户偏好

  但是,需要从用户的行为和偏好中发现规律,并在此基础上给出建议。如何采集用户的偏好信息成为系统推荐效果最基本的决定因素。用户可以通过多种方式向系统提供他们的偏好信息,并且

  

  2)、寻找相似的用户或物品

  在分析用户行为并获得用户偏好后,我们可以根据用户偏好计算相似用户和物品,然后根据相似物品进行推荐。这是最典型的 CF 基于分支项目的 CF 之一。

  3),计算推荐-item-based CF

  例如,对于物品A,根据所有用户的历史偏好,喜欢物品A的用户喜欢物品C,

  可以断定,物品A和物品C比较相似,用户C喜欢物品A,那么可以推断用户C也可能喜欢物品C。物品C比较相似,用户C喜欢物品A,那么它可以推断用户C也可能喜欢物品C。

  item-based CF的基本原理

  

  ②、基于内容的推荐方法

  就是推荐与用户过去感兴趣的对象相似的对象。这种方法是协同过滤的延续和发展。主要借鉴信息抽取和信息过滤的研究成果,根据推荐项目的内容特征进行推荐。.

  ③推荐的混合方法。

  它是上述两种方法的结合。

  可见,如果要构建个性化的新闻推荐系统,最理想的就是使用协同过滤推荐方法。

  然而,智能推荐大多基于海量数据的计算和处理。然而,在海量数据上运行高度复杂的算法(例如协同过滤算法和其他推荐策略)是非常具有挑战性的。

  与智能推荐相比,基于内容的推荐方法更适合只需要实现基本推荐功能的新闻推荐系统。在采用这种方法的系统中,推荐对象利用其内容的特征来表达,推荐系统

  特征提取是通过学习用户的兴趣,比较用户模型与推荐对象的相似度来实现的。文字内容的特点是比较容易提取,最常见的网络新闻就是文字新闻。

  因此,在文中描述的网络新闻系统中,基于内容的推荐方法是比较有效的。

  

  

  基于内容的推荐机制的基本原理

  首先,我们需要对新闻元数据进行建模。这里我们只简单描述新闻的类型;然后用新闻元数据找出新闻之间的相似度,因为类型是“文科教”的新闻A和C被认为是相似的新闻;最后,建议实现。对于用户A,他喜欢看新闻A,那么系统可以向他推荐类似的新闻C。

  这种基于内容的推荐机制的优点是可以很好地模拟用户的口味,提供更准确的推荐。但它也存在以下问题:

  1 文章需要分析建模,推荐质量取决于文章模型的完整性和综合性。在目前的应用中,我们可以观察到关键词和标签(Tag)被认为是一种简单有效的描述item元数据的方式。

  2 物品相似度的分析只看物品本身的特征,这里不考虑人们对物品的态度。

  3 因为需要根据用户过去的偏好历史进行推荐,所以对于新用户存在“冷启动”问题。

  

  新闻推荐系统*敏*感*词*

  新闻采集 模块:

  主要负责采集来自互联网的新闻信息,主要采用国内知名新闻门户网站网站作为其新闻来源。例如:搜狐、新浪、新华网、凤凰网等。本项目仅使用凤凰网作为新闻源。采集 到达新闻后,从页面中提取正文内容并保存到数据库中。作为一个比较实用的新闻推荐系统,需要让推荐的新闻保持新鲜,也就是说这个模块还要负责管理系统中的活跃新闻。新闻发布时间超过一定期限的,视为过期。并将其标记为已存档,不会出现在以后的推荐列表中。

  新闻推荐模块:

  主要负责响应用户请求,生成新闻推荐列表,并将列表返回给用户。修改模块中使用的算法是基于内容的推荐算法。另外,在推荐结果中,最新的新闻会被整合到推荐列表中,因为最新的新闻是按时间排序的,内容是随机的。

  资源调度模块:

  主要负责监控系统当前的负载情况,根据算法调整新闻数据保留的及时性,保证新闻的实时性,控制新闻数量;另外,需要调用推荐算法进行相似度的计算和计算。

  用户浏览新闻时,其使用习惯主要包括使用时间、阅读新闻类别(国际、社会、科学、教育、IT、医疗等)、每日新闻阅读时间和频率等信息,而这些信息应该是高呼记录到用户数据库中。然后由用户建模模块进行数据分析,最终生成用户模型并存储在用户模型数据库中。

  该模块还必须定期运行以不断更新用户模型,以便兴趣转移可以实时反映在用户模型中。

  监控系统资源,根据负载实时调整计算资源的分配,保持系统稳定的响应时间。

  对不同主题的用户兴趣特征进行分类。

  计算并使用用户关注某个新闻的时长,以此作为用户关注该新闻的指标。

  用户兴趣挖掘:用户数据获取、语义预处理、文本分类、用户兴趣模型

  文本分类技术:文本分割关键词提取特征值离散化关键词与分类

  新闻推荐模块

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线