内容兴趣偏好标签如何通过给文章分类以及打标签?
优采云 发布时间: 2021-03-21 22:23内容兴趣偏好标签如何通过给文章分类以及打标签?
结合我自己的项目经验,作者分析了内容APP如何分类和标记文章?
从年底的17到18,我参加了一个信息内容兴趣偏好标签项目。什么是内容兴趣偏好标签?
简单来说,它分析了用户喜欢观看的文章类型,并获得了用户的兴趣和偏好。在此基础上,向用户做出个性化的推荐和推送,以有效地推广和延长应用的活动时间。用户生命周期。
简单地说,这实际上是一个两步过程:
那么实际上真的那么简单吗?这两个看似简单的链接是如何实现的?
首先,让我们谈谈对文章进行分类
由于这个项目,作者查看了许多竞争应用程序的文章分类,发现它们基本上是相同的,但是细节上有些不同。更多的问题在于信息的分类文章难以用尽。我们参考市场上现有的分类,并结合一些材料来开发一套内容兴趣偏好系统。在指定分类时,我们遵循MECE原则,基本上实现了相互独立和完全耗尽。
接下来,我们要分类文章,我们使用分类算法的监督学习。理想情况下,该过程如下所示:
但是在实践中,存在两个问题。由于选择了监督学习,因此有必要为标记的样本提供基础。通常,有三种获取样本的方法:
获取样本后,就是对算法模型的训练和测试。算法模型的训练原理是分割样本文章,提取实体,建立特征工程,并使用每个特征词作为向量来拟合函数,以便在有新的文章时,文章 ] k13]通过分词,并通过模型计算结果。但是,该模型一次无法获得准确的样本,因此需要对模型进行测试和校正。常规测试过程如下:
通过测试的模型不是一劳永逸的。后期可能仍然存在一些不准确的分类问题。这可能是由样本或算法模型引起的。这要求我们找出这些异常文章及其分类,更正分类,然后将其作为训练样本再次输入模型以进行模型校正。一方面,我们可以在文章类别上以相对较低的转换率执行手动采样,以确定问题是否出在算法上。另外,在这里,由于文章的每个标签都分配了一个值,因此我们可以为这些值设置一个阈值。当最大值低于某个阈值时,这些文章及其标签将被调出。手动标记和更正它们,然后将其放入此处的示例库中。
文章标签的计算,因为文章具有多个标签的可能性,这不是某些二进制分类的结果,所以我们使用相似性算法来计算模型文章并分配一个值。值越高,它越接近这种类型的标签,并将被相应地标记。
到目前为止,文章的标签部分已经完成。
如何标记用户
实际上有两种标记用户的方法,即统计标记和算法标记。
当算法资源不足且操作需求较大时,前者可以带头,而后者可以在前者的基础上分割一部分流量来验证和调整算法模型,并不断进行优化。
但是,当我们继续第一种方法时,我们发现用户在一段时间内读取的文章类型不稳定,并且大多数用户将具有一个或几个主要兴趣偏好。这些阅读类型[k13的数量]会更多,但与此同时,用户会或多或少地阅读其他类型的文章,甚至某些用户也可以在任何地方阅读。
基于这种情况,我们需要通过对用户在一段时间内针对每种文章类型阅读的文章数量进行排名来对用户的兴趣偏好进行排名,并使用用户的前10个标签来清楚地分辨出在哪种类型的用户中,喜欢文章的用户是哪种类型,用户的偏好类型的优先级是什么,这便于操作学生进行推送选择。
因此,用户标签还需要更加灵活,允许操作学生根据事件发生的时间和事件的数量等权重灵活地组合和选择用户组。
因为当前大部分推入操作是手动执行的,从选择文章到选择用户,再到匹配文章和用户,所以通常在正式推入之前执行大量的A / B测试,并且信息的类型很多文章。仅第一级标签已达到30种以上的类型,第二级标签的范围从100到几百种。整个标签可能有数千个标签。推送绝对不可能完成。
因此,当操作资源有限且无法实现自动化时,一般的操作学生将测试标签并选择覆盖大量用户并具有较高转换率的标签。但是同时,这种情况也会导致一些兴趣相对较小的用户被排除在推送人群之外。
针对这种情况,我们将用户的前10个次级标签及其相应的初级标签作为用户的初级标签和次级标签。这样,解决了用户覆盖范围的问题,运营商可以集中精力推送主要标签和人群。
但与此同时,又出现了另一个问题。选择一段时间内的用户行为,因此此时间段将更合适,这样它才能充分反映用户的兴趣并同时覆盖更多人(每天都会流失用户,因此时间轴越长,覆盖的用户数越多,时间轴越短,覆盖的用户数越少)
我们发现,用户的长期兴趣偏好在一定程度上趋于稳定,但是短期兴趣偏好反映了用户短期内关注热点的行为。因此,从这个角度来看,短期可能能够更好地满足用户的需求,但是用户的短期覆盖面很小。在这里,覆盖率和转化率之间始终存在着永恒的矛盾。
我们的方法是根据浏览时间细分用户。为用户提供长期兴趣偏好和短期兴趣偏好,并优先考虑短期兴趣偏好,并将短期兴趣用户从长期兴趣偏好中排除,并执行不同的推送。对于丢失的用户,很可能在最近3个月内没有访问记录(该信息将丢失的用户时间定义为3个月)。对于此类用户,我们将用户最后记录的标签作为用户标签,并进行损失追回。
这时,所有用户都有自己的标签,操作学生也可以根据用户的活动时间和阅读频率来推送不同的用户文章,实现一千人。
可以说,我们在这个问题上踩了很多坑。
第二种方法是通过算法直接标记用户。除了时间和阅读频率外,还可以向算法模型添加更多特征性纬度,例如用户从当前时间阅读文章,同时阅读[k13的持续时间],评论,喜欢等。时间,它还可以减少文章热点和热点事件的权重。
结论
当我回头总结这种经历时,即使读者跟随我理解这种经历,也可能会觉得它实际上非常简单,但是在这种经历中,我们确实踩到了无数个陷阱。特别是,我们不仅需要采集数据,制作标签,甚至还可以指导企业开展和分析问题。那种经历可以说是痛苦而快乐的-
痛苦是因为有太多问题,而且生意每天都在追我。我问为什么今天的转换率低?之所以高兴,是因为我们的最终转化率最终翻了一番,甚至高于被认为是最高回报的行业水平。
本文由@糖糖是老坛酸菜王原创发布。每个人都是产品经理。未经作者许可,严禁转载。
标题图片来自Unsplash,基于CC0协议。
奖励作者并鼓励他努力工作!
赞赏