采集内容插入词库(内容APP如何通过给文章分类以及打标签?17年-18年底)

优采云 发布时间: 2022-04-08 18:11

  采集内容插入词库(内容APP如何通过给文章分类以及打标签?17年-18年底)

  笔者结合自己的项目经验,分析了文章如何对内容APP进行分类和标记?

  

  2017-18年底,参与了一个信息内容兴趣偏好标注项目。什么是内容兴趣偏好标签?

  简单来说就是分析用户喜欢看的文章的类型,得到用户的兴趣爱好。在此基础上对用户进行个性化推荐和推送,有效提升应用活跃度,拉长用户。生命周期。

  这实际上是一个两步过程:

  

  那么在实践中真的那么简单吗?这两个看似简单的步骤是如何完成的?

  首先说一下分类文章

  因为这个项目,笔者查看了很多竞品app的文章分类,发现它们基本相同,但在细节上也存在一些差异。更多的问题在于信息 文章 分类难以穷尽。我们参考市场上现有的分类,在一些资料的基础上制定了一套内容兴趣偏好体系。在指定分类时,我们遵循MECE原则,基本做到了相互独立,完全穷举。

  接下来,我们要对 文章 进行分类,我们采用分类算法的监督学习。理想情况下,流程如下所示:

  

  然而,在实践中,存在两个问题。既然选择了监督学习,就面临着提供标注样本基础的需求。获取样本一般有以下三种方式:

  获得样本后,就是算法模型的训练和测试。算法模型的训练原理是对样本文章进行分割,提取实体,建立特征工程,将每个特征词作为向量拟合一个函数,这样当有新的文章 ,文章通过模型进行分词,计算结果。但是,模型不能靠单个样本准确,需要对模型进行测试和修正。一般测试流程如下:

  

  测试通过的模型不是永久的,后期可能还存在一些分类不准确的问题,可能是样本或者算法模型造成的。这就需要我们找到这些异常的文章及其分类,对分类进行修正,再次作为训练样本馈送到模型中,对模型进行修正。一方面,我们可以手动检查转化率较低的文章类别,以确定问题是否出在算法上。另外,这里因为每个文章的标签都被赋值了一个值,所以我们可以为这些值设置一个阈值。当最高值低于某个阈值时,这些文章及其标签会被召回,人工标注和修正,并放入这里的样本库。

  文章标签的计算,因为文章有多个标签的可能,不是一些二分类的结果,所以我们采用通过相似度算法,模型计算出文章 标签,并赋值。值越高,越接近该类标签,标注对应的标签。

  

  至此,文章的标注部分已经完成。

  如何标记用户

  标记用户实际上有两种方法,统计标记和算法标记。

  前者可以在算法资源不足、运算需求大的情况下起带头作用,后者可以在前者的基础上划分一部分流量,对算法模型进行验证和调整,不断优化。

  但是,在使用第一种方法时,我们发现一段时间内文章用户阅读的类型并不稳定,大部分用户都会有一个或几个主要的兴趣和偏好。这些类型的阅读文章的文章数量会更多,但同时,用户也会或多或少地阅读一些其他类型的文章,甚至有些用户会阅读他们所看到的一切。

  基于这样的情况,我们需要对用户的兴趣和喜好进行排名,也就是在一段时间内对每个文章类型的文章用户阅读数量进行排名,并取用户的前几名10个标签,明确告诉操作用户喜欢什么类型的文章,用户喜欢的类型在这些类型中的优先级是多少,方便操作同学推送和选择。

  因此,用户标签也需要更加灵活,让运营商可以根据事件发生时间、事件发生次数等权重灵活组合选择用户组。

  由于目前有很大一部分push推送是人工进行的,从选择文章,到选择用户,再到文章匹配用户,一般在进行正式推送之前进行大量的A/B出去。test ,信息文章的种类很多,只有一级标签就达到了30+种,二级标签从100到几百个不等。整体标签很可能有数千个标签。推学生的操作是绝对不可能的。

  所以在运营资源有限,无法实现自动化的情况下,一般运营同学会测试标签,选择覆盖用户多、转化率高的标签。但同时,这样的情况会导致一些兴趣偏好相对较小的用户被排除在推送人群之外。

  针对这种情况,我们将前 10 名用户的二级标签及其对应的一级标签作为用户的一级和二级标签。这样就解决了用户覆盖的问题,运营商也可以集中精力推送主标签和人群。

  但与此同时,又出现了另一个问题。选择一段时间内用户的行为比较合适,这样可以充分体现用户的兴趣,同时覆盖更多的人(每天都有流失的用户,所以时间线越长越大覆盖的用户数,时间线越短,覆盖的用户数越少)

  我们发现用户的长期兴趣偏好在一定程度上趋于稳定,但短期兴趣偏好反映了用户的短期跟进行为。因此,从这个角度来看,或许能在短期内满足用户的需求,但短期内覆盖的用户数量较少。在这里,触及和皈依之间总是存在着永恒的冲突。

  我们的方法是根据浏览时间对用户进行细分。给予用户长期利益偏好和短期利益偏好,优先考虑短期利益偏好,将短期利益用户排除在长期利益偏好之外,进行不同的推送。对于流失用户,很可能最近3个月内没有访问记录(流失用户时间在信息发布时定义为3个月)。对于此类用户,我们将用户最后记录的标签作为用户标签,并进行丢失恢复。

  到目前为止,所有用户都有自己的标签,运营商还可以根据用户的活跃时间和阅读频率推送不同的文章用户,真正做到千人千面。

  在这个问题上,可以说我们踩了很多坑。

<p>第二种方式是直接通过算法给用户打标签。除了时间和阅读频率,算法模型还可以加入更多的特征纬度,比如用户阅读文章到当前时间的时间,阅读

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线